前期文章提到,多模态的RAG框架ColPali经过视觉言语模型(VLMs)高效地检索纯视觉特色的文档,成功视觉文档问答。 【RAG&多模态】多模态RAG-ColPali:经常使用视觉言语模型成功高效的文档检索
本文再来看一个相似上班,VisRAG,一种基于视觉言语模型的检索增强生成(RAG)方法,用于处置多模态文档中的消息应用疑问。
VisRAG分为VisRAG-Ret和VisRAG-Gen两个阶段。
传统的基于文本的RAG(TextRAG,左)依赖于解析后的文本启动检索和生成,失落了多模态文档中的视觉消息;基于视觉的RAG(VisRAG,右)驳回基于VLM的检索器和生成器间接处置文档页面的图像,从而保管原始页面中的一切消息。
VisRAG-Ret将query和文档页面区分作为文本和图像在VLM中启动编码,发生一系列暗藏形态。最终嵌入经过对最后一层VLM暗藏形态启动加权平均池化获取:
其中,是第个暗藏形态,是序列长度,是第个权重,是查问或页面的嵌入。相似度得分经过查问和页面嵌入的余弦相似度计算。VisRAG-Ret经常使用InfoNCE损失启动优化:
其中,是注释档,是负文档集,是查问和d之间的相似度得分,是温度。
VisRAG-Gen经常使用VLM依据用户query和检索到的页面熟成答案。
原文链接:
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://clwxseo.com/wangluoyouhua/5763.html