使用三元编码模型的多模态表格和文本检索
本研究提出了一个优化的 OpenQA 表格文本检索器(OTTeR),通过增强混合模态表示学习,采用混合模态负面抽样策略和综合预训练来解决表格文本不一致和数据稀疏性问题,并在实验中取得最先进的结果。
Oct, 2022
本研究旨在探究是否需要使用特别设计的表格型模型进行表格信息检索,结果表明在大部分情况下使用基于文本的模型,如 Dense Passage Retriever (DPR) 即可达到相似或更优秀的结果,无需特别设计。通过实验,辅助行 / 列嵌入、硬性注意力蒙版和软关系注意力偏差等三个模块也未能产生显著提高效果,表明使用特别设计的模型并非必要。
May, 2022
本论文介绍了一种名为 “Conversational Tables” 的方法,综合使用了文本和非文本信息,利用 Transformer 编码器 - 解码器来检索表格信息,并生成基于所检索到信息的对话响应,实验结果表明在 HyrbiDialogue 数据集上取得了相对 5%左右的 Top-1 和 Top-3 准确度提高,并在响应生成上取得了 46%左右的 ROUGE 分数相对提高和更好的人类评估结果。
Mar, 2023
本文提出了一种新的视频检索方法,采用双重深度编码网络进行多级编码,将视频和查询作为两种模态编码为向量,同时结合好的可解释性和性能的高性能的概念空间和潜在空间来进行深空间学习,经实验证明了方法的可行性。
Sep, 2020
本文提出了一种基于多模态 transformer 架构的视频检索方法,该方法能够充分利用视频中的跨模态线索,并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。
Jul, 2020
该研究探讨了双编码器的检索能力,并将其与稀疏词袋模型和注意力神经网络进行了比较。研究发现固定长度编码的能力存在限制,具体表现为编码维数,金标和排名较低文件之间的边际,以及文档长度。在此基础上,该研究提出了一种结合了双编码器的高效性和注意力结构的表达能力的简单神经模型,并探索了稀疏 - 密集混合模型以提高检索精度,这些模型在大规模检索中胜过强有力的替代方案。
May, 2020
本文提出了一种简单的方法,利用表格内容为基于 BERT 的模型解决文本到 SQL 的问题。通过观察表格内容与问题中的一些单词匹配以及表格标题也与问题中的一些单词匹配,我们为深度模型编码了两个额外的特征向量。我们在 WikiSQL 数据集上进行了测试,并在逻辑形式和执行准确性方面比 BERT 基线提高了 3.7%,成为业内领先者。
Oct, 2019
该论文研究了开放式问答系统(QA)在同时检索结构化表格和非结构化文本数据时的困难之处,并提出了两种新技术以提高检索准确率,让模型的精确匹配得分提高至 27% 以上,这为该领域的未来研究提供了重要的参考价值。
Oct, 2020