优化检索机制的表格深度学习微调
通过逐步增加一个与诸多表格检索模型类似的注意力检索组件,TabR 模型在一组公开基准测试中表现出最佳平均性能,成为几个数据集上的最新技术标准,甚至在最近提出的 “GBDT 友好” 基准测试中超越了 GBDT 模型。
Jul, 2023
本篇论文旨在研究在密集检索中,如何利用深度提示调整来减少部署成本,提出了两种与预训练语言模型和密集检索任务兼容的方法,并在 MS-MARCO 和自然问题数据集上取得了优于之前最先进模型的效果。
Aug, 2022
通过引入预训练语言模型(PTM)和三个处理阶段(MT、MF、CF),提出了一种新的名为 PTab 的框架,以将预训练模型用于建模表格数据,并取得比现有技术更好的分类效果。
Sep, 2022
本研究提出了一种半参数学习模式的检索增强提示调优模型用于关系提取,在基于预训练模型的输出和非参数化最近邻分布下,通过开放式书本数据库的查询,可以更好地推理和查询模型选择的例子和知识,经过轨迹学习和训练得出的模型可以用于在标准监督和少样本场景下实现最先进的性能。
May, 2022
该论文介绍了基于大规模文本检索技术在实际商业场景中的应用,以及在 TREC 2022 深度学习竞赛中所采用的混合文本检索和多阶段文本排序方法,结果表明我们提出的方法有效。
Aug, 2023
本文提出了 Tabular Foundation Models (TabFMs),通过在广泛的表格数据集上使用预训练的大型语言模型 (LLM) 并进行微调,实现了对表格数据具有深刻理解和普适能力的目标。TabFMs 在指导性任务(如零样本和上下文推理)方面具有显著优势,并且在某些情况下甚至超越了著名但神秘的闭源 LLMs,如 GPT-4。此外,当仅有有限的数据进行微调时,我们的模型表现出了出色的效率和竞争性表现。最后,我们也探讨了 TabFM 的局限性和潜在机会,旨在激发和促进未来开发更强大的 TabFMs 的研究。
Oct, 2023
本研究旨在探究是否需要使用特别设计的表格型模型进行表格信息检索,结果表明在大部分情况下使用基于文本的模型,如 Dense Passage Retriever (DPR) 即可达到相似或更优秀的结果,无需特别设计。通过实验,辅助行 / 列嵌入、硬性注意力蒙版和软关系注意力偏差等三个模块也未能产生显著提高效果,表明使用特别设计的模型并非必要。
May, 2022
本文采用 Pattern-Exploiting Training 技术对预训练语言模型进行强化,在知识事实和表格推理方面优于当前基准,且更有效地支持信息选项卡的底层推理任务,且该模型对各种字符和单词级扰动具有鲁棒性。
Oct, 2022