优化检索机制的表格深度学习微调
基于表格数据的局部校准 PFN 模型,在 TabZilla 的 95 个数据集上,提供了改进的性能,从而展示了我们方法对于深度学习在表格数据中的前沿研究所取得的有效性。
Jun, 2024
通过逐步增加一个与诸多表格检索模型类似的注意力检索组件,TabR 模型在一组公开基准测试中表现出最佳平均性能,成为几个数据集上的最新技术标准,甚至在最近提出的 “GBDT 友好” 基准测试中超越了 GBDT 模型。
Jul, 2023
本篇论文旨在研究在密集检索中,如何利用深度提示调整来减少部署成本,提出了两种与预训练语言模型和密集检索任务兼容的方法,并在 MS-MARCO 和自然问题数据集上取得了优于之前最先进模型的效果。
Aug, 2022
通过引入预训练语言模型(PTM)和三个处理阶段(MT、MF、CF),提出了一种新的名为 PTab 的框架,以将预训练模型用于建模表格数据,并取得比现有技术更好的分类效果。
Sep, 2022
通过一个全面的基准测试,本文研究了深度表格方法和基于树的方法在各种任务类型、大小分布和领域中的性能排名以及影响深度表格方法成功的关键因素,并提取了对预测准确性起决定性作用的元特征。这些研究将进一步促进表格数据的研究。
Jul, 2024
本研究提出了一种半参数学习模式的检索增强提示调优模型用于关系提取,在基于预训练模型的输出和非参数化最近邻分布下,通过开放式书本数据库的查询,可以更好地推理和查询模型选择的例子和知识,经过轨迹学习和训练得出的模型可以用于在标准监督和少样本场景下实现最先进的性能。
May, 2022
比较 fine-tuning 和 retrieval-augmented generation (RAG) 两种方法,发现 RAG 在不同主题的知识密集型任务中始终优于 fine-tuning,并且 LLMs 在 fine-tuning 中难以学习新的事实信息,通过在训练过程中暴露它们于相同事实的多个变体可以缓解这个问题。
Dec, 2023
该论文介绍了基于大规模文本检索技术在实际商业场景中的应用,以及在 TREC 2022 深度学习竞赛中所采用的混合文本检索和多阶段文本排序方法,结果表明我们提出的方法有效。
Aug, 2023