针对少样本面向任务常见问题检索的多租户优化
提出了一种基于未监督信息检索和 BERT 模型的 FAQ 检索系统,用于回答用户的查询,该系统通过计算用户问题和问题之间的相似度以及问题和答案之间的相关性来检索数据。该系统在两个数据集评估中表现出了优异的性能表现。
May, 2019
将意图识别重新定义为一个问答检索任务,通过批量对比损失采用了两阶段训练策略,提高了查询表示方法和同一意图答案间的上下文化令牌级相似度得分,最终在少样本意图识别测试上达到了最先进的性能。
Mar, 2023
使用 Wizard of Oz 的方法结合众包技术,从三个 Stack Exchange 网站收集了 2437 组对话和 10917 个问答信息,构建了 DoQA 数据集,为 FAQ 站点中的大量领域特定信息构建了面向对话的问答(QA)界面,并介绍了更多的实际检索信息场景,取得了良好的性能。
May, 2020
本研究提出了一种基于 Bi-Encoder 的多重场 FAQ 检索模型,包含问题、答案和类别等多个 FAQ 领域,在模型的训练和推理期间,利用多个组合来实现查询与 FAQ 之间的语义匹配。经过对私有数据集和公开数据集的实验,在无监督和有监督的情况下,本模型对 FAQ 检索任务的顶级 1 精度在内部和开放数据集上分别提高了约 27%和 20%,超越了最佳基准线。
Feb, 2023
通过多跳式少样本开放式丰富表格问答(MFORT-QA)方法,利用大型语言模型、少样本学习和多跳式推理思路,从表格数据中提取信息并显著改善抽取式表格问答方法的准确性。
Mar, 2024
本文提出了一种基于检索的系统和相关数据集,用于预测用户可能有的下一个问题,可以主动地帮助用户进行知识探索,引导用户进行更有意义的对话。该检索系统是在一个包含 14000 多组信息获取对话的数据集上进行训练的,该数据集包含一个有效的后继问题和一组无效候选问题。我们在 Follow-up Query Bank 数据集上训练了排名模型,并比较了监督和无监督方法的结果。结果表明,我们可以通过将有效后继问题排在更高的位置上进行检索,但进一步的知识构建可以提高排名性能。
Feb, 2023
本研究提出一种简单的微调框架,利用预先训练的文本模型与其预训练框架直接对齐,将问题、掩码代表答案范围和上下文连接为输入,使用相同的目标进行微调,通过实验研究表明该模型在各种 few-shot 配置下均取得了显著的增益。
Sep, 2021
该论文研究了开放式问答系统(QA)在同时检索结构化表格和非结构化文本数据时的困难之处,并提出了两种新技术以提高检索准确率,让模型的精确匹配得分提高至 27% 以上,这为该领域的未来研究提供了重要的参考价值。
Oct, 2020