我们提出了一种无监督训练 QA 模型的方法,该方法使用生成的伪数据训练,为 QA 训练生成问题,通过对相关检索到的句子应用简单模板,而非原始上下文句子来实现,从而使模型能够学习更复杂的上下文问题关系。 使用这些数据训练 QA 模型可在 SQuAD 数据集上获得 14%的 F1 分数相对提高,并且在答案为命名实体时提高 20%,从而实现无监督 QA 的最新性能。
Apr, 2020
本研究通过自监督学习方式,包括不连贯性识别,插入检测以及问题预测,明确捕捉口语对话文档之间的指代消解和对话连贯性,提高了口语对话的意义和连贯性。在 Spoken-CoQA 数据集上取得了最先进的结果。
Jun, 2021
通过使用一种简单且经济高效的方法来合成数据以训练问答系统,本文提供了一种在资源丰富的英语等语言中常用的微调 GPT 模型的培训方法,并提出了一种零样本或少样本情况下使用指导调优模型生成 QA 对的方法,并通过实验比较了从指导调优模型获得 QA 对的各种策略,结果表明,使用我们提出的合成数据训练的模型能够达到与手动策划数据集训练的模型相当的性能,而无需付出人力成本。
Oct, 2023
研究提出了 SELF-ALIGN 方法,利用少量人工监督和结合原理驱动推理和 LLM 的生成能力,实现 AI 助手的自我对齐,减少人工监督的依赖,获得更好的性能,开发了 Dromedary AI 助手。
May, 2023
本文探讨了利用无监督方法合成训练集数据以及不匹配的语料库训练 NMT 模型作为 cloze-to-natural question translator 来更有效地训练 QA 模型,这种方法已经在 SQuAD v1 数据集上验证,并且相较于过去的监督学习方法取得更好的表现。
Jun, 2019
本文描述了一个架构,利用原始外部知识,基于无监督学习的技术,使得更小的模型可以回答与事实有关的问题,其目的在于能够显式地添加知识,而无需进行大量的训练。
Nov, 2019
通过无监督的大语言模型适应,研究论文探索了在不同目标领域中提供正确答案的问题回答,并研究了输入标记替换等方法来部分缓解中间和末尾信息获取的困难。
Feb, 2024
本文提出了基于自监督和对比表示学习的新型语音问答培训方案,采用多元增广策略以及时间对齐注意来更有效地指导生成模型,实现最佳答案预测解决方案,在三个 SQA 基准测试上取得了最新成果。
Sep, 2021
本文提出了一种自监督方法 Knowledge Triplet Learning(KTL)来处理知识图谱中的通识和科学知识,实现零样本的问答任务,取得了较大的改进。
May, 2020
本文提出了一种基于大型语言模型的自我点拨框架 (Self-Prompting framework),使得在开放域下的问答任务 (Open-Domain Question Answering) 可以在不需要训练数据和外部知识库的情况下实现,采用该方法在三个广泛使用的 ODQA 数据集上,实验结果优于之前的最先进方法,在 EM 指标上平均提高了 8.8 个百分点,并且能够实现与多种检索增强的微调模型相比较的性能。
Dec, 2022