基于提示的少样本问答合成数据生成
本文研究如何使用 Prompt-based Fine-tuning 技术提高语言模型和多模式因果变换器模型的效果,结果表明使用只有 35%-40% 的训练数据集便能取得可比较的效果,从而达到显著的时间和费用节约。
Apr, 2022
该研究提出了一个基于最小数据增强框架的开放领域问答系统,通过使用近似图算法和无监督问题生成,选择最具信息量的数据集进行微调,从而在效率上实现可比较或更好的准确性,提高了 F-1 分数高达 27.5%。
Oct, 2023
该研究旨在通过使用大规模语言模型(LSLM)独特的少样本能力,借助于 Google 搜索返回的信息对语言模型进行少量提示,从而克服其与现实事实和最新信息相关性的挑战,从而使得模型在开放领域问题回答方面的性能优于相同或更大规模的封闭书模型,同时,增加推理时间的计算能力可以提高模型的性能。
Mar, 2022
本文提出了一种基于大型语言模型的自我点拨框架 (Self-Prompting framework),使得在开放域下的问答任务 (Open-Domain Question Answering) 可以在不需要训练数据和外部知识库的情况下实现,采用该方法在三个广泛使用的 ODQA 数据集上,实验结果优于之前的最先进方法,在 EM 指标上平均提高了 8.8 个百分点,并且能够实现与多种检索增强的微调模型相比较的性能。
Dec, 2022
本研究提出了一种方法来改善跨语言问答的表现,利用问答生成模型以跨语言的方式生成合成数据,无需额外标注数据,并展示了在四个多语言数据集上的表现显著优于仅使用英文数据的基线模型,创造了新的最优性能水平。
Oct, 2020
本文介绍了如何使用合成领域特定数据集来改进问答的性能,通过实验表明使用该方法 fine-tune 下游模型的表现得到了显著的提升。
Nov, 2022
通过利用大型语言模型,研究了模型大小、预训练模型的质量、合成数据的规模和算法选择等多个因素,缩小了人工和合成问题 - 答案对之间的差距。该研究通过模型生成的数据,在 SQuAD 数据集上实现了良好的准确率,并在 SQuAD2.0 上显示出优于以前的工作的结果。
Feb, 2020
本研究利用丰富的标签语义信息提出了一种新颖的标签引导数据增强框架 PromptDA,通过有效地利用标签语义和数据增强来提高自然语言理解的性能,以解决如何为基于 Prompt 的 few-shot 调整设计有效的数据增强方法的重要研究问题。
May, 2022
本文提出了一种基于大型语言模型的数据注释方法,通过提示示例和解释的方式,实现了无监督的数据注释,实验结果表明该方法优于众包注释方法。
Mar, 2023
大型语言模型在社会科学文本标注任务中应用广泛,其性能超过人类工作者且成本更低。然而,我们以往对选择提示对标注准确性的影响尚未进行过研究。在本研究中,我们展示了性能在不同提示之间存在巨大差异,并运用自动提示优化的方法系统地设计出高质量提示。同时,我们还提供了一个简单的基于浏览器实现的方法链接给社区。
Jul, 2024