- 揭示缺陷:探索合成数据的不完美和大型语言模型的缓解策略
合成数据被提出作为解决大型语言模型(LLMs)训练中高质量数据稀缺问题的方法。虽然有研究表明合成数据可以有效提高 LLMs 在下游基准测试中的性能,但分析显示合成数据存在固有缺陷。我们的工作针对广泛存在的问答对(Q-A pairs)合成数据 - SciQAG: 自动生成科学问答数据集的框架及细粒度评估
通过从科学文献中提取的信息,利用科学问答对生成的自动评估框架 SciQAG 表明,大型语言模型可用于从文献中提取关键知识的高质量科学问答对。
- 音频对话:用于音频和音乐理解的对话数据集
通过大型语言模型生成多轮对话,展示了音频理解中的复杂性和适用性。
- 关于故事理解中可控问答生成的少样本提示
基于儿童故事文本,本研究提出了一种少样本提示策略来控制生成问题 - 回答对,并通过实证评估表明,与参考模型相比,该策略在语义接近度评估以及问题 - 回答对的多样性和连贯性等场景中有效地将生成过程控制在一定范围内。
- NewsQs: 多源信息提问
我们提供了一个名为 NewsQs (新闻提示) 的数据集,其中提供了多篇新闻文档的问题 - 回答对。通过在 News On the Web 语料库的 FAQ 样式新闻文章上对 T5-Large 模型进行微调,我们创造了 NewsQs,并自动 - 经验调教语言模型优于知识学习者
通过在文档训练之前进行问答配对,提出了一种称为 PIT(pre-instruction-tuning)的方法,能够显著提高大型语言模型从新文档吸收知识的能力,比传统的指令调整方法的性能提高了 17.8%。
- MoRAL: MoE 展进 LoRA 用于 LLMs 的终身学习
提出了一种结合 Mixture-of-Experts 和 Low-Rank Adaptation 的方法 MoRAL,用于有效地进行大型语言模型的终身学习,使用问题 - 答案对作为输入以提高鲁棒性和效率,并通过新的评估基准和指标对其进行了全 - 信息损失问答:文本简化中的信息损失特征和恢复
文本简化旨在使技术文本对普通读者更易理解,但常常导致信息缺失和模糊。本研究提出了 InfoLossQA 框架,以问答对的形式描述和恢复由于简化而导致的信息缺失,并基于 Question Under Discussion 理论设计问答对,以帮 - 揭示模型洞察力:一份用于自动生成模型卡片的数据集
通过提供 500 个问题 - 答案配对的数据集,我们研究了语言模型生成模型卡片的能力,并发现目前 ChatGPT-3.5、LLaMa 和 Galactica 对研究论文的理解和生成准确的文本回答方面存在显著差距。我们认为这个数据集可以用来训 - VOLTA:可变的 VAE 对抗学习系统的多样化和可控问题 - 答案生成
本文提出了一种名为 VOLTA 的模型,它采用变分自编码器框架和共享后骨干网络作为其编码器和解码器,通过添加 InfoGAN 风格的潜在代码来实现生成多样性和不受输入控制的可控性,实验结果表明,相对于同类模型,VOLTA 能够显著提高生成多 - ACLDIFFQG:生成问题总结事实变化
通过补充问答对的形式,提供同期文章的真实不同之处,给出一个 759 组 QA 的 DIFFQG 供注释者使用,并通过这种方法研究了文档之间的自动更新概述。
- 小红帽环游世界:基于大型语言模型的跨语言故事策划与生成
研究跨语言故事生成中采用规划大语言模型来研究故事生成最佳方案,考虑了四种规划策略并系统分析了不同策略的输出差异,表明以问答对形式制定计划可生成更连贯的故事,同时给故事创作者更多的控制权。
- EMNLP理解 ME?用于细粒度视觉常识的多模态评估
本文介绍了一种多模态评估 (ME) 管道,用于自动生成问题 - 答案对以测试模型对视觉场景、文本和相关知识的理解。最后,我们的深入分析和比较揭示了有趣的发现:(1) 语义低级信息可帮助高级信息的学习,但反之则不行;(2) 与文本相比,视觉信 - EMNLPCONDAQA: 一个针对否定逻辑推理的对比阅读理解数据集
该研究介绍了 CONDAQA,这是第一个要求关于段落中否定语句涵义的英语阅读理解数据集,它挑战现有的自然语言理解系统,具有多样化的否定提示符,重点精心设计了具有谐音、范围变化和否定转变的三种编辑方式,细致构建了一系列难以回答的问题 - 答案 - 机器阅读理解的稳健领域自适应
本文提出了一种名为 RMRC 的方法,使用对话和领域自适应技术构建问题 - 答案对,通过答案提取器和问题选择器以及增强式自训练方法进行优化,从而解决机器阅读理解中因领域迁移引起的问题,包括噪声对应和效率降低,实验证明了该方法的有效性。
- 带有问答蓝图的条件生成
本文介绍了一种利用文本计划作为中介表示来使条件生成更加有根据的方法,并以问题 - 答案对的序列形式对文本计划进行了新的概念化,提出了 Transformer 模型,实现了将计划纳入生成输出的目的。
- ACLCCQA:用于模型预训练的新型 Web 规模问答数据集
本文提出一种在 Common Crawl 项目的基础上,使用大规模、自然、多样化问答数据集进行领域内预训练的方法,该方法可以用于 open-domain question-answering 任务中的零样本、低资源和微调设置,展示了预训练在 - EMNLPCOVR:基于真实图像的视觉组合推理测试平台
本文提出了 COVR,一个用于基于真实图像的组合通用化的新测试平台并使用基于场景图注释的实际图像和提出几乎完全自动的生成问题答案对以及相关 (场景) 图像集的过程来创建。由于自动生成过程,COVR 便于组合划分的生成,模型可以在测试时间零或 - ACL打破,扰动,建立:通过问题分解自动扰动推理路径
本研究提出了一种名为 BPB 的自动推理定向扰动(AROP)框架,用于针对问题 - 答案对进行符号扰动,并生成高质量的问题 - 答案对,同时构建了三个阅读理解基准测试的评估集,从而向传统的依赖于人工注释的基准测试构建提出挑战。
- EMNLP使用双边对比数据进行问题答案对排序的学习
本论文提出一种新颖简单的数据增强策略 ——Bilateral Generation(BiG),并设计了一个对比训练目标来提高现有标记数据中排名问题答案对的性能,通过使用两个预训练生成模型,即问题生成器和答案生成器,与原始负 QA 对形成假正