易训练数据在困难任务中的非常有效性
通过从易到难的泛化和评估者的使用,本文提出一种可扩展的 AI 对齐方法,用于解决超越人类监督水平的困难推理任务,提升生成器模型在数学问题上的准确率。
Mar, 2024
本文提出一种简单的方法,用于评估预训练模型在特定 spurious feature 上的依赖程度并评估各种预训练模型和去偏见方法在问答 (QA) 中对大量已知和新发现偏差的鲁棒性,发现去偏见方法的 OOD 收益不能通过减少对偏见特征的依赖来解释,我们进一步通过测量 OOD 模型的性能表明其依赖于偏见特征,这表明 QA 数据集中存在共享的偏见,同时也需要进一步的工作来提高 LLM 鲁棒性的报告水平。
May, 2023
通过人类编写的常识规则与 GPT-3 生成的描述进行比较,本研究研究了 LLM、人类在简单与困难例子的数据标注解释方面的能力,研究结果表明对于简单示例,GPT-3 生成的解释具有高度的支持性,而人类解释更具有通用性,对于困难示例,人类解释在标签支持和通用判断方面都比 GPT-3 解释更好。
Nov, 2022
本篇论文讨论了监督强于人类水平的 AI 系统的问题,提出了一个实验设计并探讨如何通过与打破传统 AI 的对话式助手交互的方式来解决这个问题。在基于两个问答任务进行的试验中,我们发现,通过这种方式监管的人类表现显著优于只使用大语言模型或人类自身的表现。
Nov, 2022
本文提出了一种统一的数据创建流程,只需一个格式示例,适用于包括传统上问题较多的任务在内的广泛范围,通过实验证明使用指令跟随型大型语言模型创建的数据比使用人工标注的数据在分布外评估上表现更好(高达 17.5%),同时在分布内任务上保持可比较的性能,这些结果对于在现实世界中部署的自然语言处理系统的稳健性具有重要意义。
Oct, 2023
通过基于样本学习百分比的训练数据选择,我们展示了当前语言模型具备自主选择高质量训练数据的能力,这极大地降低了训练成本且达到或超过整个数据集训练的性能表现。
Feb, 2024
该研究分析了自然语言推理、释义检测和阅读理解中词汇重叠启发式的使用,发现更大的模型较不容易采用词汇重叠启发式,并且更长的训练会导致模型放弃使用词汇重叠启发式,最后提供证据表明模型大小差异的根源在于预训练模型。
Oct, 2022