易训练数据在困难任务中的非常有效性

Jan, 2024

易训练数据在困难任务中的非常有效性

The Unreasonable Effectiveness of Easy Training Data for Hard Tasks

Peter Hase, Mohit Bansal, Peter Clark, Sarah Wiegreffe

TL;DR通过对容易和困难数据进行简单的训练方法、线性分类器头和 QLoRA 的易变难泛化，以及使用不同硬度度量的实验验证，我们得出了在语言模型中易变难泛化意外地很强，表明可扩展的监管问题可能比之前认为的更容易。

Abstract

How can we train models to perform well on hard test data when hard training data is by definition difficult to label correctly? This question has been termed the scalable oversight problem and has drawn increasing attention as →

scalable oversight problem language models easy-to-hard generalization training methods data collection

发现论文，激发创造

易于困难泛化：超越人类监督的可扩展对齐

通过从易到难的泛化和评估者的使用，本文提出一种可扩展的 AI 对齐方法，用于解决超越人类监督水平的困难推理任务，提升生成器模型在数学问题上的准确率。

Mar, 2024

再三思考：衡量消除问答模型预测快捷方式的效率

本文提出一种简单的方法，用于评估预训练模型在特定 spurious feature 上的依赖程度并评估各种预训练模型和去偏见方法在问答 (QA) 中对大量已知和新发现偏差的鲁棒性，发现去偏见方法的 OOD 收益不能通过减少对偏见特征的依赖来解释，我们进一步通过测量 OOD 模型的性能表明其依赖于偏见特征，这表明 QA 数据集中存在共享的偏见，同时也需要进一步的工作来提高 LLM 鲁棒性的报告水平。

May, 2023

难例也更难解释吗？人类和模型生成的解释研究

通过人类编写的常识规则与 GPT-3 生成的描述进行比较，本研究研究了 LLM、人类在简单与困难例子的数据标注解释方面的能力，研究结果表明对于简单示例，GPT-3 生成的解释具有高度的支持性，而人类解释更具有通用性，对于困难示例，人类解释在标签支持和通用判断方面都比 GPT-3 解释更好。

Nov, 2022

衡量大型语言模型可扩展监督的进展

本篇论文讨论了监督强于人类水平的 AI 系统的问题，提出了一个实验设计并探讨如何通过与打破传统 AI 的对话式助手交互的方式来解决这个问题。在基于两个问答任务进行的试验中，我们发现，通过这种方式监管的人类表现显著优于只使用大语言模型或人类自身的表现。

Nov, 2022

提升大型语言模型的数据生成能力

本文提出了一种统一的数据创建流程，只需一个格式示例，适用于包括传统上问题较多的任务在内的广泛范围，通过实验证明使用指令跟随型大型语言模型创建的数据比使用人工标注的数据在分布外评估上表现更好（高达 17.5%），同时在分布内任务上保持可比较的性能，这些结果对于在现实世界中部署的自然语言处理系统的稳健性具有重要意义。

Oct, 2023

研究提议：“高质量数据是否足够？

本文研究如何选择和创建高质量基准数据的子集以及对于模型的有效学习是否真正需要大型数据集，并计划研究数据修剪和数据创建范式以生成高质量数据。

Mar, 2022

估算和提高语言模型的强健性的方法

通过研究大型语言模型的泛化能力问题以及多种提高其分布韧性的方法，本文提出了未来改进大型语言模型鲁棒性的研究方向。

Jun, 2022

小型语言模型能为较大语言模型选择调整训练数据

通过基于样本学习百分比的训练数据选择，我们展示了当前语言模型具备自主选择高质量训练数据的能力，这极大地降低了训练成本且达到或超过整个数据集训练的性能表现。

Feb, 2024

随着更大的模型和更长的训练，词汇泛化能力提高

该研究分析了自然语言推理、释义检测和阅读理解中词汇重叠启发式的使用，发现更大的模型较不容易采用词汇重叠启发式，并且更长的训练会导致模型放弃使用词汇重叠启发式，最后提供证据表明模型大小差异的根源在于预训练模型。

Oct, 2022

弱到强泛化的增益量化

使用弱模型生成的标签对强模型进行微调可以显著提高强模型性能，本文提出了一个理论框架来解释这种弱到强的泛化现象，并通过多种实证评估验证了理论发现。

May, 2024