衡量大型语言模型可扩展监督的进展

Nov, 2022

衡量大型语言模型可扩展监督的进展

Measuring Progress on Scalable Oversight for Large Language Models

Samuel R. Bowman, Jeeyoon Hyun, Ethan Perez, Edwin Chen, Craig Pettit...

TL;DR本篇论文讨论了监督强于人类水平的 AI 系统的问题，提出了一个实验设计并探讨如何通过与打破传统 AI 的对话式助手交互的方式来解决这个问题。在基于两个问答任务进行的试验中，我们发现，通过这种方式监管的人类表现显著优于只使用大语言模型或人类自身的表现。

Abstract

Developing safe and useful general-purpose ai systems will require us to make progress on scalable oversight: the problem of supervising systems that potentially outperform us on most skills relevant to the task

scalable oversight general-purpose ai systems experimental design large-language-model question-answering tasks

发现论文，激发创造

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

大规模弱监督进行稳健语音识别

研究了训练简单的语音处理系统预测互联网音频大量转录的能力，在 680,000 小时的多语言和多任务监督的基础上，生成的模型具有很好的泛化能力，并且通常与之前的完全监督结果竞争，但在零次传输设置下不需要进行任何微调，与人类相比，模型的准确性和稳健性接近，并且同时发布了模型和推理代码，作为进一步稳健语音处理工作的基础。

Dec, 2022

自我批评模型用于辅助人类评估员

本文介绍了利用大型语言模型进行自然语言批判的方法，帮助人们更有效地检测摘要中的问题，并着重研究了批判能力的缩放特性和与生成能力和辨别能力的比较，为机器学习系统的监督提供了 AI 辅助人类反馈的概念证明。

Jun, 2022

易训练数据在困难任务中的非常有效性

通过对容易和困难数据进行简单的训练方法、线性分类器头和 QLoRA 的易变难泛化，以及使用不同硬度度量的实验验证，我们得出了在语言模型中易变难泛化意外地很强，表明可扩展的监管问题可能比之前认为的更容易。

Jan, 2024

使用人类参与的方法开展大型语言模型审计的框架开发

我们提出了一种自动且可扩展的解决方案来对 LLM 进行审核，其中使用了不同的 LLM 以及人类参与。通过人类参与，我们可以验证回复的标准化评估准则以及生成所需的审核方法。在 TruthfulQA 数据集上的实验证明了我们可以从一个 LLM 生成可靠的审核方法，以用于审核另一个 LLM 的不一致之处。生成和应用审核方法的标准是普适的，适用于不同的 LLM，无论其底层结构或训练机制如何。

Feb, 2024

大型语言模型中的人为因素对错误检测的影响：系统文献综述与未来研究方向

研究对 LLM 技术中的错误进行风险减轻，并分析和综合研究的结果及未来研究方向。

Mar, 2024

迈向一种心理学通用人工智能：大型语言模型的现有应用和未来前景综述

心理学中的复杂原理与广泛社会影响形成了一个重要的社会挑战。近年来，高度适应和可复用的人工智能模型在心理学领域崛起，强调了对这些大规模人工智能模型的性能验证的重要性，同时突出了这些模型在社交媒体分析、临床护理洞察、社区监测和心理学理论的细致探索等领域的前沿进展和实际应用。基于我们的综述，我们预示心理学领域将会加速发展，这源于这些大规模人工智能模型的推动。这些未来的综合型人工智能模型有望大幅降低劳动成本并缓解社会压力，然而，这种前进的势头在考虑到医疗仪器和相关应用所需的范式变革和升级时也面临一系列挑战。

Dec, 2023

支持人工智能与人类合作审计 LLM 的 LLM

本文介绍了一个新的大型语言模型审计工具 AdaTest ++，并展示了人类和生成模型在协作审计中的互补优势，该工具有效地利用人类的强项，包括模式化、假设形成和测试，帮助鉴定了之前鲜有报道的 26 种不同类型的失效模式。

Apr, 2023

语言模型中复杂技能的出现理论

通过对语言模型的参数集和训练语料库进行扩展，可以产生新的技能，该现象对于 AI 产品的发展具有重要推动作用。本文采用简单的统计框架和知名的扩展定律分析了新技能的出现，揭示了预训练模型在学习过程中的高效性。

Jul, 2023

自动调查挑战

我们提出了一种新颖的平台，用于评估大型语言模型（LLMs）自主撰写和评论跨科学、人文、教育和法律等各个学科的调研论文的能力。这个框架中，人工智能系统通过模拟同行评审机制进行操作，类似于传统学术期刊，人类组织者担任编辑监督职责。在这个框架内，我们为 2023 年 AutoML 会议组织了一次竞赛。参赛者的任务是根据指定提示撰写独立的文章，并对其进行评估。评估标准包括清晰度、参考文献适当性、责任性和内容的实质价值。本文介绍了竞赛的设计，包括实施基线提交和评估方法。

Oct, 2023