通用化类比：向难以衡量的领域推广人工智能监管的测试平台

Nov, 2023

通用化类比：向难以衡量的领域推广人工智能监管的测试平台

Generalization Analogies (GENIES): A Testbed for Generalizing AI Oversight to Hard-To-Measure Domains

Joshua Clymer, Garrett Baker, Rohan Subramani, Sam Wang

TL;DRAI 系统越来越智能化，为了避免滥用人类反馈而学习追求遵循指示，研究通过控制 LLMs 对不可靠情况中的人类反馈进行泛化来减轻风险；采用 69 种不同领域的分布变化，发现奖励模型默认不会学习评估 “遵循指令”，而更偏好与互联网文本相似的人设；与标准微调相比，通过解读奖励模型的内部表示来实现更好的泛化效果，但仍然经常无法区分 “遵循指令” 和混淆行为；整合了 15 个最具挑战性的分布变化形成 GENIES 基准，旨在推动对奖励模型泛化能力的控制的进展。

Abstract

As ai systems become more intelligent and their behavior becomes more challenging to assess, they may learn to game the flaws of human feedback instead of genuinely striving to follow instructions; however, this

ai systems human feedback reward models generalization instruction-following

发现论文，激发创造

GeniL：一个关于语言泛化的多语言数据集

通过构建多语言数据集 GeniL，我们介绍了检测语言中概括化的新任务，其对多样的上下文进行了可靠区分，从而有助于深入理解刻板印象的永久化，这是实现更包容、负责任的语言技术的关键一步。

Apr, 2024

AnaloBench: 评估抽象与长文本上下文类比的鉴别能力

用于评估语言模型中类比推理能力的基准模型 ANALOBENCH 可以从大量信息中回忆相关经验，并将类比推理应用于复杂和冗长的情景中。

Feb, 2024

利用反事实任务评估大型语言模型的类比推理能力

研究表明，尽管大型语言模型在类比推理方面表现出色，但它们缺乏人类类比能力的鲁棒性和普遍性。

Feb, 2024

易于困难泛化：超越人类监督的可扩展对齐

通过从易到难的泛化和评估者的使用，本文提出一种可扩展的 AI 对齐方法，用于解决超越人类监督水平的困难推理任务，提升生成器模型在数学问题上的准确率。

Mar, 2024

通过自然语言众包指导实现跨任务的推广

通过理解人类可读的指令来学习新任务的挑战一直是人工智能领域的难题，本文基于自然指令数据集通过使用生成式预训练语言模型对任务特定指令进行编码和输出生成，研究横向任务泛化并发现模型在使用指令时对于未见过的任务泛化更好，但与认为上限还存在显著改进空间。

Apr, 2021

语言模型可以学习类比推理吗？研究训练目标和与人类表现的比较

通过测试几种学习基本类比推理的方法，研究人员发现模型在少量数据情况下也能学习类比推理，并与人类基准数据集进行比较发现，经过训练后，模型接近人类表现。

Oct, 2023

GENIE：面向文本生成的可重复和标准化人类评估技术

该研究关注文本生成的人类评估问题，通过注释设计选择和人类评估数据，提出一种自动化去除噪音注释者的机制，并基于此开发了 GENIE 系统，用于跨不同任务运行标准化的人类评估，提供总排行榜，已在四个核心文本生成任务上进行测试。

Jan, 2021

测试神经网络模型在自然语言推理基准数据集中的泛化能力

研究发现大部分神经网络模型在自然语言推理任务中无法很好地泛化，即使假设相同或相似，基准测试集得分很高的模型也很难在其他基准测试集上表现良好。此外，使用大型预训练语言模型有助于转移学习。当前自然语言推理数据集的涵盖范围不足以覆盖不同推理细节。

Oct, 2018

通过群不变学习提高对人类偏好的对齐的泛化能力

通过增强学习技术，我们提出了一种新方法来训练基于语言模型的 AI 助手，在不同数据组和领域之间实现一致的策略，并提高训练稳定性和模型泛化能力。

Oct, 2023

Genie: 生成式交互环境

Genie 是第一个通过无监督方式从无标签互联网视频中训练得到的生成交互式环境，它可以根据文本、合成图像、照片甚至草图生成无限多种可控行为的虚拟世界。拥有 11B 个参数的 Genie 可以被视为基础世界模型，它由时空视频分词器、自回归动力学模型以及简单可扩展的潜在动作模型组成。尽管训练时没有使用任何真实行为标签或其他领域特定的要求，Genie 可以使用户基于逐帧操作生成的环境。此外，由此产生的学习潜在动作空间可用于训练代理机器人模仿未见过的视频行为，为未来培训通才型代理机器人打开了道路。

Feb, 2024