使用一致性检查评估超人模型

Jun, 2023

Evaluating Superhuman Models with Consistency Checks

Lukas Fluri, Daniel Paleka, Florian Tramèr

TL;DR本文提出了通过一致性检查来评估超人工智能模型的框架，并在国际象棋位置评估、未来事件预测和法律判决等三个任务上展示了逻辑不一致性的例子。

Abstract

If machine learning models were to achieve superhuman abilities at various reasoning or decision-making tasks, how would we go about evaluating such models, given that humans would necessarily be poor proxies for

superhuman models evaluating consistency checks machine learning logical inconsistencies

发现论文，激发创造

超人公平性

将公平性问题重新解释为一种基于超级公平性目标的模仿学习任务，以同时提高决策的准确性和公平性。

Jan, 2023

将超级智能与人类行为相一致：以象棋为模型系统

研究人员基于人类下棋决策的详细数据，通过 AlphaZero 构建了一种定制化的人工智能引擎 Maia，能够更准确地预测人类棋手的下棋。这项研究表明，重点是建立精确的人类决策模型，安装有人类协作的人工智能系统具有很大的潜力。

Jun, 2020

评估人类错误与完美基准的对比

研究人类在制定决策时可能产生错误的情况，以国际象棋运动员的决策为例，从围绕技能、时间和决策难度三个方面特征进行分析，并且发现描述决策困难度的特征比技能或时间更有影响力。

Jun, 2016

尽管具有 “超人类” 表现，当前的 LLM 系统不适合进行伦理和安全决策

提出了一种新的提示策略，其中包括要求大语言模型解释其推理过程，但结果表明，LLM 的误差与人类的误差存在系统性差异，这使得制作对抗性示例变得相对容易，表示人类表现并不一定意味着人类理解或推理能力。

Dec, 2022

超级人工智能可以通过增加新奇性来改善人类决策能力

通过分析职业围棋选手过去 71 年中超过 580 万次决策，使用超级人工智能程序评估人类决策质量并比较人类决策和人工智能决策的胜率，结果表明，超级人工智能的出现促使人类玩家从传统策略中脱颖而出，导致他们去探索一些新的策略，从而提高了决策能力。

Mar, 2023

当今自然语言理解中 “超人类表现” 的含义是什么？

在过去五年中，自然语言处理领域关注于发展更大的预训练语言模型和引入基准测试，如 SuperGLUE 和 SQuAD，以测量其在语言理解、推理和阅读理解方面的能力。这篇论文对这些预训练语言模型声称的具有超人类能力以及当前基准测试的真正评估对象提出了批判性的看法，并指出了这些基准测试存在的严重局限性，提出了更公平、透明的基准测试建议。

May, 2023

从弱监督中引发强能力：弱到强的泛化

通过弱监督模型来训练强大的预训练模型，研究发现在自然语言处理、国际象棋和奖励建模任务中，弱模型引导强模型的普遍性能要优于弱模型，但仍然需要进一步研究以扩展到超人模型。利用辅助置信度损失方法，可以在自然语言处理任务中获得接近 GPT-3.5 级性能，这表明今天在修正超人模型的基本挑战上取得实证进展是可行的。

Dec, 2023

利用专家一致性提高算法决策支持能力

探讨了历史专家决策在机器学习中的应用，结合基于影响函数的方法，提出了训练时标签合并的方法，以及通过混合和推迟模型来利用推断的一致性，并以儿童虐待热线筛选为背景，证明所提出的方法可以显著提高高风险案件的预测准确率。

Jan, 2021

人与机器理解之间的不协调性

通过一项大规模众包研究，本文揭示和量化了通过图像分类任务来人与计算机理解背景的分歧，并回答了哪些复杂机器学习模型更接近于人类使用特征以进行准确预测，任务的难度如何影响机器选择特征的能力，并与人类相比，人类是否一致更擅长选择使图像识别更精确的特征。以上发现对于人机协作具有重要的意义，考虑到人工智能领域的长期目标是使机器能够像人类一样学习和推理。

Jan, 2021

神经模型一致性的逻辑驱动框架

本文提出了一种利用逻辑规则来约束神经模型，从而调整其预测不一致性，增强其预测准确性和一致性的学习框架，并在自然语言推理任务上进行了实验验证。

Aug, 2019