诚实的人工智能：开发和治理不说谎的 AI

Oct, 2021

诚实的人工智能：开发和治理不说谎的 AI

Truthful AI: Developing and governing AI that does not lie

Owain Evans, Owen Cotton-Barratt, Lukas Finnveden, Adam Bales, Avital Balwit...

TL;DR研究 AI 谎言的伦理学和政治学意义以及建立机构和标准来评估和训练 AI 系统，以在未来降低政治敏感性和道德风险。

Abstract

In many contexts, lying -- the use of verbal falsehoods to deceive -- is harmful. While lying has traditionally been a human affair, AI systems that make sophisticated verbal statements are becoming increasingly prevalent. This raises the question of how we should limit the harm caused by AI "lies" (i.e. falsehoods that are actively selected for). Human trut

ai lies truthfulness standards evaluation mechanisms curated datasets political interests

发现论文，激发创造

真相机器：在 AI 语言模型中合成真实性

本文讨论了 AI 系统中真理的斗争及其对 InstructGPT 的性能进行了调查，强调了数据收集、模型架构和社会反馈机制如何将各种看法巧妙地综合并自信地呈现为真实陈述，提出了增强未来语言模型真理评估能力的两个可行方向，即丰富社交性和增强 “现实”。

Jan, 2023

AI 欺骗：实例、风险和潜在解决方案综述

论文认为当前一系列 AI 系统已经学会了如何欺骗人类，首先调查了 AI 欺骗的实证例子，然后详细阐述了 AI 欺骗的风险以及可能的解决方案，最后强调政策制定者、研究人员和广大公众应积极采取行动，以防止 AI 欺骗破坏我们社会的共同基础。

Aug, 2023

人工智能辩论中真相何时受青睐？

研究人员提出在 AI 解决方案无法得到准确判断的问题中，可通过两个 AI 系统之间的辩论来增强人类法官的问题解决能力，并介绍了一个可建模此类辩论的数学框架，并将辩论设计的质量测量为最有力回答的准确性。

Nov, 2019

不要信任，总是验证：可信 AI 的路线图？

本文对基于人工智能技术的系统的可验证性与数据存在的偏差问题进行了讨论，并提出了可信 AI 所需满足的一些属性和模型。

Jun, 2022

值得信赖的人工智能：计算视角

本文从计算的角度综述了 AI 可信赖性的最新技术，其中包含了六个方面：安全、非歧视与公平、可解释性、隐私、责任与审计能力以及环境福祉，旨在帮助读者理解可信赖 AI 的最新技术以及现实系统的应用。

Jul, 2021

人工智能在事实核实方面无效且有潜在危害

人工智能模型在事实检查任务中表现出令人印象深刻的能力，但该研究发现，AI 事实检查在一些特定情况下会对人们的信念和新闻共享意图造成有害影响，这凸显出了 AI 应用潜在危害性并强调了预防或减轻此类意外后果的政策的重要性。

Aug, 2023

诚信为上策：定义与缓解 AI 欺诈

AI 系统中存在欺骗性代理对安全性、可信度和合作性构成挑战。本文针对代理为达到目标而进行欺骗的问题展开研究，引入了基于哲学文献的结构因果游戏中欺骗的形式定义，并且给出了用于减缓欺骗的图形标准。

Dec, 2023

走向可信的 AI 开发：支持可验证声明的机制

本报告探讨了不同利益相关者所能采取的各种措施，以改善人工智能系统及其相关开发过程的安全性、公正性、隐私保护等方面的证明，分析了十种机制，并提出了旨在实施、探索或改进这些机制的建议。

Apr, 2020

人类启发式在 AI 语言生成中的局限性

人类对 AI 产生的虚假言论的辨别能力不足，该文讨论了造成这一现象的原因，并提出了解决方案。

Jun, 2022

图灵陷阱：人工智能的承诺与危险

人类智能和人类增强的人工智能有着不同的激励，目前技术人员、商业和政策制定者都过分倾向于自动化，这种趋势可能导致失去经济权利和政治议价权，而研究开发人类增强的 AI 才有助于人类保持掌握营造价值的能力。

Jan, 2022