自动议会：处理语言模型中的决策不确定性和不一致问题的解决方案

Oct, 2023

自动议会：处理语言模型中的决策不确定性和不一致问题的解决方案

Automated Parliaments: A Solution to Decision Uncertainty and Misalignment in Language Models

Thomas Forster, Jonathan Ouwerx, Shak Ragoler

TL;DR该研究论文提出了一种通过自动议会来提高语言模型（LMs）决策能力的方法 - 自动议会由代表特定视角的 AI 代表构成，代表自身包括三个 AI 模型：生成模型、修改模型和评估模型。我们提供了两种生成最佳解决方案的机制：用于响应生成的同时修改机制，以及用于公平评估解决方案的评估机制。整个过程始于每个生成模型根据其代表的理论创建响应，然后修改模型对其他响应进行调整以使其更加自洽，评估模型共同评估最佳的终点响应，最后，修改模型和生成模型根据评估模型的反馈进行学习。在我们的研究中，我们测试了评估机制，比较了单值零指导提示和自动议会少量指导提示在评估道德复杂场景中的应用，结果发现与基线相比，自动议会结构的损失值减少了 57.3％。我们最后讨论了自动议会的一些潜在应用和作为自动道德议会实施时的潜在影响。

Abstract

As AI takes on a greater role in the modern world, it is essential to ensure that ai models can overcome decision uncertainty and remain aligned with human morality and interests. This research paper proposes a method for improving the →

ai models automated parliaments decision-making language models evaluation mechanism

发现论文，激发创造

关于将大型语言模型（LLMs）纳入自动规划和调度（APS）的前景展望

自主规划和调度是人工智能中增长最快的领域之一，本研究通过对 126 篇论文进行全面检视，调查了 LLMs 在地址规划问题的各个方面时的独特应用，并提出了八个类别：语言翻译、计划生成、模型构建、多智能体规划、交互规划、启发式优化、工具集成以及脑启发式规划，强调 LLMs 与传统符号规划器的结合展示出潜力，揭示出一种有前景的神经符号化方法。

Jan, 2024

自动调查挑战

我们提出了一种新颖的平台，用于评估大型语言模型（LLMs）自主撰写和评论跨科学、人文、教育和法律等各个学科的调研论文的能力。这个框架中，人工智能系统通过模拟同行评审机制进行操作，类似于传统学术期刊，人类组织者担任编辑监督职责。在这个框架内，我们为 2023 年 AutoML 会议组织了一次竞赛。参赛者的任务是根据指定提示撰写独立的文章，并对其进行评估。评估标准包括清晰度、参考文献适当性、责任性和内容的实质价值。本文介绍了竞赛的设计，包括实施基线提交和评估方法。

Oct, 2023

评估和改进 AI 中的价值判断：一项基于场景的大型语言模型对社会约定的描述研究

AI 产出如何产生更好的结果，社会如何将其描绘，以及在冲突价值情境中作出决策模型的研究与应用。

Oct, 2023

基于 LLM 的智能虚拟助理与流程自动化

通过使用大型语言模型（LLMs），本研究提出了一种新颖的基于 LLM 的虚拟助手，能够根据高级用户请求自动执行手机应用程序中的多步操作，该系统采用了一种端到端的解决方案来解析指令，推理目标并执行操作，实验证明该系统可在支付宝上以自然语言指令完成复杂的移动操作任务，展示了大型语言模型在实现自动助手完成实际任务方面的潜力。

Dec, 2023

构想一个人工智能协作系统以将政策转化为决策模型

介绍利用自然语言和可编程代码同时表达政策的全球数字政府倡议，以及用 AI，自然语言处理和知识图谱缩短从政策文档到可执行决策模型的路线的方法。使用 AI 可帮助政府机构和政策专家扩大人可读和机器可执行政策规则的生产，同时提高透明度，可解释性，追溯性和决策的问责性。

Nov, 2022

推进法律推理：将人工智能应用于全球司法中的复杂和偏见，通过半自动化仲裁流程（SAAPs）

该研究通过使用先进语言模型和人工智能等新技术，探讨了法院判决分析、人类偏见识别和半自动仲裁过程等领域，并介绍了一种利用人工智能和人类协同分析的混合系统，旨在确保法律判决的一致应用和公正性。

Feb, 2024

生成式 AI 投票：公平的集体选择对 LLM 偏见和不一致性具有韧性

通过对超过 50K 个大型语言模型 (GPT 3、GPT 3.5 和 Llama2) 在 81 个现实世界投票选举中的高逼真模拟，我们展示了不同大型语言模型在复杂的偏好选举格式中存在偏见和显著的不一致性，与简单且一致的多数选举相比。公平的投票聚合方法，如均等份额，被证明是双赢的：对人类来说更公平的投票结果与更公平的人工智能代表相结合。这一新颖的潜在关系对于在低投票率和由人工智能代表支持的进步场景中的民主韧性至关重要：通过恢复高度代表性且更为公平的投票结果，可以缓解棄權选民的问题。这些见解为科学家、政策制定者和公民提供了在解释和缓解民主创新中的人工智能风险方面的重要基础。

May, 2024

大型语言模型用于合成参与式规划共享自动化电动出行系统

通过批判性利用大型语言模型（LLM）创建数字化代表不同利益相关者来规划共享自动化电动出行系统（SAEMS）的合成参与方法，本文介绍了一个在快速演变的移动技术多利益相关者环境中释放协同效应以解决城市交通问题的新方法。通过蒙特利尔案例研究的结果表明，这种结构化和可调参数的工作流程相较于单个 LLM 启用的专家代理生成的 SAEMS 计划，提供了具有较高可控性和综合性的输出。因此，该方法为改善多目标交通规划的包容性和可解释性提供了一条具有成本效益的途径，暗示了我们对可持续和公平交通系统的设想和战略的范式转变。

Apr, 2024

多代理辩论对抗对抗攻击

通过多代理辩论和嵌入式聚类，我们研究了现代语言模型在对抗性攻击和多代理环境下的表现，并发现多代理辩论可以减少模型的有害性，并改善对不同类型攻击主题的抵抗能力。

Jan, 2024

ChatEval：基于多智能体辩论的 LLM 评估器改进

通过多代理辩论框架，构建了一个名为 ChatEval 的多代理裁判团队，用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量，分析结果表明 ChatEval 不仅仅提供文本评分，还提供了模拟人类评估过程以进行可靠评估。

Aug, 2023