超越提示:从人类交流中学习,提升人工智能意图对齐
本文探讨了人工智能、对齐、大型语言模型、总结模型和人类反馈等方面的方法论挑战,特别是针对训练总结文本的 LLMs。具体地,我们关注的是收集可靠人类反馈的方法,以训练奖励模型并进一步改进总结模型。结论是建议有关 LLMs 总结能力对齐研究的实验设计方面进行特定的改进。
Dec, 2022
提出和评估一种新颖的方法,在不依赖任何存储数据或预训练的情况下,在 LLM 代理之间进行知识蒸馏,以实时保留人类角色扮演中的独特语境,并评估我们的系统在模拟的真实世界任务中表现更好。
Mar, 2024
近期的人工智能的普适性进展凸显出引导人工智能系统走向个人和群体的目标、道德原则和价值观的重要性,这被广泛称为对齐。然而,人工智能和哲学领域对于人工智能和人类对齐的定义和范围尚未被明确界定,而且这个问题的长期互动和动态变化也基本被忽视。为了填补这些空白,我们对 2019 年至 2024 年 1 月间发表的 400 多篇论文进行了系统综述,涵盖了人机交互、自然语言处理、机器学习等多个领域。我们对人工智能与人类对齐进行了描述、定义和范围界定,并从以人为中心的视角提出了一个 “双向人工智能与人类对齐” 的概念框架来组织文献。该框架包括了将人工智能与人类对齐的传统研究,即确保人工智能系统产生由人类确定的预期结果,以及调整人类与人工智能对齐的概念,旨在帮助个人和社会在认知和行为上适应人工智能进展。此外,我们阐述了文献分析的关键发现,包括关于人类价值观、交互技术和评估的讨论。为了未来研究的发展,我们展望了未来方向的三个关键挑战,并提出了潜在的未来解决方案的例子。
Jun, 2024
本文探讨了大规模语言技术在人类与对话代理之间的应用,提出了几个步骤以确保人类价值观得到贯彻,并探索了如何通过对话规范来协调对话代理与人类之间的通信。
Sep, 2022
使用大型语言模型开发协同规约,能够有效引导人类和人工智能之间的协调;通过将问题分解、多个新会话和人类反馈等策略应用于规约制定问题,可以获得更高效的协调规约;在与真实人类协同时,该方法与人类偏好更加一致,性能平均提高了 15%。
Nov, 2023
本文探讨了大型语言模型在文本生成方面的出色表现,介绍了不同人工智能与人类交互模式下的文本生成任务谱系,并鼓励研究人员关注需要更高程度人类参与的复杂、相互依存的创作任务。
Mar, 2023
在 AI 辅助决策中,我们提出了人工智能决策框架 (Human-AI Deliberation) 和交互模型 (Deliberative AI),其中包括人工智能系统和人类之间的维度级意见引出、辩论性讨论和决策更新,以促进人类对冲突的人工智能意见进行反思和讨论。
Mar, 2024
在人工智能中介的交流领域,通过大型语言模型驱动的工具对人际交流具有重要作用。本研究采用混合方法,进行了为期一周的日记和访谈研究,旨在探索用户对这些工具在短期和长期可带来的能力的感知。研究结果表明,参与者积极评价人工智能中介交流的支持功能,认为这些工具有助于增强交流自信,帮助他们准确表达思想并克服语言和文化障碍。然而,研究也揭示了当前人工智能中介交流工具的局限性,包括冗长的回复、不自然的回应和过于情绪化的表达。这些不足进一步受到用户对不真实性和过度依赖技术的担忧的加剧。此外,我们还确认了四个由交流利害(高或低)和关系动态(正式或非正式)所区分的关键交流领域,这些领域对用户对人工智能中介交流工具的态度具有不同的预测能力。具体而言,参与者认为该工具在正式关系中比非正式关系更合适,在高压环境下比低压环境下更有益。
Oct, 2023