人工智能与人类合作的多元规范
本研究提出了一种基于信念空间的策略学习模型,可以在测试时间解码和适应新颖的规约,从而显著提高各种策略池中的特定反应的搜索和训练,同时增强智能体规约的可解释性和可解释性。
Jun, 2022
研究了在协调博弈中,人工智能代理人如何通过多智能体强化学习和模仿学习来优化策略以满足现有社交约定。结果表明,使用少量模仿学习可以显著提高多智能体强化学习找到与现有社交约定相符的策略的概率。
Jun, 2018
使用大型语言模型开发协同规约,能够有效引导人类和人工智能之间的协调;通过将问题分解、多个新会话和人类反馈等策略应用于规约制定问题,可以获得更高效的协调规约;在与真实人类协同时,该方法与人类偏好更加一致,性能平均提高了 15%。
Nov, 2023
本文探究如何培训出更好地与人类合作的机器人,提出了一种名为 Fictitious Co-Play 的方法,通过与自己过去的训练成果和自己对战来训练代理人合作,实证实验显示在与新型代理人和人类伙伴(比如二人协作烹饪模拟器)合作时,使用 FCP 方法产生显著更高的学习效果与人类喜好。
Oct, 2021
研究表明,当自主算法如自我博弈和基于群体的训练算法用于训练智能体时,智能体往往只能与自己合作,而不能与人类合作。本文在一个类似于烹饪过程的环境中设计了几个智能体,以展示他们在与人类协作方面的表现,并探讨了更好协作的设计方法。
Oct, 2019
通过 inter-algorithm cross-play 评估了协作人工智能算法的表现,提出了一种多智能体扩展的 intrinsic reward 方法 Any-Play 学习,在合作卡牌游戏 Hanabi 中表现为最先进的协作算法。
Jan, 2022
本文提出了使用贝叶斯推断和 Gibbs 采样等技术来解决多智能体强化学习协作中的协调难题,以实现智能体对人类和其他智能体的有效交互,并在 Hanabi 这个复杂的纸牌游戏中表现出了强大的能力。
Mar, 2022