Oct, 2023

自私而明智:探讨人机互动中代理人个性的影响

TL;DR自我博弈强化学习是设计谈判对话系统的一种自然方法:通过训练一个与模拟用户互动的代理来最大化其性能,该模拟用户能够模仿人际对话数据。然而,在先前的工作中发现,这种方法导致系统存在根本缺陷,无法学习妥协的价值,经常导致达不成协议(即对方没有交易),最终损害了模型的整体性能。在以书籍、帽子和球为对象的多问题谈判任务中,基于经济学的谈判理论,我们通过两种新颖的方式修改训练程序,设计具有不同个性的代理并分析其与人类合作伙伴的表现。研究发现,虽然两种技术都有潜力,但一种自私的代理(在最大化自身性能的同时避免退出)通过隐性学习为自己和谈判伙伴产生价值而表现优于其他变体。我们讨论了这些发现对于成功谈判对话系统的意义以及如何设计这些系统的未来影响。