Sep, 2024

在线与离线:第一方与第三方对社交聊天机器人的评估比较研究

TL;DR本研究解决了在评估对话聊天机器人时在线与离线评估方法的有效性之间的差距。通过扩展包含同情心聊天机器人的用户对话的基准数据集,并引入离线第三方评估,我们系统地比较了在线互动反馈与离线评估的差异。最重要的发现是,离线评估未能有效捕捉人机互动的细微差别,而使用GPT-4模型的自动化第三方评估能更好地接近第一方人类判断,从而推动对话AI评估的改进。