May, 2022

评估多模态交互代理

TL;DR本篇论文提出了一项名为标准化测试套件的评估方法,通过从真实人类交互数据挖掘行为场景,重播情境,让代理人控制从而完成离线交互,利用人类标注记录的代理人传承中的成功率排序,实现快速、可控、可解释、代表自然交互的评估。此方法有望加速智能代理人与人类自然交互的研究进展。