ACLOct, 2021

嗨,AI,你能通过与代理人对话解决复杂任务吗?

TL;DR为了解决模型训练的数据和资源浪费问题,本文提出了一项新的挑战 —— 通过自然语言与现有智能体通信以完成复杂任务。通过设计一个综合性的基准测试 ——CommaQA,该基准测试包括三项复杂的推理任务,旨在通过与现有的 QA 智能体进行沟通来解决这些任务。研究表明,传统的黑盒模型在使用现有智能体的知识和金标事实监督时也难以从头开始实现此任务。相比之下,学会与代理通信的模型表现更好,即使没有任何辅助监督和数据,这种通过与现有代理完成复杂任务的学习仍然是非常困难的。本文提供了 CommaQA 基准测试和组合泛化测试集,以推动这方面的研究。