Jul, 2024

IDAT:用于构建和评估交互式任务求解智能体的多模态数据集和工具包

TL;DR利用自然语言实现人工智能代理与人类之间的无缝交互仍然是人工智能研究的一个关键目标。本文通过NeurIPS的IGLU竞赛,解决了开发能够理解和执行基于自然语言的指令的交互式代理的挑战。尽管取得了进展,但仍存在着适当数据集的稀缺性和有效评估平台的需求等挑战。我们引入了一种可扩展的数据收集工具,用于在类似于Minecraft的环境中收集交互式的基于语言的指令,产生了一个包含约9,000个话语和1,000多个澄清问题的多模态数据集。此外,我们提供了一个用于人类注释员进行多轮交流的人在环评估平台,进行定性分析和代理性能比较。我们向社区提供这些资源,即IDAT (IGLU Dataset And Toolkit),旨在推动智能、交互式的人工智能代理的发展,并为进一步的研究提供重要资源。