IDAT：用于构建和评估交互式任务求解智能体的多模态数据集和工具包

Jul, 2024

IDAT：用于构建和评估交互式任务求解智能体的多模态数据集和工具包

IDAT: A Multi-Modal Dataset and Toolkit for Building and Evaluating Interactive Task-Solving Agents

Shrestha Mohanty, Negar Arabzadeh, Andrea Tupini, Yuxuan Sun, Alexey Skrynnik...

TL;DR利用自然语言实现人工智能代理与人类之间的无缝交互仍然是人工智能研究的一个关键目标。本文通过NeurIPS的IGLU竞赛，解决了开发能够理解和执行基于自然语言的指令的交互式代理的挑战。尽管取得了进展，但仍存在着适当数据集的稀缺性和有效评估平台的需求等挑战。我们引入了一种可扩展的数据收集工具，用于在类似于Minecraft的环境中收集交互式的基于语言的指令，产生了一个包含约9,000个话语和1,000多个澄清问题的多模态数据集。此外，我们提供了一个用于人类注释员进行多轮交流的人在环评估平台，进行定性分析和代理性能比较。我们向社区提供这些资源，即IDAT (IGLU Dataset And Toolkit)，旨在推动智能、交互式的人工智能代理的发展，并为进一步的研究提供重要资源。

Abstract

seamless interaction between ai agents and humans using natural language remains a key goal in AI research. This paper addresses the chall

发现论文，激发创造

模仿交互智能

通过虚拟环境中的交互式训练、行为测试和逆强化学习技术，实现了大规模人类行为模仿，提高了人工智能代理的交互能力，并成功解决了代理评估方面的挑战。

Dec, 2020

SocialAI 0.1：向深度强化学习智能体的社会认知能力研究提供基准

本文讨论了构建具有社交交互能力的具体化自主智能体是人工智能面临的主要挑战之一，并指出了目前在具体化语言使用方面的研究方向存在的局限性。作者认为，实现人类水平的人工智能需要更广泛的关键社交技能。最后，通过实验研究了一种近期最先进的深度强化学习方法的局限性。

Apr, 2021

评估多模态交互代理

本篇论文提出了一项名为标准化测试套件的评估方法，通过从真实人类交互数据挖掘行为场景，重播情境，让代理人控制从而完成离线交互，利用人类标注记录的代理人传承中的成功率排序，实现快速、可控、可解释、代表自然交互的评估。此方法有望加速智能代理人与人类自然交互的研究进展。

May, 2022

为基于理解语境的语言模型收集交互式多模态数据集

本文介绍了利用自然语言任务进行协作的实体代理模型，发展出了可扩展的数据收集工具，并采集了互动立足语言理解的第一个数据集，以便进一步研究机器模拟人类智能适应新任务与环境的能力。

Nov, 2022

通过互相反馈与代理互动，提高基于场景的语言理解能力

探索交互式人工智能与人类协作的方向，研究在基于Minecraft世界的交互式语言理解任务中，人类可以提供哪些类型的辅助帮助，以提高AI行为的性能和表现。

Apr, 2023

通过交互式基于语境的语言指导重新定义具有代表性的代理人能力，改变以人为中心的AI协作

本文介绍了一种交互式的“体现代理”系统，它具有适应性，能够有效地处理自然语言指令，并提供反馈。同时，还介绍了一种用于收集有关该系统的大量文本指令的众包工具，以及该系统具有学习能力的数据集和基线模型。

May, 2023

使用进一步屏蔽语言建模在模拟环境中解决对话引导接地任务

本研究采用语言建模方法，在Minecraft数据集的协作建筑任务中进行多模态任务理解和任务导向对话理解任务，以提高AI系统的语感，实现更好的人机互动。实验结果表明，我们的方法具有更大的优势和应用潜力。

Jun, 2023

InterAct: 探索ChatGPT作为合作机器人的潜力

通过将OpenAI的ChatGPT与具身智能系统相结合，本研究评估了它对交互式决策基准的影响。我们引入了InterAct的概念，将ChatGPT赋予多个角色，如检查员和分类员，并与原始语言模型进行整合。我们的研究在AlfWorld中展示了惊人的98%成功率，该环境模拟了一个家庭环境中的6个不同任务，强调了有效的提示工程的重要性。结果突显了ChatGPT在理解和高效完成复杂任务方面的能力，为任务规划的进一步发展铺平了道路。

Aug, 2023

MindAgent：新兴游戏互动

我们提出了一种新型基础设施，名为MindAgent，用于评估游戏交互中的规划和协调能力，并引入了新的游戏场景和相关基准，以评估多智能体协作效率。我们使用新的自动度量CoS进行全面评估。我们希望我们对大型语言语料库学习的LLMs以及用于通用调度和协调的新基础设施的发现能够揭示如何获取这些技能的一些见解。

Sep, 2023

利用语言模型在虚拟环境中改善代理间的交互

通过语言建模，本研究旨在提高Minecraft数据集中群体构建任务的任务理解，这些模型集中于基于多模态理解和任务导向对话理解任务，展示了比现有方法大幅改进的实验结果，为未来研究指明了一个有前景的方向。

Feb, 2024