基于矩估计的对抗训练用于语境感知理解
该研究聚焦于 DialFRED 任务,介绍了 DialMAT 方法,其中提出了基于时刻的对抗训练,运用在语言、图像和行动的潜在空间,并引入了跨模态并行特征提取机制,基于 DialFRED 数据集构建的评估显示其在成功率和路径加权成功率方面表现优越,该模型在 CVPR 2023 体验智能研讨会的 DialFRED 挑战中取得了第一名的位置。
Nov, 2023
本研究针对 “Embodied instruction following” 的挑战性问题,利用 ALFRED 基准测试,通过引入多个视角和培训模型预测空间关系的方式来解决目标定位和语言指令接地等关键难点,同时通过引入预训练的物体检测模块来提高语言接地,实验证明我们的方法可以超越基线模型性能。
Jan, 2021
ALFRED 是一个用于学习自然语言指令和自我中心视觉到家庭任务动作序列映射的基准测试,包括 25k 个自然语言指令的交互式视觉环境的专家演示,并在序列长度,动作空间和语言方面比现有的视觉和语言任务数据集更复杂。
Dec, 2019
提出了一个学习机器人操纵任务高级认知能力的新框架,使用语言模型构建 AlphaBlock 数据集,自动采集综合高级多步文本计划和配对观察序列,使用多模式的闭环计划模型自回归生成计划,从而实现对机器人的精细操作。实验结果表明,该方法显著提高了成功率。
May, 2023
通过对代理的隐藏状态与指令进行对比学习,以及引入元动作来缩小高级语言指令与代理低级行动空间之间的语义差距,该研究成功提高了代理在未知环境下的成功率。
Oct, 2023
本文提出一种基于 Mixed-strategy Adversarial Training algorithm(MAT)的新型预训练语言模型微调方法,通过引入 Nash 均衡和熵镜像下降算法,并在大规模预训练模型(如 BERT 和 RoBERTa)上进行了广泛的实验验证,表明 MAT 在 GLUE 和 ANLI 基准测试中具有更好的泛化性和鲁棒性。
Jun, 2023
本文研究了如何将自然语言指令转化为虚拟环境中可行的多步骤行动序列,通过实证表明,结合一定的视觉信息和上下文语境,GPT-2 模型能够成功地生成金标准语句执行序列,为基于语言的虚拟代理提供了强大的视觉语义规划模块。
Sep, 2020
我们设计了一种基于大型语言模型 (LLM) 的学习系统 OLAF,使得普通用户可以通过语音纠正教导机器人,从而更新机器人的视觉运动神经策略,以避免未来重复错误,并在实验中展示了在长期任务执行中的成功率平均提高了 20.0%。
Oct, 2023
提出了一种基于对抗训练的算法 ALICE,利用小扰动词嵌入并最小化其对抗风险以规范化模型,通过估算这些扰动的两种不同方法来利用一个新颖的组合,实现不依赖于任何人工制定的特征、知识库或目标数据集以外的附加数据集的对 RoBERTa 模型的细调性能的提升,在多个需要常识推理的阅读理解数据集上实现了具有竞争力的结果。
May, 2020