CompGuessWhat?!：基于感知的语言学习的多任务评估框架

ACLJun, 2020

CompGuessWhat?!：基于感知的语言学习的多任务评估框架

CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language Learning

Alessandro Suglia, Ioannis Konstas, Andrea Vanzo, Emanuele Bastianelli, Desmond Elliott...

TL;DR提出了一个评估框架 GROLLA，用于属性引导的基于场景的语言学习，其中包括三个子任务，以及一个用于评估学习潜在表征质量的新数据集 CompGuessWhat？！。结果显示，现有的模型学到了表达对象属性的表征的能力不足，并且它们没有学会足够稳健的策略和表征，在涉及新的场景或物体的游戏中表现最佳的无影响的准确度为 50.06％。

Abstract

Approaches to grounded language learning typically focus on a single task-based final performance measure that may not depend on desirable properties of the learned hidden representations, such as their ability to predict salient →

grounded language learning grolla attributes compguesswhat?!neural representations

发现论文，激发创造

基于语言和感知的属性学习联合模型

本文研究了语言基础问题，提出了一种联合学习语言和感知模型的方法，采用基于概率的范畴语法来构建丰富的、组合的含义表示，并且在物理场景下评估了该方法的性能，演示了准确的任务性能和有效的潜变量概念归纳。

Jun, 2012

GRILL: 基于文本和图像区域对齐的视觉 - 语言预训练

本文介绍了一种名为 GRILL 的 VL 模型，能够通过利用物体 - 文本对齐来学习对象对齐与定位，从而在零个或很少的训练实例下，推广到各种零 / 几 - shot 任务，包括视觉问答、字幕和定位任务。评估表明，GRILL 模型 consistently surpasses 了现有的几种有限 / 几 - shot 方法。

May, 2023

基于场景语境的系统化概括语言理解基准测试

本文介绍了一个新的基准测试 gSCAN，用于评估位于语言理解中的组成泛化，在语言描述中使用诸如 “在摩天轮旁边向粉色布朗托蜥蜴问候” 等常见词汇，并将其用于语言理解任务。测试发现，在需要系统的组成规则的情况下，强大的多模态基线模型和最先进的组成方法在大多数情况下都会明显地失败。

Mar, 2020

超越任务成功：关注同时学习观察、提问和猜测

本文提出了一种基于视觉支撑和对话系统组件融合的对话状态编码器，并以猜谜游戏 GuessWhat?! 为测试基地。通过多任务学习和协作学习，得出本文方法比基准系统更准确且具备更好的语言技能。

Sep, 2018

视觉引导语言学习：语言游戏，数据集，任务和模型综述

对于基于语言模型目标在大规模纯文本数据上进行训练的几种机器学习模型，在许多自然语言理解和生成任务上取得了令人印象深刻的结果。然而，对于语义的许多方面，仅仅通过 “倾听收音机” 是无法学习到的。本文系统地回顾了视觉 + 语言领域中提出的多个任务和模型。利用维特根斯坦的 “语言游戏” 思想，将这些任务分为 3 个不同的类别：1）区分性游戏，2）生成性游戏，和 3）交互式游戏。我们的文献分析提供了证据，表明未来的工作应该专注于重要的交互式游戏，在其中自然语言的交流对于解决关于物体指称和行动计划的不确定性是必要的，而物理体现则是理解场景和事件语义的重要条件。作为总体，这些是发展基于神经模型的扎根意义的关键要求。

Dec, 2023

基于情境猜词游戏中从感知信息中构建概念表征

利用 “正则化自编码器”（Regularized Auto-Encoders）的 “想象模块”，可以在没有金标准类别标签的情况下，学习上下文感知和类别感知的潜在嵌入，进一步提高分析场景和提问的准确性，从而在知识猜测的游戏中取得更高的成功率。

Nov, 2020

LanGWM: 语言引导的世界模型

通过语言为鲁棒的动作选择增强状态抽象技术，利用语言为基础的视觉特征来改进强化学习中的世界模型学习，提高对于复杂任务中的视觉控制的推广性。

Nov, 2023

行动之前思考：组合泛化的简单基线

本研究基于观察到实现 gSCAN 任务的关键在于在进行 navigate 操作之前确认 target object 和转化成序列的理念，提出了一个基于注意力机制改进的模型和一个辅助损失函数，该方法对两个组合任务具有很好的性能且验证了 gSCAN 作为评估模型组合能力的基准任务的相关性。

Sep, 2020

在二维环境中的交互式基于语境的语言习得和推理

基于 2D 迷宫世界，通过虚拟代理学习语言的模型，将语言的生成与理解与其他计算流程分离，从而成功地解决新单词出现的问题。模型可以解释人类可理解的中间输出结果，大幅优于其他五种比较方法。

Jan, 2018

学习玩猜猜是谁游戏，并由此发明基于实体的语言

采用 Deep Recurrent Q-Networks 框架和基于情境互动的交流为主要驱动力，让多个智能体在 Guess Who? 游戏中进行交互式图像搜索，实现了基于物理概念的单词编码，以及多步骤对话能力的学习。

Nov, 2016