基于方法的地基和全面发展：跨模态和跨语言连接研究的一种方法论

EMNLPOct, 2023

基于方法的地基和全面发展：跨模态和跨语言连接研究的一种方法论

Grounded and Well-rounded: A Methodological Approach to the Study of Cross-modal and Cross-lingual Grounding

Timothee Mickus, Elaine Zosa, Denis Paperno

TL;DR通过建立一种方法论框架，对比训练在不同输入模态下的模型，本文研究了提供比仅有文本更丰富的输入来源对自然语言处理系统的影响，发现交叉模态接地、跨语言接地和未接地的模型之间存在质的差异，这从整体数据集层面和具体词表示层面衡量了模型的表现。

Abstract

grounding has been argued to be a crucial component towards the development of more complete and truly semantically competent artificial intelligence systems. Literature has divided into two camps: While some argue that

grounding artificial intelligence systems methodological framework input sources model behavior

发现论文，激发创造

语言处理的多模态基础

本文讨论多模态处理的最新进展，探讨了多模态信息流和不同的多模态表示方法，讨论了多模态基础对于语言处理任务的益处和挑战。特别着重研究动词的多模态基础，对语言的组成能力起着重要作用。

Jun, 2018

像双语婴儿一样：视觉引导双语语言模型的优势

通过使用 MS-COCO-ES 数据集中的英语和西班牙语的图像和字幕来训练 LSTM 语言模型，研究发现视觉基础能够提高语义相似性的理解能力，特别是在跨语言时，但是在抽象词汇方面没有显著优势。研究还指出，为了进一步提高视觉基础的语言模型的实用性，需要更多多语言数据和多语言说话者的感知基础。

Oct, 2022

大型语言模型真正地进行了多好的接地？

大型语言模型的可靠性和控制性方面的关键问题是如何通过知识增强模型进行接地，该研究提出了一种严格的接地定义，并引入新的数据集和接地度量标准来评估该定义，通过实验对 13 种不同大小和训练方法的大型语言模型进行研究，以提供改进接地能力的见解。

Nov, 2023

视觉基准帮助在低数据环境中学习词义

通过对具有意义的监督的视觉数据进行训练，我们发现在具有限定语言数据的情况下，视觉监督可以提高词汇学习的效率，但这种改进是有限的，并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。

Oct, 2023

检索增强的长文生成中的基础性：一项实证研究

我们对基于检索增强的大型语言模型在长篇问题回答中的接地性进行了实证研究。研究发现，尽管生成的句子中包含正确的答案，但在 3 个数据集和 4 个模型系列中，存在大量一致性未接地的句子。此外，我们还研究了模型大小、解码策略和指导调优等因素对接地性的影响。结果显示，尽管较大的模型更有效地将输出接地，但仍有相当数量的正确答案受到虚构内容的影响。这项研究为长篇问题回答中的接地性挑战提供了新的见解，并强调了在大型语言模型中采取更鲁棒的机制来减少未接地内容的生成的必要性。

Apr, 2024

从人工智能和认知科学的视角进行理论研究

探索了地基的概念，从认知科学和机器学习的角度，对地基的复杂性、在协作代理中的重要性以及两个领域中地基方法的相似性和差异进行了研究。研究了定制地基任务的神经符号方法的潜力，展示了它们如何更全面地处理地基。最后，讨论了地基进一步探索和发展的领域。

Feb, 2024

大型语言模型是假定的语义基础还是猜测？

现有的大型语言模型在构建共性时，假设存在共同基础，而无需使用对话行为，因此需要进一步研究人机交互中的共性问题。

Nov, 2023

视觉引导语言学习：语言游戏，数据集，任务和模型综述

对于基于语言模型目标在大规模纯文本数据上进行训练的几种机器学习模型，在许多自然语言理解和生成任务上取得了令人印象深刻的结果。然而，对于语义的许多方面，仅仅通过 “倾听收音机” 是无法学习到的。本文系统地回顾了视觉 + 语言领域中提出的多个任务和模型。利用维特根斯坦的 “语言游戏” 思想，将这些任务分为 3 个不同的类别：1）区分性游戏，2）生成性游戏，和 3）交互式游戏。我们的文献分析提供了证据，表明未来的工作应该专注于重要的交互式游戏，在其中自然语言的交流对于解决关于物体指称和行动计划的不确定性是必要的，而物理体现则是理解场景和事件语义的重要条件。作为总体，这些是发展基于神经模型的扎根意义的关键要求。

Dec, 2023

多模态指令中的符号基础

本文提出了一种方法来处理跨模态输入的原始流，以产生物体的细分并与高级概念相关联，以学习用户的颜色和形状的概念，并表明该模型可以从少量的物理演示中推广到识别新单词的物理指示。

Jun, 2017

一个（搜索）框内的语言：以真实世界的人机交互为基础的语言学习

研究通过现实世界数据进行基于场景语言学习，探索在用户与搜索引擎之间自然互动中建模教师 - 学生动态学习的出现、语义的普遍性，学习场景、表示和组合的功能，并表明该方法在组合性和零 - shot 推理任务方面提供了比 SOTA 的非基于场景的模型更好的结果和泛化能力。

Apr, 2021