与小猪佩奇一起学英语

ACLFeb, 2022

Learning English with Peppa Pig

Mitja Nikolaus, Afra Alishahi, Grzegorz Chrupała

TL;DR通过对儿童动画片数据集的使用，研究利用视觉和语音数据在联合矢量空间中表示话语与视觉信息的双向架构，以解决该领域的研究中存在的数据训练不足的问题。

Abstract

Recent computational models of the acquisition of spoken language via grounding in perception exploit associations between the spoken and visual modalities and learn to represent speech and visual data in a joint vector space. A major unresolved issue from the point of ecological valid

computational models spoken language acquisition perception grounding bi-modal architecture visual semantics

发现论文，激发创造

口语视觉模型：数据集、架构和评价技术综述

本综述纵览近 20 年来视觉基础口语建模的发展，重点讨论了语言学习的核心研究问题、建模架构以及评估指标和分析技术。

Apr, 2021

像婴儿一样：视觉背景下的神经语言习得

通过实验证明了在多模态环境中进行语言学习可以提高预测准确率，该研究使用了预训练的 BERT 嵌入以及不同语言和模型进行了测试，并得出了这个认识与身处环境相应认知理论相对应的结论。

May, 2018

使用语音到图像检索的语言学习

本研究提出了一种改进的神经网络方法，借助多层 GRU、重要性采样、循环学习率、向量自我注意力等结构，实现了从口语训练中创建基于视觉的句子嵌入，相比较前人工作取得了显著提升的图像字幕检索性能，并且揭示了模型的哪些层更适合识别输入中的单词。

Sep, 2019

低资源环境下基于视觉支撑的少样本词汇学习

本研究提出了一种视觉语音模型，能够通过少量的图像和单词样本来学习新词汇及其视觉描述，并通过多模式少量样本的学习在低资源语言 Yoruba 中取得更好的表现。

Jun, 2023

语言表征在视觉语音信号模型中的应用

基于视觉基础的言语知觉模型，使用多层循环高速公路网络对时间性建模，能够从输入信号中提取形式和基于含义的语言学知识，并分析了训练模型不同组件使用的表示方式。在表示层次结构的上升过程中，语义方面的编码越来越丰富，而语言输入中形式相关方面的编码在初始增加后呈现平稳或下降的趋势。

Feb, 2017

像双语婴儿一样：视觉引导双语语言模型的优势

通过使用 MS-COCO-ES 数据集中的英语和西班牙语的图像和字幕来训练 LSTM 语言模型，研究发现视觉基础能够提高语义相似性的理解能力，特别是在跨语言时，但是在抽象词汇方面没有显著优势。研究还指出，为了进一步提高视觉基础的语言模型的实用性，需要更多多语言数据和多语言说话者的感知基础。

Oct, 2022

通过图片学习语言

该研究提出了 Imaginet 模型，该模型可以从耦合文本和视觉输入中学习语言表达的视觉基础表示，采用多任务目标，并从视觉场景描述中获取单词的含义表达，并学习有效地利用语义解释多词短语的顺序结构。

Jun, 2015

基于视觉化支撑的未转录语音关键词预测学习

这篇论文中，采用图像与未翻译口头说明的组合，研究计算机视觉系统是否可以用于获取语音的文本标签，并使用图片到词语多标签视觉分类器标记图像的软文本标签。然后，训练神经网络将语音映射到这些软目标。结果表明，语音识别系统能够预测话语中出现的单词，并作为口头词组分类器，同时还经常混淆语义相关的词，例如 “男人” 和 “人” ，使其效果更好作为语义关键词识别器。

Mar, 2017

视觉基准帮助在低数据环境中学习词义

通过对具有意义的监督的视觉数据进行训练，我们发现在具有限定语言数据的情况下，视觉监督可以提高词汇学习的效率，但这种改进是有限的，并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。

Oct, 2023

语音和图像的多模态单样本学习

研究机器人如何通过视觉和语音标签来学习多模态单样本匹配任务，并且提出了几种基线和高级模型，最后通过在配对的语音和视觉数字数据集上进行实验说明了 Siamese 卷积神经网络在 11 种跨模态匹配方面的卓越性能。

Nov, 2018