儿童词汇学习与字幕模型之间的对应关系

Jul, 2022

儿童词汇学习与字幕模型之间的对应关系

Correspondences between word learning in children and captioning models

Sunayana Rane, Mira L. Nencheva, Zeyu Wang, Casey Lew-Williams, Olga Russakovsky...

TL;DR研究表明，儿童语言学习和图像字幕模型的表现存在一定的相似性，字幕模型能够将单词分类以帮助儿童学习，并且其性能与单词的具体性和图像现象有关。

Abstract

For human children as well as machine learning systems, a key challenge in learning a word is linking the word to the visual phenomena it describes. By organizing model output into word categories used to analyze child language learning data, we show a correspondence between

word learning visual phenomena image captioning models child language learning concreteness

发现论文，激发创造

从儿童身上学习：通过课程改进图像 - 字幕预训练

通过引入符合儿童语言学习理论的课程式学习框架，逐步增加每个标题的概念数量，为图像 - 标题预训练建立成果，以显著提高零样本图像分类和目标检测性能等各种预测任务。

May, 2023

图像字幕

这篇论文讨论了我们在图像字幕生成实验中的结果，并展示了我们的模型准确性以及从图像描述中学习的语言的流畅性，在几个标记数据集上进行了实验。我们将图像字幕应用于创建视频字幕，并提出了一些挑战性的假设。

May, 2018

基于视觉化支撑的未转录语音关键词预测学习

这篇论文中，采用图像与未翻译口头说明的组合，研究计算机视觉系统是否可以用于获取语音的文本标签，并使用图片到词语多标签视觉分类器标记图像的软文本标签。然后，训练神经网络将语音映射到这些软目标。结果表明，语音识别系统能够预测话语中出现的单词，并作为口头词组分类器，同时还经常混淆语义相关的词，例如 “男人” 和 “人” ，使其效果更好作为语义关键词识别器。

Mar, 2017

使用语音到图像检索的语言学习

本研究提出了一种改进的神经网络方法，借助多层 GRU、重要性采样、循环学习率、向量自我注意力等结构，实现了从口语训练中创建基于视觉的句子嵌入，相比较前人工作取得了显著提升的图像字幕检索性能，并且揭示了模型的哪些层更适合识别输入中的单词。

Sep, 2019

神经语言模型中的词汇习得

研究神经语言模型在训练过程中如何获取单词，并提取 MacArthur-Bates 交际发展清单上 600 多个单词的学习曲线和获取年龄。与儿童的单词获取研究结合，评估 LSTMs、BERT 和 GPT-2 模型的多种预测因素，发现模型对单词频率的依赖程度远高于儿童，但与儿童相似的是，它们在更长的话语中学习单词较慢。同时，模型在训练过程中遵循一致的模式，这些结果为人类语言模型的更类人化语言习得提供了启示。

Oct, 2021

现实世界图像描述和场景识别的全面分析

图像字幕生成是一项计算机视觉任务，涉及为图像生成自然语言描述，本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。

Aug, 2023

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

多模词汇分类的计算获取模型

本文提出一种认知启发的、多模态获取模型，通过跨模态自监督在自然数据上从图像 - 标题对进行训练，展示了该模型学习词汇分类和物体识别能力，并展现了类似于发展心理学文献中报告的趋势。我们公开了我们的代码和训练模型，供未来参考和使用。

May, 2022

跨模态统一建模技术用于字幕生成

该论文利用与计算模型相关的连贯性关系研究了图像字幕生成的信息需求和目标，通过特定的协议，获取 10,000 个图像与字幕的连贯性关系，将其用于学习推理的新任务，得到的结果显示，通过连贯性关系提高了生成的字幕的一致性和质量。

May, 2020

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020