儿童词汇学习与字幕模型之间的对应关系
通过引入符合儿童语言学习理论的课程式学习框架,逐步增加每个标题的概念数量,为图像 - 标题预训练建立成果,以显著提高零样本图像分类和目标检测性能等各种预测任务。
May, 2023
这篇论文讨论了我们在图像字幕生成实验中的结果,并展示了我们的模型准确性以及从图像描述中学习的语言的流畅性,在几个标记数据集上进行了实验。我们将图像字幕应用于创建视频字幕,并提出了一些挑战性的假设。
May, 2018
这篇论文中,采用图像与未翻译口头说明的组合,研究计算机视觉系统是否可以用于获取语音的文本标签,并使用图片到词语多标签视觉分类器标记图像的软文本标签。然后,训练神经网络将语音映射到这些软目标。结果表明,语音识别系统能够预测话语中出现的单词,并作为口头词组分类器,同时还经常混淆语义相关的词,例如 “男人” 和 “人” ,使其效果更好作为语义关键词识别器。
Mar, 2017
本研究提出了一种改进的神经网络方法,借助多层 GRU、重要性采样、循环学习率、向量自我注意力等结构,实现了从口语训练中创建基于视觉的句子嵌入,相比较前人工作取得了显著提升的图像字幕检索性能,并且揭示了模型的哪些层更适合识别输入中的单词。
Sep, 2019
研究神经语言模型在训练过程中如何获取单词,并提取 MacArthur-Bates 交际发展清单上 600 多个单词的学习曲线和获取年龄。与儿童的单词获取研究结合,评估 LSTMs、BERT 和 GPT-2 模型的多种预测因素,发现模型对单词频率的依赖程度远高于儿童,但与儿童相似的是,它们在更长的话语中学习单词较慢。同时,模型在训练过程中遵循一致的模式,这些结果为人类语言模型的更类人化语言习得提供了启示。
Oct, 2021
图像字幕生成是一项计算机视觉任务,涉及为图像生成自然语言描述,本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。
Aug, 2023
本文提出一种认知启发的、多模态获取模型,通过跨模态自监督在自然数据上从图像 - 标题对进行训练,展示了该模型学习词汇分类和物体识别能力,并展现了类似于发展心理学文献中报告的趋势。我们公开了我们的代码和训练模型,供未来参考和使用。
May, 2022
该论文利用与计算模型相关的连贯性关系研究了图像字幕生成的信息需求和目标,通过特定的协议,获取 10,000 个图像与字幕的连贯性关系,将其用于学习推理的新任务,得到的结果显示,通过连贯性关系提高了生成的字幕的一致性和质量。
May, 2020
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020