照顾者的交流塑造婴幼儿视觉能力：双人游戏的计算研究

Dec, 2023

照顾者的交流塑造婴幼儿视觉能力：双人游戏的计算研究

Caregiver Talk Shapes Toddler Vision: A Computational Study of Dyadic Play

Timothy Schaumlöffel, Arthur Aubret, Gemma Roig, Jochen Triesch

TL;DR研究表明，照顾者的命名话语可以改善婴儿的视觉表征能力。

Abstract

infants' ability to recognize and categorize objects develops gradually. The second year of life is marked by both the emergence of more semantic visual representations and a better understanding of word meaning. This suggests that →

infants visual representations language input caregivers' utterances toddler-agent

发现论文，激发创造

自我监督视觉学习中基于计算的接受者目视着物游戏的解释

本研究使用玩具箱数据集和计算机视觉框架进行自我监督对比学习实验，发现通过学习信号，将单个物体的不同视角赋予相似的表示有助于视觉学习的稳健性，这种性能的提高对于多种图像分类任务来说是可持续的。

May, 2023

智能体视角下的视觉表征：一种新兴语言游戏研究

探究 Lazaridou 等人（2017）的指称游戏中，代理人在相互作用过程中建立起的视觉表示，结果发现代理人成功建立沟通是通过引导几乎完全一致的视觉表示来实现的，但却没有捕捉到输入图像所描述的概念特性，因此我们应该更关注代理人将其使用的符号关联的视觉语义，才能更好地开发出类似于语言的沟通系统。

Aug, 2018

基于真实规模的视听命名事件的早期词汇习得模型

在一个真实的环境中，使用一种仅通过未注释的原始语音和视觉输入中的统计规律性进行学习的模型，研究证明婴儿通过统计学习能够有效地学习识别单词并将其与相应的视觉对象相关联，词汇增长的速度与婴儿观察到的相当。这一发现支持了统计学习在早期词知觉中的可行性，展示了学习可以在不假设任何先前语言能力的情况下进行。

Jun, 2024

主动式物体操纵有助于视觉物体学习：一项自我中心视觉研究

本研究通过收集儿童的第一人称图像来分析他们所接受到的训练数据，并就儿童如何通过手操作物体来控制所接受到的监督信号进行探究。实验结果表明，通过手控制监督信号比没有手的效果更好，并且即使只有少量图像可用，这种趋势是一致的。

Jun, 2019

量化视觉、语言和视觉 - 语言复杂度在动词习得中的作用

通过大规模预训练的人工神经网络对单词进行视觉和语言表示，研究了早期动词学习的三个假设，并比较了影响困难度的因素。结果表明，视觉结构变异性是影响动词学习的最大挑战。

Apr, 2023

基于视觉化支撑的未转录语音关键词预测学习

这篇论文中，采用图像与未翻译口头说明的组合，研究计算机视觉系统是否可以用于获取语音的文本标签，并使用图片到词语多标签视觉分类器标记图像的软文本标签。然后，训练神经网络将语音映射到这些软目标。结果表明，语音识别系统能够预测话语中出现的单词，并作为口头词组分类器，同时还经常混淆语义相关的词，例如 “男人” 和 “人” ，使其效果更好作为语义关键词识别器。

Mar, 2017

避免使用 hash，并在引用的新兴语言游戏中鼓励视觉语义

本研究考虑了 Havrylov 和 Titov 的信令游戏设置，并研究了特征提取器的权重和解决的任务对模型所学习或捕捉的视觉语义的影响。通过对输入图像的各种增强和游戏中的附加任务的引入，实现了在完全自监督的情况下学习捕捉图像概念属性的视觉表征的通信系统。

Nov, 2019

视听概念系统的跨模态对齐学习

本文提出了学习与婴儿词汇学习机制相似的视觉 - 语言概念系统的方法，包括了在线学习视觉对象和词汇之间的关联以及自监督学习的语义表示等。作者在目标词与词语匹配以及零样本学习任务中进行了定量和定性检验，结果表明该模型在性能方面优于其他基础模型并实现了概念系统的拓扑对齐。

Jul, 2022

好奇的机器人：通过物理交互学习视觉表示

通过在 Baxter 平台上对对象进行推动、捅戳、抓取和观察等四种不同类型的物理交互来提供学习视觉表示的有效监督，本文使用共享的 ConvNet 体系结构学习了视觉表示，并通过观察神经元活化和最近邻检索来展示所学习的表示的质量，从而在图像分类任务中显示出与学习外部数据相比的改进，在实例检索任务中，本文的网络在回忆率 @1 上比 ImageNet 网络高 3%

Apr, 2016

从原始感官输入中联合发现视觉对象和口语单词

本文针对语音与图像之间的语义关联关系，探讨了不需要传统监督方式的神经网络模型，并使用了 Places 205 和 ADE20k 数据集来验证模型，在不太需要标签、分割或模态对齐的情况下可以实现语音和图像的自动检索、详细定位以及进行时间、空间上的隐含的物体和单词检测。

Apr, 2018