- 言之有据:基于视觉语境的话语表达
该研究关注如何将视觉内容整合到对话 AI 系统中,提出了一种基于视觉上下文的任务,利用在线教育视频数据集自动训练一个多模态视觉 - 语音预测模型,能够优于基于文本输入的基准模型,并在多个 VideoQA 基准测试中获得最先进的表现.
- EMNLP在视觉和对话环境中生成后续参照:引用、重用、减少
本研究提出了一种基于视觉和对话环境的生成模型来产生有效指代话语,并实现了一个参照解析系统进行评估。实验结果表明,相比其它非对话背景下的模型,该模型能够产生更加有效的指代话语,而且在生成具有人类语言模式的后续指代方面表现出良好的效果。
- EMNLP多模式语音识别及非结构化语音掩蔽
本篇论文研究了在嘈杂的情况下,如何通过视觉上下文提升语音识别的准确性,并通过模拟 RandWordMask 掩码模式验证了多模态 ASR 系统在不同掩码模式下的泛化能力,结论显示在一定程度上可提升 ASR 系统的能力。
- Labeled Faces in-the-Wild 扩展版 (ELFW): 增强人脸分割类别
本文介绍 Extended Labeled Faces in-the-Wild (ELFW) 数据集,补充了原先使用的 Labeled Faces in-the-Wild (LFW) 数据集的语义标签,以及通过基于对象的数据增强技术来增加原 - IJCAI基于循环关系记忆网络的无监督图像描述生成
本文提出了一种基于记忆机制的无监督图像描述模型 —— 循环关系记忆网络 (R2M),相较于 GAN 模型,该方法克服了句子生成中复杂和敏感的对抗学习,并且通过融合和循环两种记忆机制实现了从通用可视化概念到自然语言的翻译;我们在多项基准数据集 - 看能增强听:使用图像恢复丢失的语音
本研究探讨了利用图像确立语音识别模型中文字的语义含义,以减少噪音干扰并提高模型鲁棒性的方法。实验结果表明整合视觉信息可以显著提高模型性能,增强语音信号对语音识别的帮助
- EMNLP红场有多大?MALeViC:利用视觉环境建模形容词
本研究旨在建立一种模型,从视觉背景中学习可分级形容词(如 “大”,“小”)的含义,并通过关注完整目视文本,证明了多模型方法的有效性,在一系列任务中获得了建模尺寸含义的优异表现,但在开发可组合的抽象分级形容词表示方面仍然存在缺陷。
- ICML在嘈杂环境下分析视觉背景对多模态语音识别的效用
研究多模态语音识别技术中使用的可视化辅助信息对模型抗噪声能力的影响,并发现当前的整合方法在噪声环境下不能提高模型的鲁棒性,需要更好的可视化场景适应技术来解决这一问题。
- ACL跨语言视觉动词义消歧
本文介绍了一项较为具有挑战性的任务,即跨语言动词语义消歧,并提出了包含 9504 张图像的 MultiSense 数据集,该数据集标注有英语、德语和西班牙语动词。我们证明跨语言动词语义消歧模型在视觉背景下比单模基线表现更好,并且我们的最佳消 - 不用汽车看路边:量化并控制上下文对分类和分割的影响
该研究论文中提出了一种量化黑盒视觉模型对视觉背景依赖性的方法,通过编辑图像并测量目标模型的响应,以发现物体与背景之间的不良依赖性,并提出基于物体去除的数据增强方案以缓解这种依赖性,从而提高分类和分割模型对环境变化的鲁棒性。
- ICCV针对场景图生成的因果评论员多智能体训练
该研究文章提出了一种基于多智能体训练的场景图生成方法,用以有效解决现有方法中存在的派生问题并提高场景理解性能。
- 利用分段神经语言模型学习发现、建立和使用单词
提出了一种分段神经语言模型,它将神经网络的概括能力与发现在未分段的字符序列中存在的类似单词的单元的能力相结合。在视觉上下文的作用下,此模型不仅可以发现单词的含义,还可以学习单词如何组成句子,并提高其预测准确性。
- 通过视觉上下文改善全切片分割 - 一个系统研究
通过系统比较不同的神经网络结构来确定如何包含多尺度信息对组织学图像的分割性能产生影响,结果表明,视觉上下文和尺度在组织学图像分类问题中起着关键作用。
- ACL像婴儿一样:视觉背景下的神经语言习得
通过实验证明了在多模态环境中进行语言学习可以提高预测准确率,该研究使用了预训练的 BERT 嵌入以及不同语言和模型进行了测试,并得出了这个认识与身处环境相应认知理论相对应的结论。
- 基于视觉语境的多模态词表示学习
本研究提出了一种同时利用文本和视觉上下文以学习多模态词嵌入的端到端方法,通过将视觉上下文元素整合到多模态 skip-gram 模型中,探索了何种因素可以作为视觉上下文,并进行了实验和分析。
- CVPR上下文嵌入网络
通过 Context Embedding Networks(CENs)模型学习从图像提取可解释的嵌入向量,同时能够建模 Crowd 计算中的工人偏差和视觉背景,实验表明相比于现有方法,该模型能够得出更可解释的嵌入向量。
- ICCV通过稀疏特征编码的无监督组重识别
本文提出了一种基于稀疏字典学习和转移单人重新识别知识到组重新识别的解决方案,利用邻近个体提供的相关视觉上下文信息,得到更健壮的匹配结果,成功地解决了组内重新识别的问题。
- CVPR主题相关视频的协作摘要
采用协作优化方法,利用视频聚类和主题相关视频提供的视觉背景,同时抓取视频的重要特点和归纳性信息,从而进行视频摘要提取,该方法在两个数据集上的实验证明了其优越性。
- 基于图像的对话:自然问题和回答生成的多模态上下文
该研究提出了一种新颖的任务 —— 基于图片的对话(IGC),通过图片来约束话题从而产生更高质量的对话,并引入了一个通过众包来构建的多目标参考数据集。实验结果表明,将视觉和文本相结合可以提高对话的质量,而对人的表现与神经和检索结构之间的差距表 - ECCV指代表达中的上下文建模
本研究旨在使用更好的视觉上下文测量标准,将对象识别和自然语言表达结合起来,从而提高对象识别和自然语言表达模型的性能。在 RefCOCO、RefCOCO+ 和 RefCOCOg 三个数据集上的评估表明,我们的方法对于对象指称生成和理解都具有优