- 视觉上下文感知的人体跌倒检测
评估视觉背景对跌倒检测分类器准确性的影响,并通过生成高斯模糊来改善模型性能和泛化能力。
- COLINGm3P: 走向多模多语翻译与多模提示
通过引入视觉语境作为通用的语言无关表示来促进多语言翻译的方法,该方法利用多模态提示来指导多模态多语言神经机器翻译,在低资源和大规模多语言场景下改善了翻译质量。
- 基于视觉语言模型的字幕评估方法及其视觉上下文提取
通过提取和组织图像的详细内容,包括物体、属性和关系,我们的方法将人类编写的参考文本替换为视觉上下文,并帮助视觉语言模型更好地理解图像,从而提高图像标题评估性能,并在多个数据集上进行的元评估验证了 VisCE2 在捕捉标题质量方面胜过常规预训 - 减少幻觉:利用视觉语境增强洪水灾害损害评估的 VQA
本论文提出了一种名为洪水灾害 VQA-TSP 的零样本视觉问答模型,通过两阶段提示生成思考过程并使用视觉上下文来减轻思考过程中的幻觉问题,实验结果显示我们的方法在洪水灾害场景中超过了现有零样本 VQA 模型的性能,为改进基于 CoT 的零样 - 上下文扩散:上下文感知图像生成
我们提出了 Context Diffusion,这是一种基于扩散的框架,使图像生成模型能够从环境中呈现的可视示例中学习。通过为查询图像提供上下文示例和文本提示,最近的工作解决了图像生成中的这种上下文学习问题。然而,当没有提示时,生成的图像的 - 视觉背景对噪声多模态神经机器翻译的影响:英语到印度语言的实证研究
利用多模态信息在神经机器翻译 (NMT) 中的有效性进行了研究,发现图像在大规模预训练的单模态 NMT 系统中可能是多余的,同时介绍了合成噪声来评估图像是否有助于模型处理文本噪声,多模态模型在嘈杂环境中微弱地胜过纯文本模型,实验证明视觉背景 - ICCV探索人物 - 物体交互中的谓词视觉环境
通过可视化和精心设计的实验,我们研究了 DETR 框架在人物 - 物体交互研究中的问题,并通过增强图像特征的方式,改进了模型的谓词视觉上下文,从而在 HICO-DET 和 V-COCO 基准上超过了最先进的方法,同时保持了较低的训练成本。
- 文本驱动的少样本领域自适应视觉融合事件检测
本研究提出一种领域特定的、可从少量标注的图文数据训练的、可在缺乏可视化背景下合成图像的视觉联想事件检测方法,实验结果表明,在 M2E2 基准数据集上,该模型的性能超过了现有的最先进模型达 11 个百分点。
- 语言引导的具身化智能体多模式语音识别
本文提出了一种多模式自动语音识别模型,通过考虑附带的视觉上下文来减少口头指令的错误转录,使用了仿真的噪声环境。实验结果表明,使用多模态 ASR 模型可使任务完成的准确性得到提高。
- ACL大规模跨语言研究:视觉限制对语言选择描述的影响
本研究通过对四种语言中的五种语言特征进行大规模、多语言的调查研究,并给出了一种新颖的方法,通过分析 600k 张图像和 3M 张图像的标题,证明了视觉背景对语言使用的影响,并在数字表达的研究中发现了不同视觉条件下语言表达的相似模式,为语言生 - EMNLP视觉语境能否提高具有体现特征的智能体自动语音识别的性能?
本文介绍了一种利用视觉信息,通过新的解码器偏置技术将机器人的语音识别能力改进来识别含有可见实体描述的口语,以提高自动语音识别系统在机器人上的鲁棒性能,并取得了 %59 的相对错误率降低。
- 用于字到句的视觉语义相似度在标题生成的应用:得到的经验教训
本文提出一种改进图像 - 字幕生成系统的方法,通过从视觉上下文的角度修订语言生成输出的 beam search,采取视觉语义量化概念,在单词和句子级别上匹配与图像相关的信息来选择最相关的输出作为字幕。该方法可作为后处理方法应用于任何字幕系统 - 基于视觉感知的音频特征增强,用于稳健的端对端音视频语音识别
本文提出了一种噪声强韧的端到端的视听语音识别系统,其中使用视觉背景驱动音频特征增强模块(V-CAFE)通过考虑所获得的视觉背景来生成噪声降低掩模,进而提升音频特征,结合 Conformer 和 Transformer 模型进一步提高了噪声稳 - SwapMix: 检测和规范视觉问答中过度依赖视觉上下文
通过一种名为 SwapMix 的简单有效的扰动技术,我们发现可代表性 VQA 模型的问题答案可以被改变超过 45%。此外,我们还发现模型的上下文依赖性高度取决于视觉表征的质量,并且 SwapMix 可以作为数据增强策略应用于训练中以调整上下 - 具有视觉上下文注意力的唇语到语音合成生成对抗网络
本文介绍了一种新型嘴唇到语音生成对抗网络 - 视觉上下文关注 GAN(VCA-GAN),它可以在语音合成期间同时建模本地和全局唇部动作,并通过同步学习指导生成器根据给定的输入唇部动作合成语音。
- ACLMSCTD: 一种多模态情感聊天翻译数据集
本研究介绍了一项名为 Multimodal Chat Translation (MCT) 的新任务,旨在通过与对话历史和视觉上下文相关联的信息来生成更准确的翻译。为此,构建了一个 Multimodal Sentiment Chat Tran - ICCV视觉场景图用于音频源分离
本文提出了一种基于 Audio Visual Scene Graph Segmenter (AVSGS) 的深度学习模型,通过嵌入场景的视觉结构,并将其分割为子图,实现音频源分离;同时,介绍了一个全新的数据集 Audio Separatio - EMNLP多模式机器翻译模型的合理性检查:关注视觉确保准确性
本文研究了多模式机器翻译(MMT)系统在存在视觉上下文时比纯文本神经机器翻译(NMT)系统表现更好,并探讨了视觉数据集对于 MMT 模型的训练和评估的重要性,表明 MMT 架构相关的有效研究目前受到合适数据集的限制,未来的 MMT 数据集必 - 多模态对话生成中的文本视觉相互依赖建模
该论文提出了一种解决多模态对话生成的方法,可以更好地模拟真实环境中的多模态对话。通过建模文本 - 视觉特征之间的相互依赖,并研究生成与视觉背景相关的对话,大幅提升了模型性能。
- EMNLP视觉线索和错误修正用于提高翻译稳健性
本文研究如何提高神经机器翻译模型对于嘈杂文本的鲁棒性,针对常见人为错误和三种噪声类型,使用视觉上下文和错误训练来提高模型的性能。实验结果表明,多模态和错误校正组件在保持清洁文本翻译质量的基础上,提高了模型对嘈杂文本的鲁棒性。