- 基于上下文的深度学习体系结构与图像解析的最优集成层
通过深度学习与上下文信息相结合的三层模型,进行二分类学习和上下文学习,再通过基于遗传算法的最优融合,产生最终决策。实验结果表明,优化网络权重可以改善性能并使预测更稳定。
- ACL基于短语级通用视觉表征的神经机器翻译
对比于其它多模式机器翻译 (MMT) 方法,我们提出了一种短语级别检索的 MMT 方法,从已有的文本 - 图像数据集中获得源输入的视觉信息,有利于缓解输入限制和数据稀疏的问题,并且通过条件变分自编码器可以更好地过滤多余的视觉信息和仅保留和短 - COLING基于视觉信息引导的零射击释义生成
本文提出了一种基于视觉信息的零样本释义生成模型 ViPG,它利用图像的引导作用,通过联合训练图像字幕模型和释义模型,生成具有良好相关性、流畅性和多样性的释义,表明图像作为零样本释义的一种引导方式具有潜在前景。
- 在双曲空间中的多模态实体对齐
本研究提出了一种新的多模态实体对齐方法,构建在超伪椭球流形的基础上,通过结构和视觉信息相结合,提高了多模态知识图谱的准确性和完整性。
- 推文的多模态实体链接
本文探讨多模态实体链接的任务,提出了一种方法来构建一个完全注释的 Twitter 数据集,同时提出了一种同时学习文本和视觉内容的方法来构建一个实体和言及的表征,并在 Twitter 数据集上验证了该方法的有效性,并强调在可用时,利用视觉信息 - 多模机器翻译中的 Gumbel-Attention
本研究提出一种新的 Gumbel-Attention 多模机器翻译模型,通过对图像特征进行选择,保留与文本相关的信息,进而提高多模机器翻译模型的翻译质量。
- ACL利用多模态增强学习进行同时机器翻译
本研究探索了两个主要概念,即使用自适应策略来学习高翻译质量和低延迟之间的平衡,以及使用可用于生成文本输入之前的附加(视觉)上下文信息来支持该过程,提出了一种多模式方法来进行同时机器翻译,并采用强化学习策略,应用于代理程序和环境中集成视觉和文 - VisualWordGrid: 多模态途径提取扫描文档信息
介绍了一种用于扫描文档表示的新方法,它可以同时编码文本、视觉和布局信息,以 3 轴张量形式用作分割模型的输入,并在考虑到视觉形式的基础上,提高了对小数据集的鲁棒性同时保持推理时间的速度,经过公共和私人文档图像数据集的测试,与最近的最先进方法 - EMNLP多模式语音识别的细粒度对齐
本篇研究使用自动物体提议从图像的不同区域提取更精细的视觉信息,以改善多模式自动语音识别的效果并增强对语音中覆盖物的实体恢复能力。实验表明该模型可以定位正确的提议,提取更多的相关单词(如形容词),进而实现更好的识别效果。
- EMNLP基于视觉理解规划的语言模型无需视觉输入推断详细计划
本文研究了如何将自然语言指令转化为虚拟环境中可行的多步骤行动序列,通过实证表明,结合一定的视觉信息和上下文语境,GPT-2 模型能够成功地生成金标准语句执行序列,为基于语言的虚拟代理提供了强大的视觉语义规划模块。
- 艺术视觉问答数据集与基准模型
本文介绍了一种名为 AQUA 的艺术问答数据集及其挑战和发展方向,数据集基于画作与评论自动生成问题答案对,并利用两部分不同的方法对问题进行独立处理。
- ECCVSep-Stereo: 基于可视化引导的立体声音频生成方法,通过关联源分离
该研究提出了一种统一的框架,将立体声音频生成和源分离相结合,通过使用可用的单声道数据来提高立体声音频生成的结果。
- ICML通过联合视听自监督从原始音频中学习语音表示
该研究提出了一种通过结合音频自监督和视觉自监督来训练原始音频编码器生成说话者面部图像的自监督语音表示方法,从而为音频视觉语音的自监督学习提供了潜力。
- ECCV地理标记音视航拍场景识别的跨任务传递
利用声音信息结合图像信息进行空中场景识别,通过构建新的 AVANET 数据集,通过多模式的学习框架将声音事件的知识转化到空中场景识别的任务中,提高识别效果。
- ACL基于 Transformer 的多分辨率和多模式语音识别
本篇论文介绍了一个基于 Transformer 架构的音频视觉自动语音识别(AV-ASR)系统,特别关注视觉信息提供的场景背景,以支撑 ASR。我们从变换器的编码器层中提取音频特征的表示,并使用附加的跨模态多头注意层融合视频特征。此外,我们 - 面向多模态同时神经机器翻译
提出了一种多模式神经机器翻译方法,即多模式同时翻译 (MSNMT),能够在翻译过程中利用视频信息和实现实时多语言理解。实验证实,该方法可显著提高翻译效率,特别是在低延迟情况下,比单纯文本的模型更加优秀。此外,我们通过对 MSNMT 的对抗性 - CVPRDCNAS:用于语义图像分割的密集连接神经架构搜索
本研究提出一种名为 Densely Connected NAS (DCNAS) 的神经架构搜索框架,通过连接细胞并使用可学习的权重来引入密集连接的搜索空间,并通过路径和通道级别的抽样策略设计一个融合模块来降低搜索空间的内存消耗。DCNAS - 在基于图像场景环境的语义空间中融合视觉语义到句子表示中
本文目的在于通过学习一种中间的 representation space 将视觉信息转移到文本表示中,以解决由于一个视觉场景可以有多种描述方式所导致的文字表示和学习中的问题,作者还提出了两个新的目标,来保证相关元素之间的相似性跨领域地保持和 - AAAI多模机器翻译的视觉一致性正则化训练
本研究提出了视觉协议规范化训练的方法,通过引入简单而有效的多头协同注意模型,同时训练源到目标和目标到源的翻译模型,鼓励它们在生成语义等效的视觉词汇时共享相同的视觉信息。结果表明,该方法在 Multi30k 数据集上的性能优于竞争基线,并且进 - ProxIQA:一种基于代理的感知优化方法用于学习图像压缩
本文介绍一种基于感知模型的优化框架,通过构建一个代理网络 (ProxIQA),可以优化图像分析网络及图像压缩网络,从而在特定感知质量下,降低比特率的同时维持图像质量。