- ColPali:视觉语言模型高效文档检索
通过引入 Visual Document Retrieval Benchmark ViDoRe,本研究介绍了一种基于图像的检索模型 ColPali,该模型利用近期的视觉语言模型理解文档并生成高质量的语境化嵌入,通过后期交互匹配机制,ColP - CVPR2D-3D 对齐下的异常检测
本研究介绍了一种基于视觉线索的自动异常检测方法,在制造和产品质量评估等各个领域具有实际意义。我们提出了一个新的条件异常检测问题,通过将查询图像与参考形状进行比较,来识别图像中的异常。为解决这一挑战,我们创建了一个大型数据集 BrokenCh - AV-CrossNet: 一种用于语音分离的音视频复杂频谱映射网络,利用窄频和交叉频带建模
添加视觉线索到基于音频的语音分离可以提高分离性能。本文介绍了一种名为 AV-CrossNet 的音视系统,用于语音增强、目标说话人提取和多说话人分离。AV-CrossNet 扩展自 CrossNet 架构,它是一种最近提出的网络,通过利用全 - 通过有效的预训练任务提升图表问答能力
为了解决现有视觉问答模型在图表问题上的不足,本研究通过行为分析,提出了三个简单的预训练任务以改进现有模型的结构 - 视觉知识和对数字问题的理解,将预训练模型(MatCha-v2)应用在三个图表数据集上,相比基准模型,性能平均提升了 1.7% - ACLM3T: 多模文档级机器翻译的新基准数据集
本文介绍了 M3T,这是一个新颖的基准数据集,旨在评估 NMT 系统在翻译半结构化文档的全面任务上的表现,并解决了现实世界应用中丰富文本布局所带来的挑战。
- LipGER:依赖视觉条件的生成式误差纠正用于鲁棒自动语音识别
利用唇部动作的视觉线索,LipGER 是一种新颖的框架,用于提高噪音环境下自动语音识别(ASR)系统的性能,通过令一个 LLM 学习任务来进行视觉条件下的 ASR 错误校正,大大改善了传统 AVSR 学习中的关键挑战。
- IJCAI音频 - 视觉交叉模态条件语音提取中的分离
AVSepChain 是一种多模态学习方法,通过将音频 - 视觉目标语音提取任务分为两个阶段(语音感知和语音产生),改善了模态不平衡的问题,并引入了对比语义匹配损失函数来确保生成的语音与语音产生阶段的唇部运动所传达的语义信息一致,实验结果表 - 野外情感维度识别的联合多模态变压器
通过使用多模态 Transformer 架构,全面利用视频中视觉和听觉模态之间的交互和内部依赖关系,以识别音频视觉表情和声音模式,该模型在 Affwild2 数据集上表现出优越性能。
- 利用元学习改善全画面视频稳定化
通过采用测试时间自适应方法,我们提出了一种新颖的方法来提升视频稳定的像素级合成解决方案的性能,该方法利用低级视觉线索改善结果视频的稳定性和质量,通过元学习技术显著提高了稳定性,仅需一个自适应步骤。该算法在实际场景中提高了各种像素级合成模型用 - CMFN: 跨模态融合网络用于不规则场景文字识别
提出了一种新颖的交叉模态融合网络(CMFN),用于不规则场景文本识别,将视觉线索融入语义挖掘过程中,实验证明该算法在性能上与最先进的算法相当,验证了其有效性。
- DocLLM: 多模态文档理解的自适应生成语言模型
研究论文通过设计 DocLLM 模型,结合文本语义和空间布局,以有效地理解企业文件的丰富语义,摆脱昂贵的图像编码器,侧重于使用边界框信息来处理不规则布局和异构内容的视觉文件,通过预训练和微调,优于当前最优模型在多个任务中的性能,并且对于先前 - 利用开放词汇扩散进行伪装实例分割
通过结合文本到图像扩散技术和开放词汇,我们提出了一种解决计算机视觉中伪装实例分割问题的方法,该方法利用跨领域的文本 - 视觉特征学习来区分复杂背景中伪装对象,实验证明了该方法相较于现有方法的优势。
- AV-RIR:音频 - 视觉房间冲激响应估计
准确估计室内脉冲响应(Room Impulse Response,RIR)对于语音处理和增强实境 / 虚境应用非常重要。本文提出了 AV-RIR,一种新颖的多模态多任务学习方法,能够准确从给定的回声语音信号和对应环境的视觉线索中估计 RIR - 适应说话者的端到端连续西班牙语视觉语音识别
利用西班牙 LIP-RTVE 数据库,本文研究了如何通过专门训练的端到端系统来改善语音识别质量,结果表明,通过演讲者适应,可以显著提高 VSR 系统的性能,并且即使只有有限的数据时,也可以达到与当前最先进技术相媲美的结果。
- 结合以语言驱动的外观知识单元和视觉提示的行人检测
通过将大型语言模型与视觉线索相结合,我们提出一种新的方法来理解语境外观变化并将其知识应用于行人检测任务,通过与大量描述行人外观的叙述语料库结合,提取代表外观变化的知识集合,并通过任务驱动的过程获得与行人检测相关的外观知识单元,最终实现与视觉 - 在重症监护室中检测视觉线索及其与患者临床状况的关联
通过分析面部行为单元和视觉线索,利用人工智能技术提供更客观、细粒度的重症监护环境中患者的评估和监测能力。
- 透视对话:基于扩散模型的音频 - 视觉语音分离
本文介绍了 AVDiffuSS,一种基于扩散机制的音视频语音分离模型,通过视觉线索从声音混合中提取目标发言者的声音,该模型在保持自然性方面具有挑战,并提出了一种基于交叉注意力的特征融合机制,以实现两种模态的有效融合,并在语音生成中集成语音视 - 可学习的语义数据增强的细粒度识别
通过特征级别的数据增强和协方差预测网络,我们提出了一种改善细粒度图像识别的方法,可以有效区分细分类别,提高泛化性能。
- ICCV视觉引导的音频混响去除
提出一种新颖的音频 - 视觉去混响框架 AdVerb,利用视觉线索来估计清晰音频,通过几何感知的跨模态变换器架构捕捉场景几何和音频 - 视觉跨模态关系生成复杂的理想比例掩码,并应用于混响音频以预测清晰音频,通过广泛的定量和定性评估证明了该方 - 用于开放式语义分割的多模态原型
本文提出了一种称为开放式语义分割(O3S)的统一框架,在视觉示例和文本名称中学习已见和未见的语义。我们的流程通过首先进行单模自我增强和聚合,然后进行多模态补充融合来提取用于分割任务的多模态原型。