- CVPR面部身份匿名化:通过内在和外在注意力扰动
通过分散内在和外在身份关注,我们提出一种新的面部匿名化方法,能够灵活直观地操作面部外貌和几何结构以产生多样化的结果,并可以用于指导用户执行个性化的匿名化。我们在多个数据集上进行了广泛实验,并证明我们的方法优于现有的方法。
- 关于 GPT-4 在文档理解中的适用性注解
我们对所有公开可用的 GPT-4 系列模型在文档理解领域进行了遗漏和可重复评估,发现通过提供外部 OCR 引擎识别的文本和文档图像作为输入,GPT-4 Vision Turbo 模型在处理文本语义以外的文本空间排列和视觉线索方面表现良好。评 - COLING基于地标指导的跨说话人唇读技术与互信息规范化
本研究提出了一种训练鲁棒性的唇读模型的方法,通过利用唇部地标引导的细粒度视觉线索,减少与特定说话者相关的外观特征,并通过最大最小互信息正则化方法捕捉不受说话者影响的潜在表示。实验证明了该方法在说话者内部和跨说话者条件下的有效性。
- 通过挖掘问答提示发现丰富的视觉线索,为需要多样化世界知识的 VQA 提供支持
我们提出了一种名为 Q&A Prompts 的方法,该方法通过挖掘图像中的问题 - 回答对来发现丰富的视觉线索,并将其作为提示发送给预训练的多模态大型语言模型,以在需要涉及不同世界知识的具有挑战性的视觉问题回答数据集上实现了显著的改进。
- GloPro: 全球一致的不确定性感知的野外三维人体姿势估计与跟踪
本研究提出 GloPro 框架,通过有效地融合视觉线索与学习到的动作模型,首次预测包括形状、姿态和根姿态在内的三维人体网格的不确定性分布,大大超越了现有方法在人类轨迹准确度方面的表现,并能够实时运行。
- ACL一种基于多模态上下文推理的条件推断方法,适用于联合文本和视觉线索
提出了一种名为 ModCR 的多模态上下文推理方法,结合文本信息和图像信息进行上下文推理,相较于之前的基于预训练视觉 - 语言模型的方法,ModCR 将给定的文本抽象语义和客观图像信息作为上下文信息,在预训练的语言模型中嵌入它们进行上下文推 - 视觉线索:跨越视觉和语言基础的 image 段落字幕生成
本文阐述了如何使用视觉线索(Visual Clues)桥接预训练的视觉基础模型和语言模型,无需任何额外的跨模态训练,从而可以获得图像的详细信息和语义表示,并通过定量和定性的度量评估了生成的描述的质量,结果表明该结构化语义表示方法具有有效性。
- CVPR多样性很重要:充分利用深度线索实现可靠的单目三维物体检测
本文提出了一种基于单张图像深度估计的 3D 物体检测方法,该方法利用细节和多个子任务提取视觉线索并生成多个深度估计值,再通过深度选择和组合策略得到单个深度估计值以提高精度和鲁棒性,在 KITTI 3D 物体检测基准测试中的表现甚至比当前最佳 - 福尔摩斯事件:一个用于视觉拟合推理的数据集
本文提出了 Sherlock 数据集作为机器人推理能力测试的基础,并在此基础上对机器学习模型的推理能力以及人与机器的差距进行了研究和探讨,结果表明目前的最先进技术还有非常大的提升空间。
- ECCV多模态文本识别网络:视觉和语义特征之间的交互增强
本篇论文介绍了一种名为 MATRN(Multi-modAl Text Recognition Network)的新方法,通过促进视觉和语义特征之间的互动,提高了文字识别的性能,并证明其在 7 项基准测试上取得了最先进的表现。
- AAAI视频问答的时域金字塔变换器和多模态交互
本文提出了一种基于时域金字塔变换器的多模交互模型,用于视频问答,实现了问题语义的建立和视频信息的推断,并在三个视频问答数据集上通过了广泛的实验证明了该方法相较于现有技术的卓越表现。
- ACL车内对话代理的乘客意图音视频理解
本文探讨在自动驾驶交互系统中,构建多模态对话理解能力在车内情境下以提高乘客舒适度的重要性;通过将语言输入与车内外的非语言 / 声音和视觉线索结合起来,实现对车内话语的多模态理解,从而为 AV 开发上下文和视觉基础的对话代理提供支持;实验结果 - 基于单目相机的 ADAS 车间距与相对速度的端到端学习
本文提出了一个基于单目相机和深度神经网络的交通车辆间距和相对速度的估测方法,通过多种视觉线索,如深层特征线索、场景几何线索和时间光流线索,以及车辆中心的采样机制来减少透视失真的影响,并在性能、计算速度和内存占用等方面证实了该方法比其他最先进 - AAAI融合音频、文本和视觉特征进行新闻视频情感分析
该论文提出了一种新颖的方法来执行新闻视频的情感分析,基于从内容中提取的音频、文字和视觉线索的融合。该方法旨在为构建媒体宇宙的 ethos(身份)的 semiodiscoursive 研究做出贡献,我们计算了从面部表情中识别出的视觉强度、参与 - 用于图像问答的叠加注意力网络
本文提出了堆叠式注意力网络(SAN),通过自然语言问题分析图像,发现图像问答需要多层推理,于是我们开发了多层 SAN,通过可视化的注意力层,逐层推理以定位答案相关的视觉线索,实验证明 SAN 明显优于先前的最先进方法。