multimodal features | BriefGPT

关键词multimodal features

搜索结果 - 17

CVPRMA-AVT：用于参数高效音频 - 视觉变换器的模态对齐
该论文介绍了一种新的参数高效的视听变压器 MA-AVT，采用深度模态对齐来实现对应的多模态语义特征的对齐，通过联合单模态和多模态令牌学习，引入冻结的模态共享变压器，使模型能够学习到每种模态的独立表示，并关注它们之间的跨模态关系。此外，在编码
PDF25 days ago
跨领域音视频欺诈检测的基准测试
通过使用跨领域基准测试，提出了一种多模态特征的注意力混合方法，用于改进自动欺骗检测的性能。
PDF2 months ago
多模态推荐的对齐和训练框架
通过系统调查多模态推荐中的对齐问题，本文提出了一种名为 AlignRec 的解决方案，由内容内部对齐、内容与分类 ID 之间的对齐，以及用户与项目之间的对齐这三个目标函数组成，将其融入到我们的多模态推荐框架中，并通过实验证明了 AlignR
PDF3 months ago
唱出电子身体：机器人具象对用户期望的影响
使用多模态特征预测用户对给定机器人的社交和物理能力的期望，这些特征提供了关于机器人的一般心智模型的信息，可以融入互动设计和物理设计中。
PDF6 months ago
WSDMMONET: 多模态图卷积网络和目标感知注意力在多媒体推荐中的应用
本研究聚焦于使用图卷积网络（GCNs）的多媒体推荐系统，旨在更有效地利用多模态特征以准确捕捉用户对项目的偏好。通过提出模态包容 GCN（MeGCN）和目标感知注意力等两个核心思想，我们的实验表明 MONET 在七种最先进的竞争者中非常优越（
PDF7 months ago
ICCV基于图像文本相似度和标题修改的数据比赛挑战：过滤轨道和自带设备轨道的利用
本文介绍了我们在 DataComp 挑战赛的筛选和修改轨道上的解决方案，采用大型多模态模型 CLIP 和 BLIP-2 对网络爬行数据进行过滤和修改，并利用外部数据集和一系列技巧来提高数据质量。实验证明我们的解决方案在 DataComp 基
PDF8 months ago
看见和听见未被表达的内容：一种多模式客户行为分类器在激励性面谈中的可解释性融合
多模态特征的分类器可以准确区分变化言谈，持续言谈和跟随 / 中性言谈，在 Motivational Interviewing 中进行精确分类至关重要。通过对可公开获得的 AnnoMI 数据集进行注释，我们训练了一个使用文本、语调、面部表情和
PDF9 months ago
DiffCap：探索连续扩散在图像字幕生成中的应用
本文提出了一种基于连续扩散的新方法 ——DiffCap，用于图像标题生成中的多模态特征融合。相比于自回归式的方法，DiffCap 采用了非自回归式方法，可在生成时提供更高的多样性与灵活性。实验结果表明，我们的方法在保证生成品质的同时，使用了
PDFa year ago
视频中多模态特征提取和基于注意力的融合情绪估计
本文介绍了一个基于多模态的情感估计框架，通过提取比赛数据集中的不同长度的视频的多模态特征，包括音频、姿态和图像，确定情感趋势。该系统在验证数据集中达到 0.361 的性能。
PDFa year ago
CVPR基于 Transformer 的视频情感反应强度估计和表达分类的多模态特征提取与融合
本文论述了针对 ABAW2023 中的情感行为分析领域的两个子挑战 - 表情分类和情感反应强度评估的高级解决方案。该方案使用了多种模型和工具来提取多模态特征，并有效地处理分类中的挑战，从而显著提高了模型在多模态情况下的情感预测精度。在情感反
PDFa year ago
MM使用不对称多层融合学习深层次多模态特征表示
本文介绍了一种有效的多模态特征融合框架，其中采用了两种创新的融合方案，可在一个共享的单一网络中学习多模态特征，并引入两个非对称融合操作，以增强跨通道的多模态特征交互并增强通道内的空间特征区分能力。实验结果表明，本文提出的框架在语义分割和图像
PDF3 years ago
IJCAIUIBert：为界面理解学习通用多模态表示
本文提出了 UIBert，一种基于 transformer 的联合图像文本模型，通过在大规模未标记的 UI 数据上进行新颖的预训练任务学习 UI 及其组件的通用特征表示，以解决智能设备可访问性和简化使用的问题。实验表明，UIBert 在九个
PDF3 years ago
深度视频修复检测
该研究探讨了视频修补检测技术，提出了一种双流编码器解码器体系结构和注意力模块的 VIDNet 方法，该模型采用误差级别分析数据增强处理 RGB 帧，进一步利用卷积 LSTM 模型对编码得到的多模态特征进行空间和时间关系的探索，并使用四个方向
PDF3 years ago
WWW对抗式多模态表征学习用于点击率预测
提出了一种新的基于多模态对抗表示网络 (MARN) 的点击率预测模型，它通过计算多模态特征中的模态加权值和使用模态不变特征来学习表征，以解决在电子商务中从多模态特征学习良好的物品表示的问题，并在公共和工业数据集上实现了显着的改进。
PDF4 years ago
AAAI基于反应式多阶段特征融合的多模态对话建模
本文提出了一种直观的机制，通过多个阶段融合特征和注意力以很好地集成多模式特征，以解决音频视觉场景感知对话任务，并进一步分析了各种最先进的模型在该任务上的泛化能力。
PDF5 years ago
基于 3D 卷积神经网络的跨模态音视频匹配识别
本文提出了一种利用耦合三维卷积神经网络架构来映射音频和视频流到统一表示空间，从而有效地找到不同模态之间时间信息的关联性的 AVR 方法，并且相对于现有的采用 3D CNN 特征表示的视听匹配方法，使用较小的网络架构和数据集进行训练，我们的方
PDF7 years ago
深度视频中的多模态多部分学习与动作识别
提出了一种基于结构稀疏性的联合稀疏回归学习方法，利用来自稀疏部位集的多模态特征的组合将每个动作建模为结构稀疏性，以此来表示各个部位的动态和外观。
PDF9 years ago