- MM-SHAP:一种性能不可知的度量方法,用于测量视觉和语言模型与任务中的多模式贡献
本研究提出了一种性能无关的多模态得分 MM-SHAP,该得分可以定量地衡量模型在多模态任务中使用个体模式的比例,并可分别应用于比较模型的多模态程度和度量给定任务和数据集的个别模态的贡献,实验结果表明,单模型崩溃可能出现不同程度和不同方向,与 - 利用非规则多模态电子病历建模改进医疗预测
本论文通过手工建模和学习内插嵌入,采用分离机制建模不规则的时间序列;采用时间注意力机制,将临床记录的一系列表示为多元不规则时间序列,并采用交织注意机制跨时间步骤进行多模态融合,以整合多模态表示。结果表明,我们提出的方法在单一模态和多模态情景 - COLINGngram-OAXE:基于短语的无序自回归机器翻译交叉熵
使用 ngram-oaxe loss 进行翻译,能够更好地模拟表达短语和句子的结构,减轻多模式及单词排序错误的影响。
- ECCVRelPose:预测野外单个物体的概率性相对旋转
该论文提出基于能量分布的摄像机视角预测方法,该方法可以用于物体重建和视角合成等任务,并在稀疏图像情况下优于现有的 SfM 和 SLAM 方法,从而可以作为实现从多视角数据集中进行现场重建的基础。
- ACL多模态对话状态跟踪
本文提出了一项新的多模式对话状态跟踪任务,用于跟踪视频对话中提到的视觉对象的信息;并介绍了 Video-Dialogue Transformer Network (VDTN) 作为实现该任务的基准模型。
- 基于双向 LSTM 和时间分布的 CNN 的语调和语义特征预测抑郁症严重程度
提出了一种基于多模态语音和文本表达的关注机制用于预测抑郁症,使用 DAIC-WOZ 数据集训练所提出的模型,分别在音频、文本和多模态情况下进行了实验,并取得了较好的预测效果。
- 信息过载:CDCL 求解器为何需要遗忘已学子句
文章发现适当的子句学习可以促进 CDCL 求解器的性能,但在某些情况下,此方法可能会大大降低求解过程,这主要来自 CDCL 求解器具有多峰运行时间分布。通过使用威布尔混合分布来描述这种多峰分布,得出遗忘子句在 CDCL 求解器中对于优化单元 - GOHOME: 面向图形的热力图输出用于未来的运动估计
通过图表达和稀疏投影,本文提出了 GOHOME 方法,生成了一种热图输出,代表给定交通场景中某个代理未来位置的概率分布,避免了传统 CNN 的高计算负担,并以极大速度和内存负担减少达到了 Argoverse 1st place 方法 HOM - CVPR基于堆叠 Transformer 的多模态动作预测
该论文提出了一种新的基于 transformer 的系统 ——mmTransformer,它使用独立提案集生成和选择提案,并使用基于区域的训练策略诱导所生成提案的多样性。实验表明,该模型在运动预测方面具有最先进的性能,大大提高了预测轨迹的多 - 基于文本的神经运算:通过文本指令进行图像操作
本研究提出一种基于 GAN 的多模态图片编辑方法,利用自然语言指令局部修改图片特征,实现对包含多个对象的图像进行编辑,并在三个公共数据集上展示出优异的表现,包括更高的保真度和语义相关性以及更好的图像检索性能。
- ECCV智能:多智能体联合递归轨迹预测
本文提出了一种解决多模态数据和场景下多主体交互的轨迹预测问题的方法,使用 convLSTM 结合 CVAE 进行多样性预测,通过多元化的数据集模拟,取得了比现有方法更好的效果
- ECCV不仅仅看,还要听:弱监督下学习多模态暴力检测
本文提出了一种基于多模态的神经网络的暴力检测方法,通过发布了一个大规模多场景的数据集 XD-Violence,证明了该方法在判断暴力视频方面的优越性,并通过实验证明了多模态(包括视听)输入和建模关系的积极影响。
- 用于组合表示学习的多模态生成模型
该文介绍了一种基于多模态数据边缘似然的分层变分自编码器的族群。文章使用 VAEGAN 及基于流的模型构建了模型。实验结果表明,对于图像、标签和文本数据,这些模型在很多领域中达到了最优结果,并且使用 GAN 图像模型和 VAE 语言模型可以得 - 理解多模态程序的程序推理网络
本文介绍了一种新型的神经理解模型,它动态更新实体状态并利用多模态信息帮助理解计算机常识任务,使用这种方法显著提高了之前报告的模型的准确性。
- 多模态端到端自主驾驶
本文提出并分析了终端到终端驾驶中,结合 RGB 和深度信息数据的多模态方案,以期提高自动驾驶 AI 模型的性能。通过模拟和条件模仿学习,证明了采用早期融合多模态方案,可以超越采用单模态的性能表现。
- ICCVSMIT: 随机多标签图像翻译
本文提出了一种联合框架,通过条件生成无数独特的图像,实现多样性和多映射图像到图像的翻译,使用称为领域嵌入的嵌入表示来表示领域和风格,并在连续的样式插值,连续标签插值和细粒度映射等不同场景下展示其有效性。
- 基于粒子的变分方法用于贝叶斯非负矩阵分解
使用粒子变分贝叶斯方法处理非负矩阵分解中的非识别性问题,提高贝叶斯 NMF 后验分布的精度并发现多模态的重要作用。
- MINOS: 多模态室内复杂环境导航模拟器
研究介绍了支持多感官模型的导航目标定位的 MINOS 仿真器,用于分析环境复杂性对导航性能的影响及传感器学习的多模态控制研究,实验表明:深度强化学习方法无法适用于大规模的现实环境中,多模态学习可有助于学习在拥挤场景中导航。
- 面向人机交互的多模态概率模型规划
该论文介绍了一种基于条件变分自编码器(CVAEs)的方法,用于在多模式(即多个高度不同的未来可能)的情况下制定人机交互策略,特别关注于交通道路中的车辆交织问题,并通过人 - 机器交互模拟表明了该方法的有效性。
- 在条件随机网络下进行多模式运动预测
本文提出一种基于随机神经网络架构来处理多样性数据分布的方法,并通过实验验证应用于处理物体轨迹、人体关节轨迹和视频预测等问题中,取得了较好的实验效果。