- UstanceBR: 一个用于立场预测的多模态语言资源
介绍了巴西葡萄牙语 Twitter 领域的多模态语料库 UstanceBR,该语料库包含对所选目标主题的 86.8k 个标记立场,并提供了有关在社交媒体上发布这些立场的用户的广泛网络信息。描述了语料库的多模态数据以及基于文本和网络相关信息的 - 无缝 M4T - 大规模多语言和多模式机器翻译
创造 Babel Fish 所需的条件是什么?本研究介绍了 SeamlessM4T,它是一个支持多种语言的单一模型,能够进行语音到文本、文本到语音、文本到文本的翻译,并且在翻译安全性方面进行了评估。
- MAVD:首个带深度信息的开放式大规模普通话视听数据集
这项工作旨在建立 MAVD,这是一个新的大规模普通话多模态语料库,包括由 64 名中国本土说话者发出的 12,484 个话语,其中包括深度信息,可用于评估音频视觉语音识别的有效性。
- 多模态语境下的词汇检索假设
该论文描述了建立台湾语言的第一个多模态语料库 (MultiMoco) 的努力,并通过研究手势和语音恒速器的共现,探讨了词汇检索假说的有效性,结果表明手势在某些情况下确实有助于词汇检索,同时也用于信息强调。
- 监督式对比学习用于情感建模
通过对多模态用户输入的可测情感表征进行情感分类,并通过对比学习来训练泛化的、高水平的、融入情感信息的情感表示,提高情感模型的准确性。
- 利用数据增强技术构建韩国手语增强语料库
该论文提出了一个多模态手语扩充语料库(KoSLA corpus)的框架,使用简单而有效的数据增强技术,包括同义词替换,同时保持手语的语法和语义结构,以增加可用数据并提高手语翻译模型的效率,并在医院场景中展示了良好的性能,从而验证了数据增强技 - 推进跨学科的对话科学:从大型多模态人类语音语料库中获得的洞见
本文介绍了一种跨学科的对话科学,基于一个大型的多模式语料库,通过语音,视频和转录记录了 1656 次对话,利用此实验数据,研究人员提出了新的算法并应用机器学习技术,以分析对话成功或失败的因素,并探讨对话与幸福感之间的关系。
- TILES-2018,一份医院工作人员生理和行为数据的纵向数据集
研究使用可穿戴和环境传感器分析医院工作人员的工作表现,人际交往和幸福感,收集 212 名参与者的生理和行为数据,并通过测量个性特征,行为状态,工作表现和幸福感等问题,构建数据集,支持多模态行为建模、生物特征认证和隐私保护机器学习等应用
- OMG-Emotion 行为数据集
本文介绍了我们提出的多模态心情表达数据集,其中使用分层注释策略进行情感表达识别。使用自然连续的方式对 YouTube 视频进行收集,以构建一个公平标准的深度和递归神经模型实验协议。
- EMNLP你看懂我想说的话了吗?语言歧义的视觉解决
通过感知获得的复杂上下文信息与理解语言相辅相成。本文提出了一项新颖的基于场景的语言理解任务:在给定描绘该句子可能解释之一的视觉场景的情况下,将其消除歧义。为此,我们介绍了一个包含多义句子的新的多模态语料库,表示广泛的句法、语义和语篇歧义,并