学习用于多模式失语类型检测的共言手势
我们提出了一种新的框架,将手势检测任务看作多阶段序列标注问题,通过处理时间窗口内的骨骼运动序列,使用 Transformer 编码器学习上下文嵌入,并利用条件随机场进行序列标注。我们在大规模数据集上对我们的方法进行评估,结果表明,我们的方法在检测手势笔划方面明显优于强基准模型。此外,将 Transformer 编码器应用于从运动序列中学习上下文嵌入显著改善了手势单元检测。这些结果突显了我们框架捕捉共话手势阶段微观动态的能力,为更细致和准确的手势检测和分析铺平了道路。
Aug, 2023
通过使用 Transformer 编码器对语音和骨架序列进行交叉模态和早期融合技术,本研究在协同语音手势检测方面取得了显著的性能提升,并发现模型的手势预测置信度与与手势相关的语音频率特征存在相关性。
Apr, 2024
本研究旨在对 “野外” 单个说话人的单调发言进行语音输入并生成合理的手臂动作,通过训练无标签视频并将我们的模型与基准方法进行量化比较,证明了我们提出的模型在肢体运动与语音之间的交叉模式翻译方面显着优于基准方法,并且我们发布了一个大型的视频数据集以支持研究。
Jun, 2019
通过使用语言无关的语言特征,我们尝试利用英语中可用的数据,并在希腊语和法语等低资源语言中实现零样例失语症检测。我们提出了一种端到端流水线,使用预训练的自动语音识别(ASR)模型,共享跨语言语音表示,并进行微调,以实现我们所需的低资源语言。为了进一步提高我们的 ASR 模型的性能,我们还将其与语言模型结合在一起。我们证明,我们基于 ASR 的端到端流水线提供了与使用人工注释转录的先前设置相当的结果。
Apr, 2022
本篇论文使用最先进的语音识别技术基于 AphsiaBank 数据集,提出了一个新的 Aphasia 语音识别基准,并引入了基于 CTC/Attention 架构的两种多任务学习方法以同时执行两个任务。研究者的系统实现了 97.3% 的说话人级别的检测精度和中度 Aphasia 患者的 11% 的相对 WER 降低率。此外,作者还将这种方法应用到另一个失序语音数据库,即 DementiaBank Pitt 语料库。研究者提供了标准化的数据预处理流程和开源配方,使研究者可以直接比较结果,促进失序语音处理的进步。
May, 2023
本文提出了一种基于学习的共语手势生成模型,从 52 小时的 TED 演讲中学习,并成功地生成了各种手势,包括像征性、隐喻性、指示性和节奏性手势。该模型通过主观评估,被认为与人类行为类似,与语音内容相匹配。另外展示了与 NAO 机器人在实时工作中进行共语手势的场景。
Oct, 2018
本文提出了一种基于多模态预训练编码器的共话手势生成方法,该方法通过自监督学习训练基于多头注意力的编码器以包含每种模态的信息,从而实现即使在输入模态缺失或存在噪声时,仍能生成逼真的共话手势。
May, 2023
本文提出了一种新框架,可以根据语音文本和语音音频表达生成关节角度序列,经过客观和主观评估,证明了该手势生成框架对机器人和具身代理的有效性。
Sep, 2023
本文提出了一种基于多模态上下文和对抗训练的自动生成手势模型,使用新的手势生成度量标准和主观人类评估表明,该模型优于现有的端到端生成模型。
Sep, 2020
通过 LivelySpeaker 框架,我们实现了语义感知的共同语言手势生成,并提供了几个控制手段。我们的方法将任务分解为两个阶段:基于脚本的手势生成和基于音频引导的节奏细化。具体地说,基于脚本的手势生成利用预先训练的 CLIP 文本嵌入作为指导,生成与脚本高度语义对齐的手势。然后,我们设计了一个简单而有效的基于扩散的手势生成骨干,仅依赖音频信号并学习以逼真的动作作为手势。我们利用这种强大的先验知识将脚本引导的手势与音频信号相结合,尤其是在零样本设置下。我们的两阶段生成框架还能实现多种应用,例如改变手势风格,通过文本提示编辑共同语言手势,以及通过引导扩散控制语义感知和节奏对齐。大量实验证明了所提出框架相对竞争方法的优点。此外,我们的核心基于扩散的生成模型在两个基准测试中也取得了最先进的性能。代码和模型将在未来发布以促进研究。
Sep, 2023