speech input | BriefGPT - AI 论文速递

关键词speech input

搜索结果 - 5

自监督嵌入用于检测抑郁症个体症状
利用自监督学习（SSL）基于语音模型识别和预测抑郁症症状和严重程度，比传统语音特征具有显著性能改进，并探究不同类型的 SSL 预训练模型在识别不同症状时所贡献的语音信息，以及多个 SSL 嵌入的组合和多任务学习在有效识别抑郁症症状中的重要性
PDF9 days ago
离散 SLU：自我監督的离散语音单元用于口语理解的大型语言模型
通过将预训练的基于文本的大型语言模型（LLM）与语音输入集成，我们提出使用离散语音单元（DSU）代替连续值语音编码器输出，通过语音适配器将其转换为 LLM 的标记嵌入空间。我们使用自监督语音编码器后跟 k-means 聚类生成 DSU。所提
PDF21 days ago
一种全面的多尺度方法用于说话者外貌生成中的语音和动态同步
利用深度生成模型和语音输入信号来为静止的面部图像添加动画是当前的研究热点，本文提出了一种多尺度音频视觉同步损失和多尺度自回归生成对抗网络来更好地处理语音和头部以及嘴唇之间的短期和长期关联，通过在面部关键点域中训练多模态输入金字塔上的同步模型
PDFa year ago
单词边界对于无监督语言学习是否有用？
本论文系统比较了不同输入单元（字符、音素、词、词部分）对基于物理词或物理词段的语言模型的影响，并使用三个语音调整的黑盒 NLP 心理语言学基准（pWUGGY、pBLIMP、pSIMI）在词汇、句法和语义层面上探测网络中的语言知识。研究发现，
PDF2 years ago
AAAI利用深层次声学表征从感知和原始语音中学习基于语境的语言
本文研究基于视觉感知和语音输入的接地语言习得。作者利用最新的自监督语音表征模型进行了实验，并认为其可以使语言接地系统更具包容性，并减少依赖文本输入的影响。
PDF3 years ago