超越标签:揭示语音情感识别数据集中的文本依赖性
大型语言模型在聊天、推理和问答等任务中表现出卓越的能力,然而标准的语言模型可能会忽略关键的语用信息,如情感、情感和口语风格,而这些信息对于实现自然、类似人类的口语对话非常重要,特别是当这些信息通过声学提示来传达时。因此,我们提出了一种增强语用的生成预训练变压器(ParalinGPT),该模型利用文本和语音模态来更好地建模口语回应的语言内容和语用属性。该模型将文本的对话背景、语音嵌入和语用属性作为输入提示,在序列化的多任务多模态框架中。实验结果表明,所提出的序列化多任务方法在当前和回应的情感分类上优于典型的序列分类技术。此外,利用对话背景和语音嵌入显著改进了回应文本的生成和情感预测。我们提出的框架在当前情感准确度、回应情感准确度和回应文本 BLEU 分数上分别取得了 6.7%、12.0%和 3.5%的相对改进。
Dec, 2023
本文介绍基于语言使用进行人格预测的交叉性研究,报道了用于文本数据的最全面的心理语言学特征和混合模型的两个主要改进,实验结果表明,这些模型优于同一数据集上的现有工作,并通过对心理语言学特征的不同类别进行消融实验来量化其影响。
Apr, 2022
研究表明,非语言语音如笑声、叹息、结巴等虽不直接提供词汇含义,但其提供的语义和语用上下文对理解其间的讽刺等有重要作用。本研究提出了 DisfluencySpeech,一个以真实对话模拟形式重现 Switchboard-1 电话语音语料库中出色演讲的英语语音数据集,为开发能够预测性地从文本中合成非语言语音的 TTS 模型提供了帮助。
Jun, 2024
本研究通过探究人类感知和机器词汇重要性这两个视角,研究了文本的语言风格对词汇用法的影响,通过收集人类感知数据 Hummingbird 并参考目前常用的 BERT 语言风格分类器,比较了两者对于词汇标签的不同理解。研究表明,对于某些风格,如积极情感和愉悦,人类和机器的识别结果存在显著的重叠,但机器标记某些内容词非风格相关,而人们不能通过这些词汇准确感知对应的风格。
Sep, 2021
本文介绍了一种使用少量的语音数据和大量的文本数据结合的方法,可以有效地构建端到端的语音理解系统,并在句意和实体两个任务上得到了验证,最终得出该方法可以在仅使用文本数据进行训练的情况下,达到与使用全部语音数据进行训练的系统性能相近的结果。
Feb, 2022
社交 NLP 研究社区近期在心理健康分析的计算进展中见证了构建负责任的 AI 模型,以应对语言使用和自我认知之间的复杂相互作用。我们通过注释 LoST 数据集捕捉到 Reddit 用户帖子中表明低自尊的微妙文本线索,并发现 NLP 模型在确定低自尊时更关注三种类型的文本线索:触发词、LoST 指标和后果词。我们的研究结果表明,在 Reddit 帖子中确定低自尊时,需要将 PLMs 的重点从触发词和后果词转移到更全面的解释上,强调 LoST 指标。
Jan, 2024
本文研究了预先训练语言模型在下游任务中表现卓越的特定特质,包括匹配预训练集和下游任务的词汇统计信息、明确依赖关系和隐式依赖的长度等。实验证明,在预先训练数据的明确依赖关系中加入后,模型的下游性能显著提高。我们发现预先训练模型是有可能在下游任务中学习到虚假的相关性。即使语言模型没有预先在自然语言上进行训练,只要其能够模拟序列中的令牌依赖关系,仍然可以在某些语言任务中获得迁移能力。
Sep, 2021
研究探讨了关于如何使数据获取自然语言的有意义的表示,包括评估英语和西班牙语语义空间如何捕捉与概念相关的特征,以及探索共现在这种情况下的作用。
May, 2022
分析了两个自然语言推理数据集的语言特征,发现机器学习模型难以理解介词和动词语义重要性,不能理解反义词和同音词,不能理解不完整的句子和罕见单词短语,因此需要在训练过程中尽可能利用更多外部知识。
Oct, 2022
本研究提出了一种新颖的神经网络框架,将预先训练好的字级知识和字符感知神经语言模型相结合,利用转移学习技术实现不依赖于额外监督信号的序列标注任务,并在基准数据集上通过大量实验验证了其有效性和高效性。
Sep, 2017