用 “你怎么说” 来代表 “你说了什么”: 反映相应含义的英语语料库
大型语言模型在聊天、推理和问答等任务中表现出卓越的能力,然而标准的语言模型可能会忽略关键的语用信息,如情感、情感和口语风格,而这些信息对于实现自然、类似人类的口语对话非常重要,特别是当这些信息通过声学提示来传达时。因此,我们提出了一种增强语用的生成预训练变压器(ParalinGPT),该模型利用文本和语音模态来更好地建模口语回应的语言内容和语用属性。该模型将文本的对话背景、语音嵌入和语用属性作为输入提示,在序列化的多任务多模态框架中。实验结果表明,所提出的序列化多任务方法在当前和回应的情感分类上优于典型的序列分类技术。此外,利用对话背景和语音嵌入显著改进了回应文本的生成和情感预测。我们提出的框架在当前情感准确度、回应情感准确度和回应文本 BLEU 分数上分别取得了 6.7%、12.0%和 3.5%的相对改进。
Dec, 2023
语调在某种程度上与言语本身及其前后的上下文的信息重复,但仍然包含超越语言的信息。使用大型语言模型,本研究通过英文有声读物中提取的韵律特征与 LLMs 嵌入之间的预测性比较,发现多个韵律特征(包括强度、持续时间、停顿和音调曲线)与言语的信息具有高度的冗余性。然而,仅通过文本无法完全预测语调特征,进一步暗示了语调包含超越言语的信息。
Nov, 2023
使用 Pareto Optimality 观点研究编码的语言信息和任务性能之间的动态关系,提出了一种多目标优化的方法,通过对两个流行的 NLP 任务进行实验发现,一些句法信息有助于 NLP 任务,而编码更多的句法信息不一定能够提高性能。
Mar, 2022
本文提出了一种基于跨句嵌入结构的 TTS 模型,包含语言学信息,韵律信息和位置信息,并在女性普通话语音书籍语料库上进行了训练,结果表明该模型能够生成自然、优质的段落朗读文本,且在主观和客观测试中都表现优于基于句子的模型。
Sep, 2022
通过检查专门数据集中的词汇重叠和机器学习模型的性能,我们揭示了特质标签中的显著文本依赖性,结果表明一些机器学习模型可能过多关注词汇特征而不是目标的语音特征,研究呼吁研究界重新评估现有数据集和方法论的可靠性,确保机器学习模型真正学到其设计的内容。
Mar, 2024
研究表明,非语言语音如笑声、叹息、结巴等虽不直接提供词汇含义,但其提供的语义和语用上下文对理解其间的讽刺等有重要作用。本研究提出了 DisfluencySpeech,一个以真实对话模拟形式重现 Switchboard-1 电话语音语料库中出色演讲的英语语音数据集,为开发能够预测性地从文本中合成非语言语音的 TTS 模型提供了帮助。
Jun, 2024
利用信息论探测套件,我们分析了 9 项任务,涵盖语法、语义和推理,在 2 百万次预训练步骤和 5 个种子中,识别了关键学习阶段,语法知识在全面训练的 0.5% 后迅速获得,持续性能改善主要来自对开放域知识的获取,而语义和推理任务则受益于后期对长距离语境化和更高专业化的提升,跨任务相似性的测量进一步揭示了语言相关任务在训练期间共享信息,这在关键学习阶段比之前或之后更为明显。我们的发现对模型可解释性、多任务学习和有限数据学习具有重要意义。
Oct, 2023
通过开发可完全学习的频率过滤器,我们可以在不同层次和频率上捕捉语言信息。在单语言环境下,我们证明了频谱探测比手工滤波器具有更高的信息量,并在六种语言中的七个 NLP 任务中进行了多语言分析。这些分析鉴定了独特的频谱轮廓,是一种语言直观的方法,而且跨语言是一致的,并展示了其作为强大而轻量级任务描述符的潜力。
Oct, 2022
提出了一种基于 EE-TTS 的强调语音合成模型,该模型利用多层语言信息进行韵律信息的预测,并同时进行语音合成和语言信息输出,并经过实验证明其优于基线模型,并且在不同数据集上也具有较强的泛化能力。
May, 2023
探讨如何从未经处理的文本和语音信号中学习语言,着重于学习词汇表的问题;提出了一种语言表示方法,通过扰动现有参数的组合来建立语言参数,展示了该表示方法在文本分割和压缩、从原始语音中获取词汇表以及文本和人工意义表示之间的映射学习中的应用。
Jun, 1996