量化语音中词汇和非词汇通道的感知价值

Jul, 2023

量化语音中词汇和非词汇通道的感知价值

Quantifying the perceptual value of lexical and non-lexical channels in speech

Sarenne Wallbridge, Peter Bell, Catherine Lai

TL;DR通过量化非词汇信息对对话期望的感知价值，本文展示非词汇信息在对未来对话的期望中产生一致影响，即使在与仅有词汇内容相比出现较差的鉴别性判断时，它也在参与者之间产生更高的共识。

Abstract

speech is a fundamental means of communication that can be seen to provide two channels for transmitting information: the lexical channel

speech communication lexical channel non-lexical channel dialogue

发现论文，激发创造

自发言语中的非语言信息分析新框架

非语言信号编码通过韵律传达从交流行为到态度和情感的信息。本文提供了一个分析框架和技术概念验证，用于对韵律信号进行分类和与意义相关的关联。该分类过程通过微调预训练的语音识别模型实现，能够同时进行多类别 / 多标签检测。此外，解释韵律模式可以指导沟通和语音组织理论的发展，且可增强与语音和语言相关的技术的解释能力。

Mar, 2024

关于量化书面语言所编码的语义信息的探索

本文研究书面语的信息编码和语义特征，利用信息论的方法分析书面语中词汇的分布和使用，探求了主题 - 词汇频率关系。研究结果表明，在每个文本中，频率高的词汇与主题的相关性更大，这种现象可以用特征大小和分布模型来解释。

Jul, 2009

非言语线索在稳健发音评估中的互补作用

在发音评估系统的研究中，重点使用非母语（L2）语音的语音学和音韵学方面，常常忽略了潜藏在非语言线索中的丰富信息层面。本研究提出了一种新颖的发音评估框架 IntraVerbalPA。该框架创新地结合了细粒度的帧级和抽象的话语级非语言线索，以及传统的语音和音素表示。此外，我们引入了 “音素时长的优劣度” 指标，以在框架中有效模拟时长分布。我们的结果验证了所提出的 IntraVerbalPA 框架及其各个组成部分的有效性，并获得与现有研究成果相匹配或超越的性能。

Sep, 2023

同时建模语音识别和合成：将词汇和亚词汇语义信息编码和解码为语音，无需直接访问语音数据

本文旨在研究如何从原始语音中自动生成词汇语义信息，并将其应用于无人监督的语音技术和语义建模领域。作者建立了包含生产和感知原则的深度卷积神经网络，通过自动编码和分类技术实现词汇语义信息自动解码。研究结果表明该网络能够从原始语音数据中学习到独特的词汇信息，具有良好的应用前景。

Mar, 2022

语义通道均衡器：多用户语义通信中的语言不匹配建模

本篇论文探讨了多用户语义通信系统中由于不同语言导致的语义干扰问题，并提出了一种新的语义通道均衡器来解决这个问题。实验结果表明，该语义通道均衡器在操作复杂度和传输准确性方面优于传统方法。

Aug, 2023

用 “你怎么说” 来代表 “你说了什么”: 反映相应含义的英语语料库

研究语音翻译中的语音语调信息如何通过词汇和语法的方式映射到语言信息，并且如何将其转化为保存语调信息的翻译结果，通过对英语语调信息语料库的分析，提出了一种重点映射的方法，为研究语音翻译中语音信息的转化提供了更进一步的参考。

Mar, 2022

量化韵律与文字之间的冗余性

语调在某种程度上与言语本身及其前后的上下文的信息重复，但仍然包含超越语言的信息。使用大型语言模型，本研究通过英文有声读物中提取的韵律特征与 LLMs 嵌入之间的预测性比较，发现多个韵律特征（包括强度、持续时间、停顿和音调曲线）与言语的信息具有高度的冗余性。然而，仅通过文本无法完全预测语调特征，进一步暗示了语调包含超越言语的信息。

Nov, 2023

处理口语处理中的盲点

本文探讨了非语言线索（包括共语手势和面部表情）在人类交流中的关键但常常被忽视的作用，以及它们对自然语言处理（NLP）的影响。我们提出了发展通用自动手势划分和转录模型以将这些非语言线索转录为文本形式的方法，来加强口语理解的盲点并提升 NLP 模型的适用性。通过激励性例子，我们演示了仅仅依靠基于文本的模型的局限性。我们提出了一种计算高效且灵活的方法，可以与现有的 NLP 流程无缝集成，用于引入非语言线索。最后，我们呼吁研究界为通用转录方法的发展做出贡献，并验证其在捕捉现实中多模态交互的复杂性方面的效果。

Sep, 2023

通过感知的声音特质实现说话人身份的可解释表示

通过添加性别感知语音特征到 Consensus Auditory-Perceptual Evaluation of Voice（声音感知评估协议）中，基于感知声音特征的方法提供了一种成人声音性格的感知潜在空间，作为高层次人口统计学信息和低层次声学、物理或学习表示之间的中间抽象。与先前的观点相反，我们证明这些感知声音特征可以被非专家集体听到，并且进一步证明了以感知声音特征为基础的表示中所编码的信息可以通过多种语音表示进行预测。

Oct, 2023

词语何时有意义？使用个体处理效应估计理解词汇选择对受众感知的影响

本文探讨词汇选择对句子表达的感知产生的因果效应，并提出基于准实验设计和分类算法的两类方法来估计这种效应。实验证明，基于算法的估计方法和基于随机对照试验的估计方法具有较高的一致性，同时分类器在不同领域仍能维持高准确度。

Nov, 2018