基于音系学的语言生成：绕口令案例研究

Jun, 2023

基于音系学的语言生成：绕口令案例研究

Phonetically-Grounded Language Generation: The Case of Tongue Twisters

Tyler Loakman, Chen Tang, Chenghua Lin

TL;DR本文主要研究了语音基础的语言生成在诸如绕口令等领域的应用，提出了TwistList数据集以及多个适用于绕口令生成的benchmark系统，经过自动和人工评估，发现模型在无特定训练和数据、无显式语音知识的情况下，生成绕口令的表现仍需提升。

Abstract

Previous work in phonetically-grounded language generation has mainly focused on domains such as lyrics and poetry. In this paper, we present work on the generation of tongue twisters - a form of language that is

发现论文，激发创造

概率语言类型学:元音库存的深度生成模型

本文首次利用基于概率的深度随机点过程解决音韵类型学中的基础问题：什么构成了自然元音库，作者通过超过200种不同语言的广泛实验以及与之前的计算机模拟方法的对比，提出了全面的理论。

May, 2017

元音共鸣峰模型的深度生成模型

该研究提出了一种基于前两个共振峰值的声学信息的生成概率模型，用以预测语言中包含哪些元音，从而归纳语言类型学的原理。

Jul, 2018

在师生框架下进行数据增强的跨语言合成

本篇论文旨在通过应用师生范式来解决跨语言综合中常见的泛化问题。结果表明，该方法在保持语音自然度和韵律变化的同时，有效提高了说话人特征的保留。

Mar, 2022

扭结解码：多样的生成器相互引导

介绍了 Twist 解码这一简单通用的文字生成算法，该方法利用多样的模型来提高性能，在机器翻译和科技论文摘要等场景下表现出色，鼓励学者和实践者共同研究生成模型，寻找互补优势。

May, 2022

PANCETTA: 基于音素感知的神经补全模型自动产生绕口令

本文介绍了一个名为 PANCETTA 的自然语言处理模型，能自动生成切题难度适中但有意义的绕口令并提供了基于PANCETTA模型自创的数据集，经过自动和人工评估及定性分析证明，PANCETTA模型可以生成新颖的，语音难度适中的，流利的和意义深远的绕口令。

Sep, 2022

语言生成模型的自然偏好

本文提出了一种以unigram分布为先验知识的初始化模型权重的方法，在神经语言生成模型中应用该方法可提高学习效率、整体性能以及鼓励模型专注于非频率相关的语言特性。

Dec, 2022

文本预训练的语音语言模型

该研究提出了TWIST方法，利用预训练的文本语言模型进行暖启动，从而训练语音语言模型，实验结果表明TWIST方法在多个方面胜过冷启动方法。基于观察结果，研究团队提出了迄今为止最大的SpeechLM，并引入了两个口语版的StoryCloze文本基准来进一步改进模型评估和推动未来研究进展。

May, 2023

BiPhone: 文本中模拟跨语言语音影响力

使用技术不对称导致很多人被迫在他们文化水平较低的语言环境中使用网络。我们提出了一种挖掘语音音素混淆的方法，然后将这些混淆应用于一个生成模型，从而合成损坏的第二语言文本，在人员评估中得出了合理的损坏结果，该方法还应用于流行的语言理解基准SuperGLUE，并揭示了现有技术的不足之处。我们还引入了一项新的音素预测预训练任务，使得字节模型的性能接近SuperGLUE，并release了FunGLUE基准，以促进更多关于音素鲁棒性语言模型的研究。据我们所知，FunGLUE是第一个在文本中引入L1-L2交互的基准测试。

Jul, 2023

元音和谐的信息论特征：关于词汇列表的跨语言研究

我们通过数据驱动的计算建模对元音和谐进行了跨语言研究，使用基于信息熵的和谐度量来衡量自然语言词汇中元音的可预测性，训练使用具有较少或无屈折的跨语言可比较的原型形式，结果表明，神经语言模型能够捕捉到呈现这一现象的一组语言中的元音和谐模式。此外，我们的工作还表明词列表是一种有价值的资源，可以用于语言类型学研究，并为未来关于低资源、少研究的语言提供了新的可能性。

Aug, 2023

训练与约束：基于语音学信息的从话题和改写生成绕口令

通过生成大量具备语音学信息的绕口令，本研究提出了TwisterLister生成管道，该管道利用大型语言模型（LLMs）生成了到目前为止最大的带有语音学标注的绕口令数据集TwistList 2.0。此外，我们还引入了一种Phoneme-Aware Constrained Decoding模块（PACD），它可以与任何因果语言模型集成，演示了该方法在不进行底层语言模型微调的情况下生成高质量的绕口令。

Mar, 2024