基于音系学的语言生成:绕口令案例研究
本文首次利用基于概率的深度随机点过程解决音韵类型学中的基础问题:什么构成了自然元音库,作者通过超过200种不同语言的广泛实验以及与之前的计算机模拟方法的对比,提出了全面的理论。
May, 2017
介绍了 Twist 解码这一简单通用的文字生成算法,该方法利用多样的模型来提高性能,在机器翻译和科技论文摘要等场景下表现出色,鼓励学者和实践者共同研究生成模型,寻找互补优势。
May, 2022
本文介绍了一个名为 PANCETTA 的自然语言处理模型,能自动生成切题难度适中但有意义的绕口令并提供了基于PANCETTA模型自创的数据集,经过自动和人工评估及定性分析证明,PANCETTA模型可以生成新颖的,语音难度适中的,流利的和意义深远的绕口令。
Sep, 2022
本文提出了一种以unigram分布为先验知识的初始化模型权重的方法,在神经语言生成模型中应用该方法可提高学习效率、整体性能以及鼓励模型专注于非频率相关的语言特性。
Dec, 2022
该研究提出了TWIST方法,利用预训练的文本语言模型进行暖启动,从而训练语音语言模型,实验结果表明TWIST方法在多个方面胜过冷启动方法。基于观察结果,研究团队提出了迄今为止最大的SpeechLM,并引入了两个口语版的StoryCloze文本基准来进一步改进模型评估和推动未来研究进展。
May, 2023
使用技术不对称导致很多人被迫在他们文化水平较低的语言环境中使用网络。我们提出了一种挖掘语音音素混淆的方法,然后将这些混淆应用于一个生成模型,从而合成损坏的第二语言文本,在人员评估中得出了合理的损坏结果,该方法还应用于流行的语言理解基准SuperGLUE,并揭示了现有技术的不足之处。我们还引入了一项新的音素预测预训练任务,使得字节模型的性能接近SuperGLUE,并release了FunGLUE基准,以促进更多关于音素鲁棒性语言模型的研究。据我们所知,FunGLUE是第一个在文本中引入L1-L2交互的基准测试。
Jul, 2023
我们通过数据驱动的计算建模对元音和谐进行了跨语言研究,使用基于信息熵的和谐度量来衡量自然语言词汇中元音的可预测性,训练使用具有较少或无屈折的跨语言可比较的原型形式,结果表明,神经语言模型能够捕捉到呈现这一现象的一组语言中的元音和谐模式。此外,我们的工作还表明词列表是一种有价值的资源,可以用于语言类型学研究,并为未来关于低资源、少研究的语言提供了新的可能性。
Aug, 2023
通过生成大量具备语音学信息的绕口令,本研究提出了TwisterLister生成管道,该管道利用大型语言模型(LLMs)生成了到目前为止最大的带有语音学标注的绕口令数据集TwistList 2.0。此外,我们还引入了一种Phoneme-Aware Constrained Decoding模块(PACD),它可以与任何因果语言模型集成,演示了该方法在不进行底层语言模型微调的情况下生成高质量的绕口令。
Mar, 2024