Mar, 2024

训练与约束:基于语音学信息的从话题和改写生成绕口令

TL;DR通过生成大量具备语音学信息的绕口令,本研究提出了TwisterLister生成管道,该管道利用大型语言模型(LLMs)生成了到目前为止最大的带有语音学标注的绕口令数据集TwistList 2.0。此外,我们还引入了一种Phoneme-Aware Constrained Decoding模块(PACD),它可以与任何因果语言模型集成,演示了该方法在不进行底层语言模型微调的情况下生成高质量的绕口令。