ACLJul, 2023

BiPhone: 文本中模拟跨语言语音影响力

TL;DR使用技术不对称导致很多人被迫在他们文化水平较低的语言环境中使用网络。我们提出了一种挖掘语音音素混淆的方法,然后将这些混淆应用于一个生成模型,从而合成损坏的第二语言文本,在人员评估中得出了合理的损坏结果,该方法还应用于流行的语言理解基准 SuperGLUE,并揭示了现有技术的不足之处。我们还引入了一项新的音素预测预训练任务,使得字节模型的性能接近 SuperGLUE,并 release 了 FunGLUE 基准,以促进更多关于音素鲁棒性语言模型的研究。据我们所知,FunGLUE 是第一个在文本中引入 L1-L2 交互的基准测试。