Jan, 2024

网络中机器翻译的惊人数量:多样并行的洞察

TL;DRWeb 内容通常被翻译成多种语言,多语言机器翻译常常质量较低,且低资源语言中占大部分的内容是机器生成的多语言内容;我们发现内容选择偏差,即低质量英文内容通过机器翻译大规模转译成较低资源语言;我们的研究对使用从网上刮取的单语和双语数据来训练多语言大型语言模型等模型提出了严重的疑虑。