Jun, 2024

数据污染能够跨越语言障碍

TL;DR开发大型语言模型的不透明性引起了关于潜在的训练数据污染的担忧。我们提出了一种基于跨语言的深层污染形式,可以欺骗传统的检测方法。我们还探讨了跨语言污染在解释语言模型的工作机制和提升多语言能力方面的潜在用途。