BriefGPT.xyz
大模型
Ask
alpha
关键词
contamination detection
搜索结果 - 2
数据污染能够跨越语言障碍
开发大型语言模型的不透明性引起了关于潜在的训练数据污染的担忧。我们提出了一种基于跨语言的深层污染形式,可以欺骗传统的检测方法。我们还探讨了跨语言污染在解释语言模型的工作机制和提升多语言能力方面的潜在用途。
PDF
15 days ago
LLMs 内的时间旅行:追踪大型语言模型中的数据污染
在理解大型语言模型(LLM)对其他任务的有效性中,数据污染(即,在训练数据中存在来自下游任务的测试数据)可能是一个重要问题。我们提出了一种简单但有效的方法来识别 LLMs 中的数据污染,该方法通过识别来自小型随机样本的个别实例中的潜在污染,
→
PDF
a year ago
Prev
Next