BriefGPT.xyz
Ask
alpha
关键词
pre-training data detection
搜索结果 - 2
ACL
对预训练数据检测的语言模型探究
大语言模型(LLMs)在展示其出色的能力的同时,也引发了由于隐私问题和基准数据集泄露所导致的数据污染问题。因此,在预训练阶段检测污染是否有 LLM 在目标文本上进行了预训练变得至关重要。最近的研究关注生成的文本并计算困惑度,但这些都是表面特
→
PDF
a month ago
Min-K%++:改进的基准模型用于检测大型语言模型的预训练数据
通过使用整个词汇表的分类分布统计规范化目标词汇的概率,Min-K%++ 相对于 Min-K% 在检测预训练数据方面表现出更高的性能,且无需额外的参考模型。
PDF
3 months ago
Prev
Next