BriefGPT.xyz
Ask
alpha
关键词
near duplicates
搜索结果 - 2
关于语言模型中(近似)重复的子词的影响
研究论文中,我们主要探讨了词元化对语言模型训练效率的影响,发现在完全重复设置下,语言模型训练需要大约多出 17% 的数据量。此外,研究还发现自然存在的近义词对语言模型的性能产生了负面影响,限制了表现的潜力。
PDF
3 months ago
面向规模化的抗噪去重
使用历史新闻电线的独特时效性创建了一个包含 27,210 个文件,122,876 个正重复对的数据集,评估了区分训练的双编码器和组合双编码器和交叉编码器的范围,结果表明神经方法显着优于哈希和 N-gram 重叠,并且 bi-encoder
→
PDF
2 years ago
Prev
Next