BriefGPT.xyz
大模型
Ask
alpha
关键词
dataset filtering
搜索结果 - 1
使用条件似然过滤减少语言模型的危害
提出一种从网页规模数据集中识别和过滤有害文本的方法,使用预训练语言模型计算特定文档条件下研究员编写的触发词组的对数似然,并根据该结果识别和过滤数据集中的文档,证明在过滤后的数据集上训练的语言模型产生有害文本的倾向更低,性能与未过滤基线相比略
→
PDF
3 years ago
Prev
Next