BriefGPT.xyz
Ask
alpha
关键词
trustworthy evaluation via output distribution
搜索结果 - 1
泛化还是记忆:大型语言模型的数据污染与可信评估
我们提出了基于 LLMs 输出分布的数据污染检测方法 CDD,并通过修正 LLMs 输出分布的方法 TED,有效地检测和减轻数据污染的影响。实验结果表明,CDD 在准确度、F1 得分和 AUC 指标方面相对其他方法平均提升了 21.8%-3
→
PDF
4 months ago
Prev
Next