BriefGPT.xyz
Ask
alpha
关键词
test dataset
搜索结果 - 3
RepLiQA:用于评估 LLMs 在未见参考内容上的问答数据集
通过介绍一个名为 RepLiQA 的新测试数据集,本研究试图解决使用互联网数据进行大型语言模型评估时可能出现的问题,并通过对各种型号和规模的模型进行基准测试,揭示它们在不同情境条件下的性能差异。
PDF
19 days ago
中大型语言模型零样本闭卷生成问答的评估
本文研究中等规模的语言模型在零 - shot 生成问答方面的性能,评估结果表明最佳模型的回答率可达 46.4%,使用适当的训练数据进行微调比仅仅依靠参数数量更为重要。
PDF
a year ago
ICML
通过分布匹配进行类先验变化下的半监督类别平衡学习
本文提出通过匹配训练和测试输入数据的概率分布来估计测试数据集中的类比率,从而解决在缺乏测试域标签数据时学习测试数据集中的类比率所带来的问题。
PDF
12 years ago
Prev
Next