BriefGPT.xyz
Ask
alpha
关键词
reliable evaluation
搜索结果 - 3
LLM 是否可以成为个性化的法官?
基于个性化评判的高可信度大型语言模型在评估上提供了更可靠和可扩展的方法,并显示出与人类判断相当甚至超出人类在高可信度样本上的表现。
PDF
19 days ago
选择你的视角:性别偏见评估中的缺陷
通过评估当前性别偏见评估范式并识别其中的一些缺陷,我们提出了一些更可靠的性别偏见评估指南,强调了衡量模型性别影响的外在偏差度量的重要性,并发现数据集和度量往往是相互耦合的,这是导致获取可靠结论能力受到阻碍的原因之一。
PDF
2 years ago
统计临界点边缘深度强化学习
本文通过案例研究 Atari 100k 游戏数据集,强调在少量训练运行的深度强化学习算法中,为保证结果准确性和防止领域进展停滞,不可忽略数据的不确定性,提出用区间估计来评估强化学习算法的表现,并在常用数据集上分析了已有算法的性能,提出更为严
→
PDF
3 years ago
Prev
Next