BriefGPT.xyz
Ask
alpha
关键词
evaluation algorithms
搜索结果 - 4
COLING
WikiFactDiff:用于因果语言模型中原子事实知识更新的大型、逼真和时态可调整的数据集
大型语言模型的事实性随时间衰退,为保持模型时效性,可以进行事实更新,而 WikiFactDiff 是一个描述事实知识演变的数据集,包括更新场景和评估算法。
PDF
4 months ago
评估社交机器人导航算法的原则和指南
本文提出了评估社交机器人导航算法的标准、度量方式和基于场景分析的指导方针,并设计了一个社交导航度量指标框架来比较不同的模拟器、机器人和数据集的结果。
PDF
a year ago
使用点击模型对排名策略进行离线评估
本文提出了一种评估算法来预测历史日志数据中排名列表上的点击数,并使用用户与项目列表的交互模型来构建统计效率更高的估计器。实验结果表明,相对于先前的估计器,该算法具有更高的性能表现。
PDF
6 years ago
NIPS
边界检测基准的元理论
本文介绍了一个心理物理实验,研究人员标记的数据集及其对应的评估算法在边界检测中的重要性,提出了一种计算框架来消除不适当的人类标签并估计边界的内在属性,以找到更好的评估任何边界检测算法性能的方法。
PDF
11 years ago
Prev
Next