Jan, 2024

批评的批评

TL;DR本文中,我们开创性地提出了 MetaCritique 框架来评估评论的质量,从新颖角度对评论进行批评,通过精确度和召回率评估评论的真实性和完整性,最终采用 F1 分数来作为总体评分。我们还提出了原子信息单元 (AIUs) 用于更细致地描述评论,并对每个 AIU 的判断进行综合计算。通过构建一个包含四个任务(问题回答、推理、蕴涵和总结)的元评估数据集,我们进行了比较研究以证明 MetaCritique 的可行性和有效性。实验证明,由 MetaCritique 评估的优秀评论可以促进更好的改进,表明生成性人工智能确实有潜力与我们的 MetaCritique 显著提高。我们将在此 https URL 发布相关代码和元评估数据集。