inter-rater reliability | BriefGPT

关键词inter-rater reliability

搜索结果 - 4

COMPAS 数据集中群体之间的可靠性差距
通过对 COMPAS 数据集的模拟研究，本文调查了风险评估工具（RAIs）的评估者间的一致性，发现不同群体在 RAIs 的评估者间不一致性方面存在系统差异。
PDF10 months ago
利用人类反馈扩大教育数据集规模：结合众包工人和比较判断
利用非专业众包工作者进行复杂的学生数据评估的实验表明，使用比较判断可显着提高两项任务的评定间判定一致性。这一结果符合教育评价领域的比较判断优势的已有文献，也符合人工智能研究中的趋势，即在处理非专业众包工作者的模型输出时，比较判断成为提供人类
PDFa year ago
k - 一致性系数：用于人类标注数据的正确可靠性单位
本文讨论了聚合策略在应对不可靠数据上的应用，并提出了 k - 评分者可靠性来探讨以聚合评分作为数据可靠性的正确单位；作者进行了 WordSim-353 基准测试并提出了计算 k - 评分者可靠性的方法，强调了在汇报可靠性时应同时报告 k -
PDF2 years ago
垃圾输入，垃圾输出？社交计算机中的机器学习应用论文是否报道了人工标记训练数据的来源？
本文研究了在社交计算领域，针对 Twitter 数据执行 ML 分类任务，是否具有遵循模板的最佳实践方法，结果显示，大多数人都没有遵循规则，从而导致数据不可靠。
PDF5 years ago