- ACL背景对任务导向的对话系统中的众包评估标签的影响
使用大型语言模型对对话上下文进行摘要,以提供丰富而简短的对话上下文描述,并研究其对标注人员性能的影响。通过减少上下文提供来获得更积极的评分,而提供完整的对话上下文则能够获得更高质量的相关性评分,但会引入有用性评分的歧义。使用第一个用户话语作 - 众包和 LLM 的注释质量比较研究
通过对现有众包数据集进行评估,从不同的角度研究了个体众包标签和大语言模型标签的质量,提出了一种众包 - 大语言模型混合标签聚合方法并验证了其性能,发现将优质大语言模型的标签与现有众包数据集相结合能提高数据集的聚合标签质量,且高于大语言模型标 - 目标检测中嘈杂预测标注的深度主动学习
减少标注数量并保持算法性能,通过主动学习算法在活动数据集中进行标签审核,可以提高模型性能,尤其在与不确定性查询策略相结合时。
- ICCV不准确边界框目标检测的空间自我蒸馏
通过空间自蒸馏对象检测器 (SSD-Det) 以及空间信息和类别信息的结合,利用模糊边界框的监督来改善对象检测,提高注释质量。在 MS-COCO 和 VOC 数据集上的实验证实了该方法的有效性,达到了最新的性能水平。
- Noor-Ghateh:用于评估哈迪斯领域阿拉伯语词分割器的基准数据集
我们提供了一个用于评估分离阿拉伯词汇方法的基准数据集,其中包括来自《伊斯兰教法》书籍的约 223,690 个单词,并由专家进行了标注。通过使用 Farasa、Camel、Madamira 和 ALP 等不同方法对数据集进行评估,我们报告了四 - 手动注释的质量和效率:预注释偏差
本文分析了使用自动的预注释进行中等复杂度任务 (依赖句法注释) 的注释,并比较了手动注释和预注释注释的差别。实验证实了预注释是提高手动句法注释一致性和效率的有效工具。
- 多任务基于指令提示的谬误识别
此研究采用基于 T5 模型的多任务学习,解决了识别多种领域和类型的 28 种谬误的问题,并研究了模型大小、提示选择和注释质量等因素对性能的影响。
- MTurk 上寻找资格合适的工作者进行摘要分析
通过一个由三个步骤组成的资格认证系统,成功筛选优质的 MTurk 工作者来改善众包平台获取高质量人类标注的困难性,并优化人力资源的使用,本文探讨了此方法的有效性,可作为处理其他繁琐的标注任务的基础。
- INSPIRED2: 一个改进的社交对话推荐数据集
本文研究了人工标注数据对于对话式推荐系统中实体识别精准性和回应一致性的影响,并以 INSPIRED2 数据集为例,证明数据质量对于对话式推荐系统的学习和表现具有重要意义。
- TwiBot-22: 基于图的 Twitter 机器人检测
提出了一个基于图的 Twitter 机器人检测基准 (TwiBot-22),该基准提供了目前最大的数据集,具有更好的注释质量,并重新实现了 35 个代表性的 Twitter 机器人检测基线,以维护模型性能公正比较和研究进展的整体理解。
- AAAI再审视用于可解释 NLP 的人工标注
通过对可解释 NLP 中两个广泛使用数据集上人类注释行为及其质量进行的实验表明,工作者的资质和注释过程的细节有着显著影响,并且特定的可解释性方法会随着不同指导下获得的 ground truth rationales 而有所不同。因此,研究人 - AAAI通过建立共同混淆模型学习众包数据
本文提出了一种新的众包模型,通过对每个实例和注释者的难度和能力进行分析,将注释噪声分解为公共噪声和个体噪声,并使用两种噪声自适应层实现端到端的学习解决方案来识别每个注释中的噪声来源。