- ACORN: 方面级常识推理解释评估
评估自由文本解释是一个多方面、主观、费时的任务。大型语言模型呈现出一种吸引人的替代方案,因为它们具有一致性、可扩展性和成本效益方面的潜力。在这项工作中,我们提出了 ACORN 数据集,其中包含 3,500 个自由文本解释和按方面的质量评分, - FRACAS: 一份用于新闻中归属关系的法语标注语料库
本文介绍了一个手动注释的法语新闻语料库,用于引述提取和来源归属。语料库详细描述了数据选择和注释指南,统计了引述类型的平衡情况,并展示了参与手动标注的 8 名注释员之间的高的注释者一致性。
- ICML野外场景中的标注者一致性:揭示其在真实场景中的新兴作用和考虑因素
本文讨论了 Inter-Annotator Agreement 作为一种标签一致性的计量方式,在实际应用中的角色和含义,同时也提出了多种考虑和潜在问题,并建议有效的应对策略。
- ICML超越传统边界:利用标注者间一致性来提升数据管理操作
本研究提出一种新的方法,利用传统用于评估标记一致性的 IAA(Inter-Annotator Agreement),用于优化数据管理操作(DMOps);我们主张使用 IAA 预测个体注释者的标记质量,从而在数据生产中实现成本和时间效益。此外 - CroSentiNews2.0:新闻情感句子语料库
该研究提供了一个句子级情感数据集,覆盖了克罗地亚新闻领域,在已有的 3000 个注释文本的基础上,增加了 14500 个带有 5 个类别标签的注释句子出现。研究者在注释过程中提供了基线分数和标注者间的一致性分析。
- ACLLongEval:长文摘要人工评估的忠实度指南
本研究针对长文本自动摘要难以进行人工评估的问题,通过对 162 篇长文本摘要论文的调研,提出了一种针对长文本自动摘要信度评估的人工评估指南 LongEval,其中包括如何实现准确的信度得分,减少评估者的工作量,以及人工与自动化对齐等方面的考 - 保持一致性关键:使用标注者内一致性消除自然语言处理中的标签变化
该研究提出使用 intra-annotator agreement 衡量标签稳定性,通过 exploratory annotation experiments 探索其与主观性和歧义性之间的关系,为自然语言处理任务提供重要的质量控制。
- 在复杂结构化,多对象和自由文本注释任务中通常测量标注者的一致性
本研究探讨了复杂注释任务的 IAA 测量设计与评估,评估跨越了图像边界框、文本序列标记、排名列表、自由文本翻译、数值向量和语法树等 7 个多样化任务,并提出了两种新颖的 IAA 测量方法,显示它们在任务和注释距离函数之间产生了更一致的 IA - EMNLP会诊清单:标准化医疗记录生成的人类评估
本研究提出使用 Consultation Checklists 作為評估醫療自動生成文本的指標,以提高客觀性和降低專家評估者間的差異。根據實驗結果,使用 Consultation Checklists 作為自動度量標準可以更好地與人工評估相 - 透过循环神经网络动态对情绪的维度标注进行时间对齐
提出一种利用循环神经网络动态补偿情感标注不一致性并将其与相应的声学特征同步的方法,实验结果表明该方法可以显著提高标注员间的一致性和情感标注与声学特征之间的相关性,并在情感预测方面获得改进。
- 稀疏概率一致性
本文提出 Sparse Probability of Agreement(SPA)的概念,以估计当没有所有标注 - 项目对可用时的协议概率,并提供多种加权方案处理不同程度标注的数据,其可成为无偏估计器。
- ACL抽象而非内存:BERT 与英语文章系统
本文通过比较以 a/an,the 和零三种形式设置的冠词预测任务中 Bert 模型和人类的表现,发现 Bert 模型对于检测零冠词的性能远远优于人类,并且在高一致性的情况下更容易与注释者达成一致,这表明 BERT 不是在记忆冠词使用情况,而 - ACL探究德国 Covid-19 社交媒体中针对观点挖掘的标签建议
本文研究了使用交互式更新标签建议来改善在德国新冠社交媒体数据的意见挖掘任务中获取注释的效率。作者开发了一些指导方针并进行了一项受控注释研究,发现模型从一个小型专家注释数据集中训练的建议已经可以显著提高注释者的质量,而来自交互式训练模型的标签 - EMNLP基于上下文感知 Transformer 模型的能力水平预测及简历与职位描述匹配
本文对简历分类进行了全面的研究,提出了基于 Transformer 的分类模型,并对四个经验水平的临床研究协调员(CRC)岗位的 6,492 份简历进行了手动注释,获得了 61% 的高一致性得分,模型在实际应用中表现出较高的准确率。
- 对仇恨言论进行注解:MaNeCo 语料库及来自关键话语分析的一些输入
本研究提出了一种新颖的方案用于 Web 2.0 评论集中仇恨言论的注释,提出一个多层注释方案,并在 MaNeCo 语料库上进行了试验,显示出更高的注释者间协议一致性。
- CVPR少即是多:样本筛选和标签调整提升皮肤病变分割
通过更少的数据选择培训样本,并将地面真实掩码的条件化来消除过度细节,探讨了分割可以改善的可能性,发现样本选择和详细程度的删除分别对应于选择更好的深度学习模型的 12%和 16%。
- 面向挪威语的细粒度情感数据集
介绍 NoReC_fine 数据集,用于对来自多个门类、包括文学、游戏、音乐、产品、电影等专业评论的文本进行精细情感分析,同时注释了极性表达、情感对象和持有者。 详细描述注释过程和开发的标注指南,提供了互注者一致性分析、实验结果,并且打算作 - ACLHighRES:基于重点提取的无参考自动文摘评价
该研究提出了一种由多个评注者对原始文档进行手动评估的新方法,称为基于高亮参考的摘要评估(HighRES),可用于评估多个系统的摘要内容,并说明其相对于其他评估方法具有更好的评注者间一致性,并能够突显其他评估方法忽略的系统差异。
- ACL基于形式本体论的词元分类及其应用
本文介绍了为印度语言量身定制的动词中心词汇资源 OntoSenseNet 的丰富,其重要贡献之一是通过开发一个计算版本来保留 Telugu 词典的原汁原味。手动注释的黄金标准语料库共包含 8483 个动词、253 个副词和 1673 个形容 - AAAI可操作的电子邮件意图建模与重新参数化的 RNNs
本研究提出了一种基于行动的标注方法来注释电子邮件中的意图,并证明了这种方法相对于传统的基于言语行为的注释方法在可扩展性和理论无关性方面更为优越,同时仍然具有重要的语义和语用信息,并通过使用领域自适应 RAINBOW 方法与不同领域的数据集进