- 机器能与人类共鸣吗?评估语言模型的情感和共情理解能力
通过人类交互动态的深度相互关联,人类关怀在促进亲社会行为方面起着关键作用,然而,利用自然语言处理方法对关怀进行建模仍然具有挑战性。从我们对提高语言模型中理解关怀的追求出发,我们提出了几种策略,包括在掩码语言模型中进行对比学习以及使用大型语言 - 透视者的范式转变:对捕捉人工标签的假设和挑战
对于机器学习中的数据标注,多年来一直采用从多个标注者那里收集和汇总标签的方法。然而,当标注者不一致时,我们应该怎么办呢?尽管长期以来,标注者的不一致被视为需要最小化的问题,但新的观点主义方法质疑这一假设,将不一致视为宝贵的信息源。本文中,我 - SIGIR重新思考对话系统的评估:用户反馈对众包工作者和 LLM 的影响
该研究关注用户反馈在评估面向任务型对话系统时的作用,研究发现用户反馈会影响系统评估结果,对于众包工作者而言,用户反馈对有用性和趣味性的评估更具影响力,而对大型语言模型来说,则更看重趣味性和相关性的评估,用户反馈也有助于提高众包工作者在模糊或 - 通过与计算机体层摄影测量的总肺容量进行比较,评估胸部 X 射线分割区域上的肺部低估情况
肺部掩模创建缺乏明确的标准和规范指南,导致注释者之间存在较高的主观性。在这项研究中,我们通过与计算机断层扫描(CT)评估的总肺容积进行比较,评估了按照当前最先进方法创建的胸部 X 线分割掩模上的肺部区域的低估情况。我们发现,通过遵循心脏、纵 - 多标注者数据集的损失建模
通过多任务学习和基于损失的标签修正,我们提出了一种学习多样化意见更准确表达的方法,并展示了该方法在单个或多个注释者注释情况下改善预测性能的能力,同时对主观数据应用的附加标签噪音也表现出鲁棒性。
- 纳布拉:叙利亚阿拉伯方言及其形态学注释
该论文介绍了 Nabra,一个带有形态学注释的叙利亚阿拉伯方言语料库。叙利亚本土人收集了超过 6,000 个句子,包含大约 60,000 个单词,来自社交媒体帖子、电影和电视剧的剧本、歌曲歌词和当地谚语,用于构建 Nabra。Nabra 涵 - 大型语言模型中利用标签变异进行零样本文本分类
使用 5 种最先进的大型语言模型(LLMs)作为 “标注者” 在多个任务上进行评估,并比较其与人类标注的优缺点。总体而言,尽管 LLMs 在某些任务上表现出色,但它们无法替代人类标注的需求。
- ICML超越传统边界:利用标注者间一致性来提升数据管理操作
本研究提出一种新的方法,利用传统用于评估标记一致性的 IAA(Inter-Annotator Agreement),用于优化数据管理操作(DMOps);我们主张使用 IAA 预测个体注释者的标记质量,从而在数据生产中实现成本和时间效益。此外 - 标注员人口统计学何时重要?通过 POPQUORN 数据集衡量标注员人口统计学影响
通过 POPQUORN 数据集的分析,本文发现标注者的背景对于数据标注有显著影响,而标注者的教育水平等背景因素在 NLP 中的应用更应予以重视,因此在数据标注中考虑标注者的背景并从具有人口学平衡的众包工人中收集标签信息是减轻数据集偏差的重要 - 多模态融合交互:人工智能量化的研究
研究了如何通过人工注释对多模态交互进行分类,提出了信息分解方法,比较了部分标签和反事实标签的机会和限制,并提出了一种自动转换方法以量化多模态数据集中的交互
- 机器学习公正的肤色标注的共识性和主观性
本文通过一系列注释实验以验证了 MST 比例尺的作者可以可靠地标注皮肤色调,展示了不同地理区域的标注者所使用的 MST 类别的心态模型不同
- ACLDIFFQG:生成问题总结事实变化
通过补充问答对的形式,提供同期文章的真实不同之处,给出一个 759 组 QA 的 DIFFQG 供注释者使用,并通过这种方法研究了文档之间的自动更新概述。
- 众人的声音都很重要:利用人口统计信息量化注释不一致性
通过提取注释者在五个主观数据集中的选票历史中的不同意标签,并微调语言模型来预测注释者的不同意。结果表明,了解注释者的人口统计信息可以帮助预测不同意见。通过模拟不同的注释者人工人口统计信息,来区分文本内容固有的争议和注释者不同观点之间的分歧, - Quirk 或 Palmer:带注释数据集的情态动词框架的比较研究
本文介绍了 Moverb 数据集,该数据集包括 27,240 个关于在社交对话中含有一句或多句话的情态动词意义的注释。每个话语由三个评注者使用两种不同的情态动词意义理论框架(即 Quirk 和 Palmer)进行注释。使用经过微调的 RoB - 数据视角统一和个性化:社会规范应用
本文针对社交媒体上的冲突话题,研究了如何利用个性化方法对 13k 个标注者进行标注,比较了该方法在预测社交规范感知方面的有效性,并对不同关系下的社会情境的性能进行了分析。
- AAAI从每个标注者获取和学习软标签
通过使用少量标注者的软标签实现模型性能和可靠性的提高,该方法在减少标注者数量的同时得到了与之前方法相当的模型性能,但需要在 elicitation 过程中付出显著的时间成本。
- ACL推荐 - 修订产生可靠的注释嘛?关于 DocRED 中缺失实例的分析
本论文探究了 DocRED 数据集在使用远程监督的推荐 - 修改策略进行大规模标注时产生的错误和偏差。通过对针对该数据集和其他从头标注的子集进行的比较和分析,本文发现该策略在修订阶段实际上阻碍了标记人员补充足够的实例,从而导致较多的假阴性样 - EMNLPKLearn: 从总结数据中推断出背景知识
本文研究了文本摘要中的背景知识,提出了一种技术来推断摘要数据中的背景知识,设计了能够明确建模背景知识的摘要评分函数,并证明这些函数显著地适合人类判断。
- MeTooMA:关于 MeToo 运动的多方面推文标注
本文介绍一个包含 9973 个手工注释的推特语料库,研究 MeToo 运动相关的言论,其中考察了五种不同的语言方面:关联性、立场、仇恨言论、讽刺和对话行为,并对数据的收集和注释过程进行了详细说明,拟为心理语言学家、社会语言学家和计算语言学家 - ACL基于单个实例的自然语言标注者可靠性建模
本文提出了一种无监督的概率模型来处理二元和多类标签,自动评估每个标注者的实例可靠性和每个实例的正确标签。实验结果表明,该方法不仅可以准确评估不同实例上的标注者可靠性,而且在预测正确标签和检测最不可靠的标注者方面也能够实现优于现有技术的性能。