- AAAI检索方式下寻找相似练习
通过表示学习和 FSE 问题解决方法,本研究提出了一种有效的方法来检索和推荐相似的练习,同时解决了对练习进行标注的问题,提高了标注数据的质量。
- 医学领域跨语言论证挖掘
通过将英文数据翻译并投影到目标语言(西班牙语)的方法,我们有效地生成了无需手动干预的带注释数据,并证明了其优于使用大型屏蔽多语言语言模型的零 - shot 跨语言方法。同时,我们还展示了西班牙语中自动生成的数据如何用于改善英语评估设置中的结 - EMNLPHumSet: 人道主义危机响应的多语言信息提取和分类数据集
为了快速有效地应对人道主义危机,我们提出并发布了 HumSet,这是一个包含跨越世界各地 2018 年至 2021 年人道主义危机文件的创新性和丰富的多语言数据集,通过专家的鉴定和注释,可以高度受益于在人道主义响应领域中训练的专家协助的 N - O-Dang!危险言论消息的本体论
本文介绍了一个名为 O-Dang! 的危险言论消息本体,它是一个系统且可互用的知识图谱,用于收集语言注释数据,并考虑了透视主义方法以编码金标准和单注释者标签。
- ICML基于原型锚定的学习:处理不完美标注的学习
本文研究了深度神经网络中不平衡分类和嘈音容忍性,并提出了一种名为原型锚定学习(PAL)的方法,将其纳入各种学习分类方案中,以应对不完美的注释。
- 注释错误检测:分析过去和现在,创造更连贯的未来
本文重新实现并评估了 18 种检测可能存在的注释错误的方法,并在 9 个英文数据集上进行了评估,同时提供了评估协议和实现的开源软件包,以促进未来的研究和再现性。
- 混合泰米尔语 - 英语评论攻击性跨度识别共享任务的发现
本研究提供了泰米尔语 - 英语混合社交评论中带有冒犯性内容的数据集,旨在解决社交媒体平台上对具有冒犯性内容进行分类的问题,缺乏冒犯性内容的注释数据是导致这种限制的根本原因,该研究提供了一些解决方案和结果。
- UniMorph 4.0: 通用形态学
这篇论文介绍了近几年在 Universal Morphology 项目中对语言无关的特征模式和注释数据资源的扩展和改进,以及推动对派生形态学的纳入。
- FIJO:法国保险软技能检测数据集
本文提出了一个包含许多软技能注释的保险工作提供的新的公共数据集 FIJO,介绍了其特点和局限性,然后使用命名实体识别方法展示了技能检测算法的结果,最后分析了应用自然语言处理方法时可能出现的困难。
- 使用 BERT 协助进行情感相关问题的语义注释校正
使用 BERT 神经语言模型对对话行为语义标注的辅助注释任务中的标注标签进行微调并使用复述任务检查其效果,以此有效评估和修订复杂的文本用户数据的语义标签。
- 基于启发式的内部训练,提高少样本多角度对话摘要
本文探讨了客户服务代理与客户之间多视角摘要的创建方式,通过探索不同视角的启发式算法,创建了弱标注数据并在少量标注数据 fine-tuning 的情况下,支持生成摘要的模型在性能上接近原始数据的 94%,这一方法可以为摘要的人工创建工作减轻负 - 利用论证语义和自然语言论证图网络的自动辩论评估
本文提出了一种混合方法,通过结合论述框架、语义学、基于 Transformer 的体系结构和神经图网络来自动评估论证性辩论,并获得了有前途的结果,这为自然语言论证的自动分析开辟了新的研究方向。
- ACLLEVEN: 一个大规模的中文法律事件检测数据集
LEVEN 数据集是一个包含 108 种事件类型的大规模中国法律事件检测数据集,它不仅涵盖与收费相关的事件,还涵盖重要但在现有 LED 数据集中被忽略的一般事件,该数据集可显着促进 LED 方法的培训和评估,并可作为提高下游应用程序性能的有 - ACL学习检索上下文学习提示
本文提出了一种有效的方法,利用标注数据和语言模型(LM)检索 in-context learning 的提示,训练稠密的检索器并在三个序列到序列任务中发现它明显优于之前的工作和多个基线。
- EMNLP话语理解:一种问答框架用于表示句子之间的联系
本文提出了一种新的方法来收集关于新闻文件的提问,带有上下文关联且没有标注答案的开放性问题数据集 (DCQA),并结合现有的问答资源进行了预训练,以有效帮助回答这类开放性问题。
- EMNLP同意不同意:在冒犯性词语数据集上注释注解者的不同意见
本文提出了一种用于创建自然语言数据集的方法,通过将标注者的观点选为不同的训练集和测试集,可以提高分类器的性能和鲁棒性,为社交媒体中的恶意语言检测提供更好的数据准备。
- EMNLP不同标注数量下的学习:从零到多标签
该研究论文通过在一小部分训练样例中为每个样例分配多个标签的方法,提出可通过利用不同标注数量的训练样例,设计高效的学习算法,提高自然语言处理的任务表现。
- ACL机器阅读理解的合作自训练
本研究提出了一个基于问答式任务的互动型学习环境下的 RGX 合作自训练框架,它可以自动产生更多的问题 - 答案对,以提高模型性能。实验证明,该框架在标准问答质量评估中表现优于预先训练模型和基于转移学习的方法。
- 利用粗略标注提升语义人像抠图
本文提出了一种使用粗略标注数据和精细标注数据的混合数据来提高端到端语义人物抠图的方法。通过使用一个掩模预测网络来估计粗略的语义掩模,再利用一个掩模优化网络来统一之前粗略掩模的质量。最终使用抠图细化网络和输入图片来预测最终的阿尔法码。该方法在 - AAAI使用 Krippendorff Alpha 评估注释数据的质量,用于计算机视觉应用
本文旨在研究深度学习模型中标注数据的影响因素,以及如何通过监测数据标注质量来提高算法精度和准确性。通过多个数据标注实验,作者发现标注过程、训练数据和评估数据等因素是确保 AI 系统可信度的基本要素。