- BERT 化锡兰语:锡兰文本分类预训练语言模型的全面分析
该研究是第一篇全面分析面向 Sinhala 文本分类的预训练语言模型性能的文章。我们在一组不同的 Sinhala 文本分类任务上进行测试,发现包含 Sinhala 的预训练多语言模型(XLM-R,LaBSE 和 LASER)中,XLM-R - 梯度引导采样的脑 MR 图像暗示性标注
提出有效的脑 MR 图像注释框架,通过少量提示性注释样本训练可达到与完整数据集训练相媲美的性能,从而节省手动注释成本并提高医学图像处理中的数据效率。
- 评分人身份对毒性注释的影响:您的毒性是否也是我的毒性?
本文探讨了标注者自我描述身份对在线评论毒性注释的影响,并提出了自我描述身份形成特定标注者池的概念。我们发现,使用与评论主题相同自我描述身份的标注者会为标注提供更具包容性和细微差别的结果,从而训练出更准确的机器学习模型。
- MACRONYM:多语言和多领域首字母缩写词提取的大规模数据集
该研究论文主要研究了缩写词的提取及其在自然语言处理应用中的重要性,进一步提出了一种用于多语言和多领域缩写提取的新数据集,并通过实验证明不同语言和不同学习设置下的缩写提取存在独特的挑战和必要的进一步研究。
- 目标检测中的嘈杂标注精炼
本研究提出了一种新的方法来在包含类标注和边界框注释的噪声数据集上训练目标检测器,能高效地分离这些噪音并进行纠正,使训练得到的检测器能够显著优于基准检测器。
- Masader: 面向阿拉伯文本和语音数据资源的元数据采集
该论文描述了最近几年自然语言处理管道的进展,重点介绍了由 200 个数据集构成的阿拉伯语 NLP 数据集最大的公共目录 Masader,以及为其他语言开发的元数据注释策略。
- EMNLPStreamHover: 直播文本摘要和标注
本论文提出 StreamHover 框架来注释和概括直播转录文本。我们探讨了一种基于神经网络的摘要提取模型,利用向量量化变分自编码器学习口语表达的潜在向量表示,并从转录文本中识别出显著的语句形成摘要。 本研究的结果为提高直播摘要方案的效率浏 - ACL一份法语法规条文检索数据集
介绍了比利时法规文章检索数据集(BSARD),同时在该数据集上评测了几种最先进的检索算法,发现精调密集检索模型显著优于其他系统,最终在该数据集任务中取得了 74.8% R@100 的良好成绩。
- GermanQuAD 和 GermanDPR: 提高非英语问答和文章检索的能力
本文介绍了一个非英语机器阅读问答研究的主要挑战:缺乏注释数据集。我们随后提出一个德语 QA 数据集(GermanQuAD),总结经验教训,并评估 QA 问答对重组的效果,以加速注释过程。通过 GermanQuAD 数据训练,提出的 QA 模 - ACL主题摘要中的细粒度事实注释及建模
研究表明,目前预训练的抽象摘要系统在性能上已经取得了可信的表现,但其输出的摘要常常与输入不符合并存在事实错误。作者探讨了综合和人工标注数据,用于训练模型来识别摘要中的事实错误,并研究了单词、依赖和句子级别的事实性。通过对多个数据集的实验观察 - COLINGIndoLEM 和 IndoBERT: 印尼 NLP 的基准数据集和预训练语言模型
发布了包括七个任务的 IndoLEM 数据集,以及新的预训练语言模型 IndoBERT 用于印度尼西亚语言,并在 IndoLEM 上进行了评估和与现有资源进行了基准测试。实验结果表明,IndoBERT 在 IndoLEM 的大部分任务上实现 - CVPR面向城市尺度三维点云的语义分割:数据集、基准和挑战
本文介绍了一个由三个英国城市中 7.6 平方公里的城市景观组成的大规模城市照相测量点云数据集,其中每个 3D 点都被标记为 13 个语义类别之一,并通过基于现有算法的综合分析来识别了几个关键问题。
- 叫我性别歧视者,但是...": 使用心理学量表和对抗样本重新审视性别歧视检测
本文提出用基于心理学测量中的不同维度将性别歧视划分的代码书以及该代码书在社交媒体上标注现有和新的数据集的应用程序,以生成对抗性示例并测试当前机器学习模型在性别歧视检测方面的可靠性。虽然现有模型只能识别有限的语言标记,但包括多元化数据和对抗性 - 拍摄标签:虚拟现实下的 3D 语义标注
利用虚拟现实技术开发的 Shooting Labels 标注工具,可以快速标注大规模环境的 3D 语义分割数据,同时可以集成多用户标注并计算标签的不确定性,还能将 3D 标注投影到 2D 图像中,提高像素级语义标注的准确性和效率。
- EMNLP承诺具体性预测的深层次序数回归
该论文提出了深度序数回归方法以预测政治宣言的具体程度,通过对澳大利亚联邦选举中的十一个选举周期的宣言进行细粒度的注释,构建了一个新的数据集,探讨了特定性建模在意识形态预测上的应用效果。
- 深度学习解决医学图像分割中的不完整数据:综述
这篇文章主要介绍了在医学图像分割领域中,利用卷积神经网络进行高性能分割所需要的大量高质量标注数据的问题,并且探讨了如何解决数据集缺陷,包括有限的标注和不完美的标注问题。
- 利用合成人类进行训练学习
本研究探索了使用全合成或合成增强真实数据的两种方法来解决多人二维姿势估计的问题,并研究了哪种方法更好地推广到真实数据,以及虚拟人物在训练损失中的影响。通过使用增强数据集,且不考虑训练损失中的合成数据,可以得到最佳结果。该研究还使用对抗性师生 - 面向任务导向对话的通用对话行为标注
本文提出了一种适用于任务导向对话系统的通用 DA 模式,并使用人类 - 人类对话语料库进行标记和建模,通过半监督学习技术,以提高标记效率和标记质量。
- ConvLab:多领域端到端对话系统平台
ConvLab 是一个开源的多领域端到端对话系统平台,它使研究人员能够快速设置实验,并比较许多不同的方法,从传统的管道系统到端到端的神经模型,在共同环境中。ConvLab 提供了一组完全注释的数据集和相关的预训练参考模型。我们扩展了 Mul - 用于命名实体识别和立场检测的推特数据集标注
本篇论文介绍了一份土耳其推文数据集,对其中的命名实体和立场信息进行了注释,并公开了其中的内容。它将有助于发现推文中命名实体识别和立场检测之间的可能关系。