LIDA 是第一个可以从原始文本开始处理的对话注释系统,可支持任意机器学习模型并具有专用界面解决标注者间的不一致,是一款能提高交谈数据注释速度和质量的注释工具。
Nov, 2019
介绍了一种轻量级的注释工具 ——Data AnnotatoR Tool (DART),用于标记分层结构数据。通过使用后端序列到序列模型,该系统可以迭代地分析注释标签以更好地对未标记数据进行采样。在模拟实验中,DART 显示了其在标记大量结构化数据、减少注释总数以及自动建议相关标签等方面的优越性能。
Oct, 2020
该篇论文介绍了一个基于 LightTag 的文本标注工具,其设计和构建基于优化全局 NLP 流程的生产力而非个体标注员的生产效率,并讨论了数据建模和用户界面等方面的决策如何为整个 NLP 生命周期服务。
Sep, 2021
EEVEE 是一种专注于简便性、效率和易用性的标注工具,可以直接在浏览器中运行,并使用制表符分隔的文件进行标注,支持多任务标注和四种任务类型。
Feb, 2024
本文介绍了一种基于终端的轻量级标注工具,支持不同尺度和类型的标注,具有易于定制的键绑定和 Unicode 支持,通过用户研究与其他工具相比使用安装均更为便捷,并已成功地应用于两个语料库的标注,填补了存在的需求空缺。
Jul, 2019
提供一款可定制的注释系统 ——EASE,使用多任务主动学习、基于人口统计特征的主动学习和查询大型语言模型的提示系统作为多个后端选项,可以满足自然语言处理研究人员的多样化需求,并显著加速注释过程。
May, 2023
本研究介绍了一种名为 SciAnnotate 的科学注释工具,可用于标注 NER 任务中的弱标签,并且提供了多个用户友好接口进行弱标签创建。我们使用多源弱标签去噪作为例,并使用 Bertifying 条件隐马尔可夫模型对弱标签进行去噪,评估结果表明使用 SciAnnotate 的弱标签去噪方法可在减少标注时间的同时提高模型召回率。
Aug, 2022
本文分析了在 42 种语言和三个任务(问答,命名实体识别,事件抽取)上,将标注数据转换为多种语言的效果以及不同的标签投影方法,发现名为 EasyProject 的 mark-then-translate 方法在保留标签跨度边界后具有比基于单词对齐的方法更好的性能。
Nov, 2022
提出了一种名为 EnTDA 的数据增强方法,通过添加、删除、替换和交换实体来打破实体间的依赖关系,并采用多样性 beam search 策略增加数据的多样性,以提高在 13 个 NER 数据集上的表现。
Oct, 2022
本文介绍了一种名为 TagRuler 的新型工具,它可以用于没有编程知识的用户进行数据注释,并通过实验证明,使用该工具可以更高效派生出适用于处理不同 NLP span-level 注释任务的标签模型。
Jun, 2021