- 零样本主动学习基于自监督学习
提出了一种新的无关模型且无需迭代过程的主动学习方法,利用自监督学习的特征表示来进行数据注释以提高深度学习模型的泛化性能。
- 人工智能工作者的成本和绩效受规范和激励影响的经济学
通过实验研究,本文揭示了人工监督、规范设计和激励机制对数据质量和成本的影响,强调数据质量与效率之间的权衡关系,并为讨论人工智能技术的经济、伦理和法律考虑方面提供了实验性见解。
- 面向主观多任务自然语言处理问题的基于模型的数据获取
通过新的基于模型的方法,我们提出了一种在多任务场景中为每个文本选择逐个注释的任务的方式,从而最大程度地减少注释数量,并且几乎不损失知识,同时还强调了根据注释任务的主观性收集多样化数据以有效训练模型的需求,并通过在单任务和多任务场景中评估模型 - 从远到近,再不失真:使用 ChatGPT 进行文本扩充以实现高效情感分析
在人工智能时代,数据虽然珍贵,但标注成本却很高。本文利用 ChatGPT 在情感分析中进行文本增强,展示了一种突破性的解决方案。我们利用 ChatGPT 的生成能力创造了合成训练数据,显著提高了较小模型的性能,使其能够与甚至胜过更大的对手。 - 数据有效性的重要性
研究数据注释的工作,特别关注计数或量化在组织注释工作中的作用。基于对印度两个外包中心的数据注释的民族志研究,观察到计数实践及其关联逻辑是日常注释活动的一个重要组成部分。提出计数制度的镜头,明确支持注释广泛的计数所依赖的特定计数、实践、参与者 - EMNLP通过混合细粒度加权训练进行语法错误修正
本研究提出了 MainGEC 方法,通过利用数据标注的准确性和潜在注释的多样性的内在差异设计了基于令牌级和句子级训练权重,并进行了混合粒度加权训练以改善 GEC 的训练效果。经验证实,MainGEC 在两个基准数据集上以 Seq2Seq 或 - 零样本眼部特征分割的 Segment Anything Model (SAM)
Segment Anything Model (SAM) 是第一个用于图像分割的基础模型,本研究评估了 SAM 在虚拟现实环境下记录的眼部图像中分割特征的能力。结果表明,SAM 的分割效果可以与专门模型相媲美,且使用提示工具可以提高其性能, - EMNLP不浪费任何一个注释:通过软标签改进单标签分类器
本文主要研究了数据注释和训练方法在客观单标签分类任务中的局限性,并提出了使用软标签的方法来改善性能。
- 搜索相关性数据标注任务的通用化错误建模
本研究提出了一个预测性错误模型,用于检测三个规模广泛的机器学习应用(音乐流媒体、视频流媒体和移动应用)的搜索相关性标注任务中的潜在错误,并评估其提高数据标注过程的质量和效率的潜力。研究结果表明,自动错误检测模型可以在数据注释过程的效率和质量 - 基于椭圆边界框的细胞跟踪方法
该研究论文提出了一种新的基于经典检测跟踪模式的细胞检测和跟踪方法,通过将细胞形状近似为有方向的椭圆并利用通用有方向对象检测器在每一帧中识别出细胞,再结合全局数据关联算法进行跟踪,结果表明该方法在细胞检测和跟踪方面与需要更多数据标注的最先进技 - 自我监督的 TransUNet 用于儿童尺骨远端超声区域分割
使用无标签领域特定数据进行自监督学习的方法在医学图像上产生了令人注目的效果,该论文研究了在儿童腕部超声扫描中使用 TransUNet 的口罩自编码器自监督学习 (SSL-MAE) 方法,用于分割骨骼区域,并发现改变嵌入和损失函数能够产生比原 - EdgeAL:基于边缘估计的光学相干断层扫描的主动学习方法
利用未见数据的边缘信息作为先验信息进行不确定度测量,提出了 EdgeAL 主动学习算法,并在多类别光学相干断层扫描(OCT)分割任务中取得了 99% 的 Dice 分数,同时将注释标签成本分别降低了 12%、2.3% 和 3%(在三个公开数 - 人类活动识别中自动数据注释技术的全面评估
本文系统性地综述了数据注释技术在 Human Activity Recognition (HAR) 领域中的应用,通过分类和分类法对现有方法进行整理,旨在为应用场景中的技术决策提供支持。
- 人类协同标注的最优高效二元问题筛选
本文研究了在给定预测器的情况下获得注释数据的问题,提出一种基于启发式和代理成本函数最小化的解决方案,并在几个合成和现实世界的数据集上评估其效果。该方法可以显著提高标注效率。
- IAdet:最简单的人机交互式目标检测
该研究提出了一种名为智能标注(IA)的训练模型的策略,该策略包括三个模块:辅助数据标注,背景模型训练和下一个数据点的主动选择,并且利用 IAdet 工具开源了单类别物体检测,以及提出了一种评估人机交互系统的评估方法,在 PASCAL VOC - 基于 GPT 自监督的数据标注器优化
本文提出了一种以 GPT 为基础的自监督注释方法,运用一次学习和生成恢复的范例,达到了不错的注释效果
- ICLR单正多标记学习的伪标签
该研究介绍了一种称为伪多标签的方法,通过教师模型在单个正标签上训练,然后使用其预测作为标记数据来训练学生模型,以解决多标签图像分类中数据注释成本高的问题。研究表明,在实际的全标签数据上训练得到的模型性能可以近似于该方法训练得到的模型。
- Zero is Not Hero Yet: LLMs 金融任务零样本性能基准测试
本研究探究零样本学习在金融领域中的应用,使用 ChatGPT 等大型语言模型与 RoBERTa 在有标签数据和无标签数据的情况下进行比较,并针对数据标注、模型表现差距和生成模型在金融领域中的使用可行性等三个问题进行了研究。结果表明,即使在没 - 通过潜空间中的直接操作进行交互式数据注释的深度生成模型
本文探讨了在机器学习领域,数据注释的重要性以及利用神经网络的潜在空间和图形用户界面的坐标之间的类比来进行数据注释的新方法,并对网络模型进行了调整以获得更紧凑的图形表示和讨论了模型超参数对抽取图形表示的影响。
- 领域扩充的 ASTE:重新思考情感三元组抽取中的泛化
这篇文章提出了一种针对领域扩展的 Aspect Sentiment Triplet Extraction(ASTE)基准,并对现有方法进行了分析,结果表明生成模型在领域泛化方面具有强大的潜力。