- 预算内上下文学习:命名实体识别案例研究
在有限的预算内,本研究通过研究不同方法选择样本进行注释,发现少样本内上下文学习(ICL)可以在命名实体识别(NER)任务中实现与使用完整训练集相当的结果,而随机选择样本进行注释可以获得出乎意料的良好性能,并且多样化的注释池与性能的提升相关, - 人工智能辅助机器翻译的人工评估
机器翻译系统的质量评估被提出的错误范围标注协议辅助,使用自动质量估计填充范围注释可以提供更详细的注释并将每个范围注释的时间缩短了一半,此外还可以减少最多 24% 的注释预算。
- 语言模型对齐的注释高效优化
提出了 Annotation-Efficient Preference Optimization (AEPO) 的方法,通过选择能最大化质量和多样性的回应子集并对之进行偏好标注,将有限的标注预算集中用于标注质量高且多样性较好的较小回应子集上 - 通过少样本注释者适应实现成本高效的主观任务注释和建模
通过使用多样的标注员并最大限度降低标注预算,我们提出了一个新的主观任务注释收集和建模框架,通过两阶段设计,使用少量标注员和有策略地标注一些样本,提高了预测性能,并减少了注释预算,同时我们构建了一个包含 2000 个 Reddit 帖子的独特 - DIRECT: 不平衡和标签噪音下的深度主动学习
通过一种新颖的算法 DIRECT,该论文提出了解决机器学习中不平衡问题的有效技术,通过收集更平衡和信息丰富的标记示例来进行注释,相较于现有算法,该算法节省了超过 15% 的注释预算。
- DeMuX:数据高效的多语言学习
优化预训练的多语言模型,在有限的目标数据和注释预算的情况下,使用 DEMUX 框架进行精确的标注点选择,通过距离和不确定性措施选取最具信息量的任务相关邻居,取得优于强基线的效果,特别是在低预算情况下可提高 F1 分数。
- UP-DP: 无监督任务学习用于视觉语言模型的数据预选
本研究通过一次遍历未标记数据集来为有限的标注预算优化性能,从而研究数据预选任务。我们引入了 UP-DP,一种简单而有效的无监督提示学习方法,通过适应 BLIP-2 等视觉语言模型进行数据预选,获得了改进表示的联合特征。在七个基准数据集的不同 - AAAI具备对现实数据池进行对比学习的深度主动学习
本研究提出了一种新的主动学习方法,通过对比学习在特征空间中选择集群的样本,从标记和未标记的数据池中获取信息,以获取优先的显着内部分布样本,并证明该方法相对于现有的主动学习方法需要更少的标注预算才能达到相同的准确性水平。
- CVPR主动微调:在预训练 - 微调模式中利用注释预算
该研究提出了一种新的主动微调任务,在预训练 - 微调范式下注重选择注释样本,通过优化连续空间中的参数模型来选择类似于整个未标记池的数据子集并保持足够的多样性,实验证明了该方法在计算机视觉任务上具有领先的性能和高效率。
- ACL清洗或标注:如何使用有限的数据采集预算
本文提出了一种通过在注释过程中专门清理高概率错误样本的方法,以优化注释过程,并在三种模型变化和四个自然语言处理任务上进行的实验证明,该方法在分配相同的有限注释预算时优于聚合注释和高级去噪方法。
- ECCV基础数据集设计对少样本图像分类的影响
本文系统地研究了训练数据变化对深度图像特征的质量和通用性的影响,并提出了关键实用问题,如在固定注释预算情况下,每类图像数量和类别数量之间的最佳权衡
- CVPR预算感知半监督语义与实例分割
本文研究了半监督分割方法,与之前的方法相比,本文的方法在标注预算方面有了重大突破,在使用低标注预算时,我们的方法在语义与实例分割方面表现优于弱监督方法,并在较小的标注成本下优于以往的半监督方法。同时,我们通过考虑总的标注预算,将弱监督和半监 - AAAI用户意图分类敏感数据的隐私保护主动学习
本文提出一种隐私保护的主动学习方法,通过量化的保证方式在二元分类任务的主动学习环境中展示了隐私、效用和标注预算之间的权衡。
- 部署主动学习的实际障碍
本文研究了主题 “主动学习”,发现尽管在特定模型和特定领域中使用主动学习可能会带来好处,但在不同模型和任务之间泛化当前方法的好处不可靠,并且主动学习的认购数据与指导其获取的模型相结合,与使用独立同分布的(I.I.D)随机样本训练继任模型的方 - Fluid Annotation: 全图注释的人机协作接口
Fluid Annotation 是一种基于人机协作原则的智能图像标注方法,其特征在于利用强大的神经网络模型帮助标注,实现一次性全图标注,并赋予标注人员灵活选择标注对象进行有针对性的标注以节省标注预算。经实验,在 COCO+Stuff 数据