- 指南引路:一种以指南为中心的数据标注方法学
介绍了一种注释过程 —— 指导中心注释过程,该方法重点报告与每个数据样本相关的注释指南。通过减少注释过程中信息的损失并确保符合指南,克服了标准规定性注释过程的三个主要限制。此外,还讨论了指导中心注释过程如何通过单次人工注释过程实现对多个任务 - 利用 LLMs 协助在双相障碍和精神分裂症中进行临床丰富数据的标注和收集
利用当代语言模型在序列到序列任务中的应用来增强心理健康研究,通过小型模型,可以准确高效地进行领域特定临床变量的数据标注和心理健康仪器的数据收集,并表现出比商业大型模型更好的性能。
- 探索大型语言模型中的注释者偏见对仇恨言论检测的影响
通过分析 GPT 3.5 和 GPT 4o 在标注仇恨言论数据时存在的偏见,本研究对性别、种族、宗教和残疾等四个主要类别中高度脆弱的群体进行了偏见分析,并通过对标注数据的仔细审查,全面研究了可能导致这些偏见的潜在因素。该研究为指导研究人员和 - 皮肤病变分类的联邦主动学习框架
我们提出了一个联邦主动学习(FedAL)框架,通过在医学图像分析中周期性和交互式地执行主动学习,从而减少标注数据量、保护患者隐私,并保持联邦学习的性能。在真实的皮肤镜数据集上验证了我们的框架,在只使用 50%的样本的情况下,在皮肤病变分类任 - CVPR基础模型的参数高效主动学习
通过在活动学习(AL)框架内应用参数高效微调方法对极限预算限制的分类任务中的采样选择过程进行研究,本研究展示了基础视觉转换模型在图像数据集上表现出色的少样本性能,并突出显示了将参数高效微调方法与基础模型相结合的战略优势,从而改进了这些具有挑 - COLING基于提示的少样本问答合成数据生成
使用大型语言模型在少样本学习 Set 中提高问题回答的性能。
- COLINGLLMs 作为标注者的有效性:直接表征的比较概述和实证分析
通过比较概述了 12 个研究探索了大型语言模型在数据标注方面的潜力,同时揭示了存在的限制,如表征性、偏见、对提示变化的敏感性和对英语的偏好。利用这些研究的见解,我们的实证分析在四个主观数据集上进一步检查了人类和生成的 GPT 意见分布之间的 - 多项选择数据集能否用于抽取式问答?
我们重新利用 Belebele 数据集,将其用于机器阅读理解中的抽取式问答任务,从而解决资源匮乏语言中的数据标注问题,并为英语和现代标准阿拉伯语(MSA)提供了平行的抽取式问答数据集,并在多种单语和跨语言的问答对中进行了评估和分析。
- 多新闻 +: 基于 LLM 的数据注释的成本效益的数据清洗
利用大型语言模型的数据清洗策略,通过模拟人工注释和分类不相关文档,我们改进了 Multi-News 数据集,提高了数据集质量,而无需依赖昂贵的人工注释工作。
- 循环中的 LLM:利用大型语言模型注释在低资源语言中进行主动学习
通过在主动学习环路中利用 LLM 的潜力进行数据标注,我们的提议在极低的数据需求下显著提高了性能,为低资源环境中的自动化带来了巨大的潜在成本节约。这种方法能够弥合低资源语言和人工智能之间的鸿沟,促进更广泛的包容,并有潜力在不同的语言环境中实 - 解决多传感器数据标注挑战:斯堪尼亚车辆收集数据集的解决方案
通过使用移动地平线估计 (MHE) 方法,本文提出了在自动驾驶车辆数据标注中解决高动态物体匹配问题的方案。该方案通过对标注对象运动轨迹进行跟踪,并估计其速度,从而纠正标注框的位置并添加原始标注遗漏的物体群簇。
- COLING大型语言模型作为金融数据注释工具的效果与效率研究
研究通过比较三种大型语言模型与专家标注者和众包工人标注的金融文档,发现大型语言模型可作为提取金融文档中关系的高效数据标注工具,并引入了一个可靠性指标用于识别需要专家关注的输出,提供了在特定领域设置中自动化注释的收集和使用的建议。
- 超越专业化:评估 MLLM 在年龄和性别估计中的能力
通过比较多模态大型语言模型在年龄和性别估计专项任务中的能力,并尝试对 ShareGPT4V 模型进行微调,该研究提供了有关这些模型的优势和劣势的有趣结果和见解,并更新了 MiVOLO 模型的细节和新指标。
- OAG-Bench: 学术图挖掘的人工策划基准
本文介绍了基于开放学术图的全面、多方面和细粒度的人工筛选基准 OAG-Bench,涵盖了 10 个任务、20 个数据集、70 + 基线和 120 + 实验结果,并提供了新的数据注释策略、数据预处理代码、算法实现和标准化评估协议,以促进学术图 - NuNER:通过 LNN 标注数据进行实体识别编码器预训练
利用大型语言模型,本研究表明如何创建 NuNER,这是一种专注于命名实体识别(NER)任务的紧凑语言表示模型,可以进行低数据需求的微调,该模型在 few-shot 情景下胜过了类似大小的基础模型,并与更大的语言模型竞争。研究发现预训练数据集 - 数据标注的大型语言模型调查
数据标注是提高机器学习模型效果的标记或标签化原始数据的过程,使用大型语言模型(LLMs)可以革新和自动化数据标注过程。本研究着重于 LLM 在数据标注中的特定用途,探讨了 LLM 基于数据标注、评估 LLM 生成的标注以及使用 LLM 生成 - 纪律与标签:关于数据标注的 WEIRD 系谱与社会理论
数据标注是机器学习和人工智能的必要条件。最近的实证工作开始强调评分者的多样性对公平性和模型性能的重要性,并开始研究数据标注工作者的工作条件、标注人主观性对标签的影响以及标注工作的潜在心理危害。本文概述了数据标注的关键历史,并结合对上世纪 7 - ACLGPT 是用于序列生成任务的多语言注释器
通过利用大语言模型,该研究提出了一种自主注释方法,不仅高效而且适用于资源有限的语言,同时构建了一个图片字幕数据集并公开了源代码供进一步研究和可复现性。
- 自动姿势标注模型的同时手势分类和定位
我们提出了一种能够自动注释手势类别并识别其时间范围的新型注释模型,通过实验验证,该模型在手势分类准确性(3-4% 的改进)和定位准确性(71-75% 的改进)方面超过了基准模型,我们相信这种注释模型对于使用非标注数据集训练下游手势识别模型有 - MST:自适应多尺度令牌引导的交互式分割
通过多尺度令牌调整算法改善了交互式分割的准确度,以应对大目标和小目标间的准确度平衡挑战,并引入了对比损失以提高令牌的正确性和鲁棒性。与现有方法相比,该算法在绩效上达到了最新水平。发布了交互式演示和所有可复制的代码。