- ChatGPT 是否能够复现人类生成的标签?社交计算任务的研究
该研究探讨了 ChatGPT 等大型语言模型是否有潜力在社交计算任务中复制人类生成的标签注释,并使用 ChatGPT 重新标注了五个具有里程碑意义的数据集,证明了它在数据注释方面具有潜力,但仍存在挑战。
- 一种无尺度轨迹简化方法以在视频中高效采集数据
本文介绍了一种半自动数据标注的方法,通过简化跟踪系统中的物体轨迹来减少手动校正的帧数,从而更高效地生成带标签的训练数据集。在 MOT 数据集上,它将需要手动校正的帧数减少了 30 倍,同时保持 89.61% 的 HOTA 得分;在 Socc - AnnoLLM: 使大型语言模型成为更好的众包注释工具
本文提出了一种基于大型语言模型的数据注释方法,通过提示示例和解释的方式,实现了无监督的数据注释,实验结果表明该方法优于众包注释方法。
- ChatGPT 优于人工工人在文本注释任务中的表现
本研究使用 2382 个推文的样本表明,ChatGPT 在多个数据标注任务方面表现优于众包工人,特别是零 - shot 准确率,且其内部编码者间一致性超过了众包工人和训练有素的注释员,而其标注成本比 MTurk 便宜二十倍左右,这些结果表明 - ACL基于阅读理解的跨语言知识库问答
该研究对多语言信息处理领域中的跨语言问答问题进行了研究:提出了一种基于阅读理解范式的知识库子图到问题的转换方法,利用汽车预训练语言模型和跨语言阅读理解技术进行跨语言阅读理解,基于现有的高质量跨语言阅读理解数据集进一步优化模型,为跨语言问答领 - GPT-3 是一个好的数据标注器吗?
本研究旨在评估 GPT-3 作为数据标注器的性能,比较其与传统数据标注方法的差异以及分析其在一系列任务上的输出。通过这种分析,研究人员旨在提供关于 GPT-3 作为 NLP 通用型数据标注器的潜力的见解。
- ECCV多视角匹配的高效表征学习
本研究提出了一种将自监督学习和多视角匹配技术相结合的方法,在没有额外标签的情况下,利用来自嵌入式相机的机器人吸尘器捕获的数据学习更高质量的表示,并证明了其在物体分类性能上的有效性。
- ACL基于用户反馈的摘录式问答中的赌博学习模拟
研究从用户反馈中学习抽取式问答,通过模拟反馈使用监督数据,并将问题视为情境臂学习。分析减少数据标注的几个学习场景的特征。显示最初训练的系统可通过用户反馈大幅度改进,并且可以使用现有数据集在新领域部署系统,而无需任何标注。
- 预训练句子嵌入的相互强化框架
本研究基于自监督对比学习方法,提出了一种名为 InfoCSE 的新型框架,用于解决手工数据注释不可靠的问题,通过迭代的自我监督和数据标注反馈,实现了句子表示模型和数据注释方法的相互协作,有效提高了自监督学习的效果。实验证明,该方法在三个基准 - ACL主观 NLP 任务的两种对比数据注释范式
本研究提出使用描述性和规范性两种策略来标注数据,探讨了两种策略的优劣,并且借助仇恨言论数据的标注实验来说明两种策略的不同。
- ICCVEdgeFlow:借助边缘流实现实用的交互式分割
本研究提出了一种名为 EdgeFlow 的图像交互分割方法,该方法采用边缘引导流利用用户点击的交互信息,以实现高质量分割。通过在基准测试上进行全面实验,证明了该方法在速度和准确性方面优于现有方法,并开发了一个有效的交互式分割工具用于实际数据 - EMNLP有预训练还是有标注数据?在有限预算条件下进行领域自适应
本文主要研究了如何在有限预算的情况下,通过选取最佳的数据标注和预训练策略,优化 NLP 领域的域适应问题,研究表明,小预算情况下,全部资金用于数据标注可以获得最好的性能表现,但预算足够大时,则在数据标注和领域内预训练之间进行平衡会更好。
- MM资源有限条件下的活动标签清洗,以提高数据集质量
本文提出一种基于数据驱动的主动标签清理方法来解决数据注释中的标签噪音问题,通过对样本进行优先级排序,提高数据集质量,具有较好的可行性和高效性。
- EMNLP想要降低标注成本?GPT-3 可以帮忙
本文研究了利用 GPT-3 作为低成本数据标注器来训练其他模型的方法,发现使用 GPT-3 相比使用人工标签可节省 50% 到 96% 的成本,并提出了一种将 GPT-3 的伪标签与人类标签相结合的框架,可实现更好的表现。
- 半监督域通用人物再识别
本研究旨在探索利用多个标记数据集来学习通用的域不变表示,以适用于每个新的人重新识别场景。通过开发 DataHunter 来搜集 YouTube-Human 和其他标注数据集,本文提出了一个简单但有效的半监督知识蒸馏框架,并在 FastHum - 基于地理知识的遥感图像表征学习
该研究提出了一种基于地理知识驱动的遥感图像表示学习方法,该方法提高了网络性能,减少了对注释数据的需求,证明了该方法可以作为神经网络预训练的一种新典范。
- MMLearningCity: 智慧城市的知识生成
通过利用自动和众包方式支持的异常检测和数据注释,在智慧城市部署和实验 - as-a-service 生态系统中验证 LearningCity 解决方案,以结合大规模智慧城市数据和机器学习,为智慧城市的消费者提供简化数据利用的方法
- 智慧城市和社区中的人工智能视角,以实现道路车辆自动化和智能交通控制
本文介绍了人工智能在智慧城市和社区 (SCC) 中的应用,并概述了用于交通控制的基于人工智能的技术,包括感知、智能交通控制和驾驶员建模。此外,文中还提到了数据注释的挑战和解释性的问题。
- ACL基于语言封装和语义融合的在线内容广义索赔检测
LESA framework proposes a generalized model for argument mining using syntactic and contextual features to segregate cla - EMNLP使用挑战数据揭示关系抽取模型的浅层启发式
通过研究数据采集和注释过程中的分布偏差,我们提出了一种称为 Challenging RE (CRE) 的挑战性数据集,分析了四个最先进的关系抽取 (RE) 模型的失败模式,挖掘了它们浅层启发式算法的局限性,并发现替代的问答建模表现显著更好,