- 透视者的范式转变:对捕捉人工标签的假设和挑战
对于机器学习中的数据标注,多年来一直采用从多个标注者那里收集和汇总标签的方法。然而,当标注者不一致时,我们应该怎么办呢?尽管长期以来,标注者的不一致被视为需要最小化的问题,但新的观点主义方法质疑这一假设,将不一致视为宝贵的信息源。本文中,我 - 用于在线部署适用的真实推断算法验证数据集
通过收集真实世界众包平台上的大量数据样本,本文分析了数据集的特征并评估了几种代表性真实标签推断算法的有效性,为跟踪不同类型任务下工作者的能力随时间变化以及增强在线真实标签推断提供了启示。
- 从噪声数据中为深度学习优先选择信息丰富的特征和示例
我们提出了一个系统性框架,通过优化有信息的特征和示例来增强开发过程的每个阶段,以解决真实世界应用中的嘈杂特征和示例。
- 从异常检测到自动日志标记和开创性根本原因分析的进展
该研究引入了一个日志异常的分类法,并探索了自动数据标记来减轻标记挑战,同时研究了多种异常检测技术及其与特定异常类型的相互对齐关系。这篇论文丰富了我们对异常检测和自动标注的理解,为变革性的根本原因分析奠定了基础,从而使 IT 系统更具弹性,提 - 深度学习模型高效标注太阳辐射演变视频
机器学习(ML)作为处理大规模复杂数据的关键工具,标注(labeling)是监督式 ML 的重要步骤。本文使用卷积神经网络(CNNs)对天体视频进行训练,以改善数据标注质量并减少人工干预。研究发现通过这种迭代过程获得的高质量标注数据集可以减 - 克服自信心以实现主动学习
该研究提出了两种新颖的方法来解决主动学习场景中出现的过度自信问题,一种是名为 Cross-Mix-and-Mix(CMaM)的数据扩增策略,旨在通过扩展有限的训练分布来校准模型;另一种是名为 Ranked Margin Sampling(R - 自监督学习提升合成孔径声纳目标识别
这项研究探讨了自监督学习(SSL)在合成孔径声纳(SAS)图像识别改进中的应用,结果表明,尽管两个 SSL 模型在少样本情况下可以优于完全监督模型,但在使用全部标签时不能超过其性能,这有助于减少数据标记的时间和成本,同时提供了远程感知中使用 - 自动预测平滑能够提高少样本分类效果
通过修改预测结果而非自身, Embroid 方法通过计算不同嵌入函数下数据集的多个表示,并利用相邻样本的语言模型预测结果的一致性来识别预测错误,从而改进基于提示的学习,展现出在各种任务中显著提高性能的潜力。
- 手术图像识别的模块化神经网络方法
深度学习应用在最近几年取得了很多成功,尤其是在计算机视觉领域,卷积神经网络取得了可靠的结果。而自我训练和模块化学习是解决数据访问、标注和问题复杂性的有效方法,能提高分类性能和数据标注分割的准确性。
- ACL自然语言理解中样本量确定的重新审视
通过使用少量的训练样本来预测最大的可实现模型性能,以预测数据的质量和样本大小。
- KDD神经符号学习快速图像标注
本文提出了一种名为 Rapid 的神经符号方法,该方法通过少量标注数据和自动标注技术来推断图像标注规则
- 标注员人口统计学何时重要?通过 POPQUORN 数据集衡量标注员人口统计学影响
通过 POPQUORN 数据集的分析,本文发现标注者的背景对于数据标注有显著影响,而标注者的教育水平等背景因素在 NLP 中的应用更应予以重视,因此在数据标注中考虑标注者的背景并从具有人口学平衡的众包工人中收集标签信息是减轻数据集偏差的重要 - ACLAlfred: 一种面向提示的弱监督系统
Alfred 是第一个通过自然语言提示创建机器学习训练数据的程序弱监督(PWS)系统,提供简单的 Python 接口和高吞吐量后端以进行大规模数据标注,通过优化的批处理机制,优化执行提示,使用 YouTube 评论垃圾邮件检测和宠物品种分类 - 隐私保护文本重写的敏感数据众包
本文介绍了一种通过采用差分隐私技术以及移除个人身份信息的方法,来保护文本数据中的隐私信息,在保护隐私的同时,保证通过群体外包得到的数据质量
- ICML组合覆盖下的主动学习
本文提出一种利用组合覆盖来解决机器学习中主动学习的数据样本选择方法,相较于现有模型导向性的方法,新方法具有更好适用性,能够有效降低模型转移和采样偏差问题。
- AI 中超越偏见和从众行为:走向个体代理和多元伦理
文章提出一种新方法,强调数据标注在维护机器伦理方面的重要作用,并探讨了伦理基础、系统架构以及伦理定义的问题;同时,该文章还指出,建立伦理人工智能是为了在公司和用户之间建立信任基础。
- 标签预算约束下的深度异常检测
本文提出了一种基于理论条件的数据标记策略,并提出了一种新的半监督学习框架,可在数据标记预算约束下实现最优数据覆盖,并优于其他方法在标记预算约束条件下实现最佳半监督异常检测性能。
- 半监督学习在软件分析中强启发式算法的价值:少而强
该研究论文表明,在软件分析中,与标准半监督学习算法相比,使用基于 SE 知识的强半监督算法表现更好,可以使数据标注量减少到仅为 2.5%。
- TruEyes:利用移动应用中的微任务进行众包标注机器学习数据集
TruEyes 是一种协作众包系统,通过将微任务分配给移动应用程序用户来解决大批量任务导致工人疲劳从而影响标注质量的问题,评估结果表明所标注的数据质量与传统的众包方法相当,并且大多数用户更喜欢任务广告而不是传统广告。
- 深度主动学习的比较调查
研究 DAL 的不同方法,提出 DeepAL+ 工具包,并通过分类实验评估 DAL 方法的性能效果,提供更好的数据标注方法以提高模型性能。