元数据考古：利用训练动态开掘数据子集

Sep, 2022

元数据考古：利用训练动态开掘数据子集

Metadata Archaeology: Unearthing Data Subsets by Leveraging Training Dynamics

Shoaib Ahmed Siddiqui, Nitarshan Rajkumar, Tegan Maharaj, David Krueger, Sara Hooker

TL;DR提供了一种高效的元数据考古框架，通过使用简单的转换和利用学习动态的差异来揭示和推断数据集中示例的元数据。

Abstract

Modern machine learning research relies on relatively few carefully curated datasets. Even in these datasets, and typically in `untidy' or

machine learning datasets data quality metadata learning dynamics

发现论文，激发创造

Meta-Dataset: 从少量示例中学习的数据集

提出了一个名为 Meta-Dataset 的大规模基准数据集，用于训练和评估模型在少样本分类问题上的性能，并探讨模型对不同训练来源的泛化能力和元学习的好处。

Mar, 2019

少样本学习：计算机视觉统一数据子集选择与主动学习框架

本文介绍一种使用多样性模型的训练数据子集选择方法，该方法可提高计算机视觉任务的准确性并减少标注成本。

Jan, 2019

METAM: 以目标为导向的数据发现

本文介绍了一种名为 METAM 的目标导向框架，该框架可自动引导发现与扩充数据，并通过从下游任务中查询候选数据集来选择最佳候选方法，理论保证，并在广泛的任务集合上进行了实证证明，证明了目标导向数据发现对现代数据科学应用的潜力。

Apr, 2023

ML 基础关键短语提取与验证的科学文本自动标注

本文提出了两种新颖的自动文本标注方法用于验证机器学习生成的未标记文本的元数据，特别适用于环境基因组学领域。我们的技术展示了利用未标记文本和科学领域的现有信息的两种新方法的潜力。结果表明，所提出的标签分配方法可以为未标记文本生成通用和高度特定的文本标签，其中有多达 44% 的标签与机器学习关键词提取算法建议的标签匹配。

Nov, 2023

Curator：使用自监督学习创建大规模策展标注数据集

本研究提出了一个名为 Curator 的自动化数据集筛选工具，利用自我监督、可扩缩的最近邻检索和主动学习等技术以及机器学习算法自主对未标记数据进行搜索，可大大缩短筛选数据集的时间。研究展示了 Curator 在卫星图像野火分类方面的应用，这也说明了 Curator 不仅适用于地球科学领域，且可以轻松应用于其他领域的问题解决。

Dec, 2022

未经筛选的图像 - 文本数据集：揭示人口特征偏见

我们研究了在视觉和语言模型训练中使用大型未筛选数据集的不公平表现，以及如何应对这个问题，研究发现社会偏见在图像生成、图像描述和图像文本嵌入等视觉语言任务中都是一个持续而普遍的问题。

Apr, 2023

整合公共人类活动识别数据集以缓解标记数据稀缺问题

本研究提出了一种结合公共数据集的新策略，用于学习通用的人类活动识别模型，并表明结合公共数据集可以显著减少在未知目标领域上实现令人满意的性能所需的标记样本的数量。

Jun, 2023

语言引导的未知数据集偏差检测与减轻

在这项研究中，我们提出了一种在没有先验知识的情况下通过关键词的部分出现来识别潜在偏见的框架，并进一步提出了两种去偏方法：(a) 通过指定伪标签将其传递给现有的需要先验知识的去偏方法，以及 (b) 通过文本到图像生成模型进行数据增强，使用获得的偏见关键词作为提示。实验结果表明，尽管简单，我们的框架不仅能在没有先验知识的情况下胜过现有方法，而且甚至可以与假设有先验知识的方法媲美。

Jun, 2024

推进深度主动学习和数据子集选择：用信息理论直觉统一原则

通过改进深度学习模型的标签和训练效率，此研究旨在增强深度学习的实用性。具体地，研究基于信息论原理的数据子集选择技术，包括主动学习和主动采样，其中主动学习提高了标签效率，而主动采样增强了训练效率，并系统研究了这些技术在深度学习中的应用。

Jan, 2024

基于动态数据过滤的训练可能不适用于自然语言处理数据集

探讨了使用 Area Under the Margin（AUM）度量方法来识别和去除 / 修正自然语言处理数据集中错误标记的样本，表明该方法可以滤除 NLP 数据集中的错误标记，但也会去除大量正确标记点并导致大量相关语言信息的丧失。模型依靠分布信息而非依赖句法和语义表示。

Sep, 2021