提出了一个名为 Meta-Dataset 的大规模基准数据集,用于训练和评估模型在少样本分类问题上的性能,并探讨模型对不同训练来源的泛化能力和元学习的好处。
Mar, 2019
本文介绍一种使用多样性模型的训练数据子集选择方法,该方法可提高计算机视觉任务的准确性并减少标注成本。
Jan, 2019
本文介绍了一种名为 METAM 的目标导向框架,该框架可自动引导发现与扩充数据,并通过从下游任务中查询候选数据集来选择最佳候选方法,理论保证,并在广泛的任务集合上进行了实证证明,证明了目标导向数据发现对现代数据科学应用的潜力。
Apr, 2023
本文提出了两种新颖的自动文本标注方法用于验证机器学习生成的未标记文本的元数据,特别适用于环境基因组学领域。我们的技术展示了利用未标记文本和科学领域的现有信息的两种新方法的潜力。结果表明,所提出的标签分配方法可以为未标记文本生成通用和高度特定的文本标签,其中有多达 44% 的标签与机器学习关键词提取算法建议的标签匹配。
Nov, 2023
本研究提出了一个名为 Curator 的自动化数据集筛选工具,利用自我监督、可扩缩的最近邻检索和主动学习等技术以及机器学习算法自主对未标记数据进行搜索,可大大缩短筛选数据集的时间。研究展示了 Curator 在卫星图像野火分类方面的应用,这也说明了 Curator 不仅适用于地球科学领域,且可以轻松应用于其他领域的问题解决。
Dec, 2022
我们研究了在视觉和语言模型训练中使用大型未筛选数据集的不公平表现,以及如何应对这个问题,研究发现社会偏见在图像生成、图像描述和图像文本嵌入等视觉语言任务中都是一个持续而普遍的问题。
本研究提出了一种结合公共数据集的新策略,用于学习通用的人类活动识别模型,并表明结合公共数据集可以显著减少在未知目标领域上实现令人满意的性能所需的标记样本的数量。
Jun, 2023
在这项研究中,我们提出了一种在没有先验知识的情况下通过关键词的部分出现来识别潜在偏见的框架,并进一步提出了两种去偏方法:(a) 通过指定伪标签将其传递给现有的需要先验知识的去偏方法,以及 (b) 通过文本到图像生成模型进行数据增强,使用获得的偏见关键词作为提示。实验结果表明,尽管简单,我们的框架不仅能在没有先验知识的情况下胜过现有方法,而且甚至可以与假设有先验知识的方法媲美。
Jun, 2024
通过改进深度学习模型的标签和训练效率,此研究旨在增强深度学习的实用性。具体地,研究基于信息论原理的数据子集选择技术,包括主动学习和主动采样,其中主动学习提高了标签效率,而主动采样增强了训练效率,并系统研究了这些技术在深度学习中的应用。
Jan, 2024
探讨了使用 Area Under the Margin(AUM)度量方法来识别和去除 / 修正自然语言处理数据集中错误标记的样本,表明该方法可以滤除 NLP 数据集中的错误标记,但也会去除大量正确标记点并导致大量相关语言信息的丧失。模型依靠分布信息而非依赖句法和语义表示。
Sep, 2021