METAM: 以目标为导向的数据发现

Apr, 2023

METAM: Goal-Oriented Data Discovery

Sainyam Galhotra, Yue Gong, Raul Castro Fernandez

TL;DR本文介绍了一种名为 METAM 的目标导向框架，该框架可自动引导发现与扩充数据，并通过从下游任务中查询候选数据集来选择最佳候选方法，理论保证，并在广泛的任务集合上进行了实证证明，证明了目标导向数据发现对现代数据科学应用的潜力。

Abstract

Data is a central component of machine learning and causal inference tasks. The availability of large amounts of data from sources such as open data repositories, data lakes and data marketplaces creates an oppor

augmentation techniques metam goal-oriented data discovery machine learning causal inference

发现论文，激发创造

元数据考古：利用训练动态开掘数据子集

提供了一种高效的元数据考古框架，通过使用简单的转换和利用学习动态的差异来揭示和推断数据集中示例的元数据。

Sep, 2022

DAC-MR: 基于数据增强一致性的元学习元正则化

在元学习中应用元知识来改善元学习的效果，并提出了基于数据扩充一致性的元知识来进行元正则化，实现无噪音、稀疏或无法使用高质量元数据的训练任务的元模型学习，从而在元层面上实现更好的泛化。

May, 2023

元学习式的无监督学习

该篇研究通过无监督元学习方法，利用自动构建的任务，从无标记数据获取表征，并应用于多种下游分类任务中，相对于其他四种无监督学习方法的表征学习，显示出更好的性能。

Oct, 2018

可解释元学习框架

该论文提出了一种可解释的元学习框架 FIND，它不仅可以解释元学习算法选择的推荐结果，还可以提供与业务场景相结合的特定数据集上推荐算法性能的更完整和准确的解释。该框架的有效性和正确性得到了广泛实验的证明。

May, 2022

基于大型生成模型的数据驱动发现

通过大型生成模型（LGM）开发自动化端到端数据驱动发现系统是具有挑战性的，我们提倡通过故障安全的工具集成和积极的用户调节机制来促进高效、可重现的数据驱动科学发现。

Feb, 2024

自动关系元学习

本篇论文提出一种基于知识库组织方式的自动关系元学习（ARML）框架，它可以从先前完成的任务中自动抽取跨任务关系并构建元知识图，通过学习的元知识图解决任务异质性的挑战，同时提高模型可解释性。

Jan, 2020

检索、合并、预测：利用数据湖增强表格

数据湖中的数据发现在表增强中的应用进行了深入分析，研究了检索可连接表、信息合并和使用生成表进行预测的替代方法，并通过对 YADL 和 Open Data US 的系统性探索，总结了准确检索连接候选项的重要性和简单合并方法的效率。本研究报道了现有解决方案的优势和局限性，旨在指导未来该领域的研究。

Feb, 2024

Meta-Dataset: 从少量示例中学习的数据集

提出了一个名为 Meta-Dataset 的大规模基准数据集，用于训练和评估模型在少样本分类问题上的性能，并探讨模型对不同训练来源的泛化能力和元学习的好处。

Mar, 2019

无需记忆的元学习

通过信息理论设计的元正则化目标，可以使元学习器在任务训练数据和任务测试数据之间有效地适应，成功地使用来自非相互排斥任务的数据来有效地适应新任务，并在应用场景中大幅优于标准元学习算法。

Dec, 2019

语义化数据科学的愿景

本文讨论了当前数据科学和机器学习自动化解决方案的重要缺陷，并设想如何利用语义理解和推理与数据科学自动化的新工具相结合，以帮助保持一致且可解释的数据增强和转换。另外，我们还讨论了语义如何在处理与信任、偏见和可解释性相关的挑战方面以一种崭新的方式帮助数据科学家，并在更好地探索和组织大型数据源方面提供帮助。

Mar, 2023