多元化和消歧化：从未明确定义的数据中学习

Feb, 2022

多元化和消歧化：从未明确定义的数据中学习

Diversify and Disambiguate: Learning From Underspecified Data

Yoonho Lee, Huaxiu Yao, Chelsea Finn

TL;DR我们提出了DivDis，这是一个简单的两阶段框架，它首先利用来自测试分布的未标记数据学习任务的多样性假设集，然后通过选择一个发现的假设来消除歧义，在图像分类和自然语言处理问题中可以发现使用鲁棒特征的假设。

Abstract

Many datasets are underspecified, which means there are several equally viable solutions for the data. Underspecified datasets can be problematic for methods that learn a single hypothesis because different functions that achieve low training loss can focus on different predictive features and thus have widely varying predictions on out-of-distribution data.

发现论文，激发创造

无监督预训练有助于保留来自输入分布的视角

本文研究无监督预训练方法对信息理论的影响，当输入分布显示出多个监督视图时，该方法可以学习层次化表示，并确保学到的特征在条件标签下独立。无监督预训练可以帮助解决过拟合问题，并提出了一种实用方法来评估监督解缠和二进制特征中的多个视图数量。相比之下，使用有监督模型的学习表示法会忽略大部分视图。

May, 2019

OpenMix：在开放世界中通过恢复已知知识发现新颖视觉类别

本文介绍了一种名为 OpenMix 的模型用于在无标签数据中发现新类别，并通过混合标签和伪标签来建立已知和未知示例之间的学习关系，提高模型对新类别的识别能力。

Apr, 2020

DISSECT: 通过概念遍历进行解释的分离式同时解释

这篇论文提出了一种名为DISSECT的新方法，该方法可以有效地实现生成解释、概念解缠、反事实解释、可解释性和偏见检测等课题。该方法使用少量监督同时训练生成器、鉴别器和概念解缠器，通过生成分类器辨别信号的生成模型，能够自动发现分类器固有的不同概念。应用该方法能够检测分类器的潜在偏见和识别影响预测的虚假因素。

May, 2021

结构多样采样：实现高效训练和全面评估

本研究提出了一种结构多样性的训练方法，可以改善NLP模型组合性的普适性问题，并发现结构多样化训练可提高样本效率和测试统计数据的多样性。

Mar, 2022

监督学习中高效表示识别

本文针对非线性独立成分分析的负面结果, 试图研究在没有条件独立性的辅助信息下如何实现解缠以及如何减少需要的辅助信息量。在一类模型中，我们证明理论上和实验上都可以实现解缠，即使辅助信息的维度远小于真实潜在表示的维度。

Apr, 2022

预测并非理解：识别和解决机器学习中的不完备性

提出了一种使用独立性约束和数据流形对机器学习模型进行优化，以发现远离分布数据和具有良好预测性能的模型的方法，并讨论了模型选择的相关问题。

Jul, 2022

利用模型库中丰富的知识进行领域通用性的探索和利用

本文提出一种方法，利用编码表示中的多样性和相关性变化特征，结合不同预训练模型获得更好的极端样本识别性能。通过实验结果验证了该算法的有效性。

Jun, 2023

DAGnosis: 使用结构局部识别数据不一致

使用有向无环图(DAGs)编码训练集的特征概率分布和独立性的方法(DAGnosis)能识别和处理数据在部署时的不一致性问题，并解决了数据中心方法在特征具有统计独立性的情况下的子优化问题，同时定位了为何样本会因不一致性而被标记的原因，提供了更准确的检测方法和更详细的洞察。

Feb, 2024

HYPE: 超伪定型图像与文本的包含性过滤

本研究介绍了一种名为HYPerbolic Entailment filtering (HYPE)的新方法，利用超伸缩嵌入和蕴含锥的概念，精确提取具有明确语义的图像-文本对数据集，以增强数据样本的特异性。HYPE在数据筛选效率方面取得了显著的改进，并在与现有筛选技术相结合时创下了DataComp基准的最新记录。该研究突破了数据选择过程的潜力，为更准确高效的自监督学习模型的发展做出了贡献。

Apr, 2024

DRUPI：使用特权信息进行数据集减缩

本研究针对现有数据集减缩方法的不足，提出了一种新的数据集减缩方法DRUPI，通过合成特权信息来丰富减缩数据集，从而改善模型学习的效果。研究表明，适度的特征标签能够优化减缩数据集的效能，并在多个数据集上表现出显著的性能提升。

Oct, 2024