基于标签比例的文本分类学习

EMNLPOct, 2023

Learning under Label Proportions for Text Classification

Jatin Chauhan, Xiaoxuan Wang, Wei Wang

TL;DR在隐私设置和弱监督下，我们提出了一种新的基线技术 DLLP 的不规则性，以及与 LLP 下的通用性边界争论相结合的基于自我监督目标的新公式，该方法在 87% 的实验配置中比基线模型取得更好的结果，实验涵盖了长篇和短篇文本的大规模模型，并使用多个度量标准进行评估。

Abstract

We present one of the preliminary NLP works under the challenging setup of Learning from Label Proportions (LLP), where the data is provided in an aggregate form called bags and only the proportion of samples in each class as the ground truth. This setup is inline with the desired characteristics of training models under →

learning from label proportions (llp)privacy settings weakly supervision baseline technique dllp self-supervised objective

发现论文，激发创造

学习标签比例

该文章针对基于 Label Proportions 的学习环境提出了一个新的学习框架 ——Empirical Proportion Risk Minimization，利用该学习框架可以构建更好的学习算法，在政治学、营销、医疗保健和计算机视觉等领域有广泛应用。

Feb, 2014

基于标签比例学习的两阶段训练

该论文研究了从标签比例中学习的问题，针对现有基于深度学习的方法中优化目标与给定比例不一致的问题，通过对分类器施加比例验证的连续训练阶段以及引入混合策略和 Symmetric Crossentropy 方法来降低标签噪声，提高了分类性能。

May, 2021

利用一致性正则化学习标签比例

本文提出了一种新的方法，通过引入半监督学习中的一种流行概念 - 一致性正则化，解决了标签比例学习（LLP）的问题，实现了更好的分类器表现，同时也提供了更好符合实际应用场景的非均匀背景生成和基于验证的参数选择过程。

Oct, 2019

从标签比例中学习：一个相互污染的框架

本文以相互污染模型为基础，对标签比例学习进行了研究，提出了一种新的实验设置并首次建立了一致的学习流程。研究结果还包括非独立抽样计划下的无偏损失和泛化误差界限。

Jun, 2020

MixBag: 标签比例学习的包级数据增强

提出了一种基于袋级数据增强的学习方法 MixBag，该方法可应用于实例级数据增强技术和使用比例损失的任何学习方法，并通过实验证明了其优势和有效性。

Aug, 2023

评估 LLP 方法：挑战与方法

学习标签比例（LLP）是一个机器学习问题，有许多现实应用。本文提出了解决 LLP 中的若干问题的方法，包括生成各种依赖结构和包特征的特定变体数据集，模型选择和评估步骤的准则，以及对一组知名 LLP 算法的广泛基准测试结果。

Oct, 2023

使用深度学习从标签比例进行人口分类的共同训练

本文介绍了一种在无标注训练样本的情况下，通过使用深度神经网络，并引入一种新正则化层 Batch Averager，将有标注数据的深度神经网络转换为无标注学习（LLP）的方法。本文还提出了一种协同训练算法，以支持可能由图片和文本组成的数据域。作者通过 Twitter 用户的 tweets 和个人资料图片，预测 Twitter 用户的性别和种族 / 民族信息，并发现深度 LLP 方法在文本和图片分类方面均优于基线方法，并且协同训练算法可以将文本和图片分类的绝对 F1 值分别提高 4％和 8％。最后，采用文本和图片分类器的集合进一步平均提高了绝对 F1 值 4％。

Sep, 2017

通过信念传播引导超级学习者的标签比例学习

通过学习标签比例 (LLP)，我们提出了一种新的算法框架，其中迭代地执行伪标签和嵌入改进两个主要步骤，利用 Gibbs 分布和 Belief Propagation，在不牺牲计算效率的情况下，取得了标签比例学习问题上的显著改进。

Oct, 2023

从标签比例中学习的乐观速率

弱监督学习问题中的主题是来自标签比例的学习，研究了多种实现分类损失的标准，包括经典的实证比例风险最小化、去偏差的比例平方损失和最近提出的 EasyLLP 学习规则，这些规则在可实现和不可知设置中均取得了 “乐观速率”，并且在样本复杂度上接近最优（log 因子）。

Jun, 2024

LLP-Bench：一种用于从标签比例学习的大规模表格基准

该研究论文介绍了学习标签比例（LLP）任务，提出了一个包含大规模表格 LLP 基准数据集（LLP-Bench），并在该数据集上评估了 9 种先进的和流行的表格 LLP 技术的性能。

Oct, 2023