- 一种统一的基于计数的弱监督学习方法
通过计算确切地设为真输出的概率,我们提出了一种统一的弱标签计数弱监督学习方法,并在三种常见的弱监督学习范例上取得了最先进或高度竞争的结果。
- EMNLPLLM 辅助的半监督式提取式对话摘要
使用未标记数据进行客户 - 代理商对话的摘要生成,通过将摘要问题建模为问答问题,使用大型语言模型生成伪标签,并通过精细调整专门的聊天总结模型来有效地从大型语言模型中转移知识。
- 零样本摘要中具有参数高效层的语言和任务算术
通过元素级算术操作组合语言和任务的参数,我们提出了一种改进的零样本跨语言迁移方法,能在使用最少 PEFT 模块训练的情况下实现一致的收益,对摘要生成任务表现出良好的效果。
- ZGUL:使用多源适配器的零样本泛化到未见过的语言
通过使用语言适配器(LAs)解决 NLP 任务中的零射击跨语言转移问题,并结合多个源语言的语言适配器进行训练和测试,展示了在 POS 标注和 NER 任务上相对标准微调和其他强基线模型平均 F1 分数提高了 3.2 个点的改进。
- FlatMatch:利用交叉锐度连接标注数据和无标签数据进行半监督学习
本文提出了 FlatMatch 方法,通过最小化交叉尖锐度度量来保持两个数据集的一致学习性能,增加标记数据上的经验风险以获得一种最坏模型,然后利用未标记数据的丰富性惩罚最坏模型与原始模型之间的预测差异,从而使学习方向有利于未标记数据的泛化, - EMNLPJointMatch: 一种用于半监督文本分类的多样化和协作伪标签统一方法
提出了一种名为 JointMatch 的新方法,用于半监督文本分类,通过结合最近半监督学习和学习带有噪声任务的理念,解决了伪标签偏见和错误积累的问题。JointMatch 通过根据不同类别的学习状态自适应调整类别阈值,减轻了模型对当前容易类 - IDEAL:影响驱动的选择性注释强化大型语言模型中的上下文学习者
通过选择具有最大边际收益的数据子集,引入了一种基于影响力驱动的选择性注释方法,以降低注释成本并提高上下文示例的质量。实验结果证实了该方法在各种基准测试中的优越性能,以更低的时间消耗在子集选择过程中取得更好的表现。
- 在线手写文本分类的自监督表示学习
通过自我监督学习从未标注的数据中提取丰富的表示,避免了对大规模数据集的标注成本。本研究针对在线手写文本的不断发展应用,提出了一种新颖的基于笔画部分遮罩的预训练任务 (POSM),用于从英语和汉语两种语言的个人在线手写中提取信息丰富的表示,以 - 给予非标记数据的几乎免费提升:改进深度集成校准
在小训练数据情况下,通过使用未标记数据来改进深度集成模型的校准方法,该方法通过为每个未标记数据点与每个集成成员的不同随机选择的标签进行拟合,理论分析证明该方法在测试样本上能够获得低负对数似然和高集成的多样性。经过详细实验证明,在训练集规模较 - 全面测试时间适应的汇编技巧
全面测试时间适应 (TTA) 旨在使模型适应数据漂移,最近引起了广泛的兴趣。我们提供了选择的正交 TTA 技术的分类,并对其对不同情景的影响进行了细致分析。我们揭示了这些技术在准确性、计算能力和模型复杂性之间产生的权衡,并发现了将技术结合起 - 无标签领域外数据提高泛化能力
将未标记的数据合并到半监督分类问题的一个新框架中,借助分布鲁棒优化 (Distributionally Robust Optimization) 和自我监督训练的组合,提供了新的错误界限以及将离域样本用于缩小泛化差距的方法。
- 去噪和选择伪热力图用于半监督人体姿势估计
我们提出了一种新的半监督学习设计,用于人体姿势估计,通过增强双学生框架,引入去噪方案生成可靠的伪热图作为无标签数据学习的目标,并通过估计的交叉学生不确定性从伪热图中选择学习目标。我们在 COCO 基准测试上进行了多个评估设置,结果显示我们的 - ICCV基于预训练模型的半监督学习的渐进特征调整
建议使用伪标签从无标签数据中更新特征提取器,以解决预训练特征表示所带来的偏见,并通过实验证明该方法优于现有解决方案。
- ICCV无类别先验的 Taylor 变分损失正无标学习在高光谱遥感图像中的应用
本文介绍了一种应用于高光谱遥感图像 (HSI) 的正 - 无标签学习 (PU learning) 方法,通过提出的 Taylor 变分损失函数和自校准优化策略,在有限标记 HSI 数据中实现了在过拟合和欠拟合之间的平衡,且在 7 个基准数据 - 基于边缘上下文信息的半监督语义分割
我们提出了一种新颖的置信度细化方案,通过将伪标签在半监督语义分割中加强。与当前主流方法不同,我们的方法不仅孤立地过滤具有低置信度预测的像素,还通过将相邻像素进行分组并综合考虑它们的伪标签,利用分割图中标签的空间相关性。借助这些上下文信息,我 - ICCVIOMatch: 结合内点和外点利用的简化开放集半监督学习
本文介绍了一种名为 IOMatch 的新型开放集半监督学习框架,能够在标记极度稀缺的情况下有效地利用异常点和内点,通过采用一个多二分类器和标准闭集分类器相结合的方法,产生统一的开放集分类目标以及使用这些目标作为伪标签进行优化,从而在包括内点 - 广义连续类别发现
我们提出了一种框架,通过连续无监督学习方法在任务中发现新的和已知的类别,称之为广义连续类别发现(GCCD)。通过实验证明,我们的方法在表示学习性能上优于已采用 GCD 技术的强大 CL 方法。
- 半监督实例分割的引导蒸馏
通过引入新颖的 “引导燃烧” 阶段的教师 - 学生蒸馏模型以及评估不同的实例分割架构、骨干网络和预训练策略,我们改进了蒸馏方法,并利用未标记数据在引导燃烧阶段中进行了指导,从而显著提高了先前最先进的结果。
- 半监督和自监督学习在医学图像上的准确率与时间前沿
对医学图像分类应用进行的研究表明,使用未标记的数据可以提高分类器的性能,通过自监督学习和半监督学习的方法,本研究在医学图像领域设计了一个基准测试,发现 MixMatch、SimCLR 和 BYOL 方法是强有力的选择,并提供适用于新医学任务 - ACL句子嵌入的构成对比学习
通过最大化同一文本最小扰动嵌入之间的对齐,以及在更广泛的语料库中鼓励嵌入的均匀分布,基于对比学习的各种方法已被提出来从未标记的数据中学习文本表示。不同的是,我们提出最大化文本和其短语成分组成之间的对齐,考虑了此目标的多种实现方法,并详细阐述