- 希腊播客语料库:用弱监督数据训练低资源语言的竞争性语音模型
通过使用弱监督方法构建大规模语料库,本研究在语音技术方面证实了通过增加数据量和模型规模来提高 ASR 性能的成效,进一步推动了资源匮乏语言的语音技术发展。
- ModelMix:一种新的模型混合策略,用于基于少量标记的心脏分割中最小化相邻风险
基于模型参数插值的少数 scribble 引导的 ModelMix 方法,在像素级稠密标注资源密集且耗时的情况下,通过弱标签如 scribbles 提供了一种更可行的替代方法,有效地进行各个分割任务的训练。在无监督和 scribble 监督 - CVPRGroPrompt:用于参考视频对象分割的高效基于上下文提示和适应性
该研究提出了一种基于 Grounded Prompting (GroPrompt) 框架的高效适应基础分割模型来解决仅通过弱监督信息进行 Referring Video Object Segmentation (RVOS) 的问题,并提出了 - 利用大型语言模型进行临床自然语言处理中基于无知识弱监督的优化
使用弱监督和微调大型语言模型(LLM)的方法,在几乎没有领域知识的情况下,能够在性能上显著优于传统的有限的标准数据的监督方法,利用基于提示的方法,LLM 生成弱标记数据来训练下游的 BERT 模型,然后将弱监督模型进一步在少量的标准数据上进 - 利用大型语言模型进行实体匹配
实体匹配是数据集成中的关键任务,本文探讨了将大型语言模型应用于实体匹配的优势、挑战和未来研究方向,同时回顾了关于弱监督和无监督方法在实体匹配中的应用以及大型语言模型如何增强这些方法。
- 基于稀疏点标注的电子显微镜弱监督跨领域分割
通过少量局部标注创建的弱监督学习模型在神经科学研究中的电子显微镜(EM)图像的精确细胞器实例分割任务上取得了显著的性能提升,比无监督域自适应方法更具实际应用价值。
- ACLFAIR:自动诱导规则的过滤
自动过滤通过次模的目标函数由大量自动生成的规则组成的规则集,该算法在弱监督下实现了更优越的性能,并且相对现有的规则过滤方法取得了显著的结果。
- 医学图像配准的半弱监督神经网络训练
通过弱监督方法以及对未标记数据应用一致性无监督损失,本文提出了一种半弱监督注册流程,改进了模型性能,并构建了一个计算解剖图谱用于盆腔结构。
- ActiveDP: 桥接主动学习和数据编程
提出 ActiveDP 框架,结合主动学习和数据编程,生成高准确性和覆盖率的标签,优于以往弱监督和主动学习方法,在不同标注预算下表现稳定。
- 利用大型语言模型进行提示弱监督中的结构学习
利用大型预训练语言模型作为弱监督框架中标记函数的基础,通过扩展语言模型在循环中的应用来解决弱监督的主要挑战之一:学习监督来源之间的统计依赖结构。我们提出了一种结构细化模块的简单而有效的方法,通过利用嵌入空间中的内在结构,通过询问语言模型来评 - 廉价学习:利用最少数据最大化语言模型在社会数据科学中的性能
机器学习领域近年来在建立新模型时降低标注训练数据需求方面取得了显著进展,本文回顾了三种低成本学习技术,包括弱监督、迁移学习和提示工程,特别探讨了零样本大语言模型的提示工程及其应用于社会科学领域的实际任务,结果显示这些技术均表现良好,且大语言 - ICCV多模态数据筛选与整理:基于目标检测和过滤器集成
我们提出了一种用于 2023 年 DataComp 竞赛过滤轨道的多模态数据筛选方法,该方法将目标检测和基于弱监督的集成相结合,使性能提升了 4%,并在小规模轨道中取得了排名第一的位置,并且通过集成现有基准和弱监督方法在中等规模轨道上实现了 - 一种用于自动化 3D 医学图像分割的动态交互学习框架
基于深度学习的医学图像自动分割系统面临大量数据标注成本和模型迭代中的高延迟问题,本研究提出了一种动态交互学习框架,通过将交互式分割与端到端弱监督学习和流式任务集成,解决了这些挑战。我们开发了新颖的重放和标签平滑方案,克服了灾难性遗忘并提高了 - 基于 SAM 的弱监督细胞分割中的引导提示
利用弱监督方法,在细胞分割的任务中使用 Segment Anything 模型(SAM),通过对象检测器的输出作为测试时的提示信息(D-SAM),以及 SAM 作为伪掩膜生成器在训练数据上训练一个独立的分割模型(SAM-S),并通过整数规划 - 利用点注释在使用边界损失的分割学习中
通过使用强度感知距离图和边界损失,本研究在点标注的语义分割中探讨了强度感知距离图与边界损失的组合。结果表明,这种监督策略具有巨大潜力,并在实验中取得了令人鼓舞的初步结果。
- EMNLP弱监督下的少于单次投射:命名实体识别
我们研究了在极弱监督条件下的命名实体识别(NER)问题,提出了一种名为 X-NER 的新方法,可以胜过现有的一次性 NER 方法,具有跨语言能力。
- EMNLP基于执行的伪程序过滤的弱监督语义解析
通过基于程序执行结果的领域无关过滤机制,我们的研究提出在弱监督语义分析框架中应用该方法可以显著提高性能。
- 利用弱监督生成印尼保护数据集
利用弱监督方法快速构建印尼自然语言处理数据集,通过使用标注函数生成软标签数据集,进行多类别分类和情感分类的基准实验,得到了相应的测试性能结果,并提供了数据集和标注函数以供进一步研究和探索。
- 在问答系统中使用弱监督和数据增强
研究探讨了弱监督和数据增强在训练深度神经网络问答模型中的作用,利用结构化文摘和信息检索算法 BM25 生成标签,通过信息检索技术和词汇数据库增强训练数据,应用课程学习进行领域自适应和逐步微调问答模型来回答关于 COVID-19 的问题。
- 使用 LLM 预测的可信度信号和弱监督检测虚假信息
本文研究大型语言模型(LLMs)是否可以有效激发一组 18 个可信度信号,以产生每个信号的弱标签,然后使用弱监督方法来预测内容的真实性,并演示了该方法在两个虚假信息数据集上的性能优于现有的分类器,同时分析了各个可信度信号对内容真实性预测的贡