- DiffuseExpand:使用扩散模型扩充 2D 医学图像分割数据集
使用 Diffusion Probabilistic Models 扩展医学图像分割数据集的方法,通过从高斯噪声采样各种掩膜来确保多样性,然后综合图像来确保图像和掩膜的对齐,并选择高质量样本以进一步增强 DiffuseExpand 的数据扩 - 通过跨模态多粒度对比学习提高语音翻译质量
该论文提出了一种 FCCL 方法,通过跨模态多粒度对比学习来实现显式知识转移,该方法在多语言和多粒度上显著优于 E2E-ST 基线,有助于提取包含丰富语义信息的语音表示。
- CrowdSim2:一个用于目标检测的开放式合成基准测试
该研究论文介绍了 CrowdSim2—— 一个新的人和车辆检测适用的合成图像集合,旨在用于基于人工智能的监督模型开发。研究发现他们使用的这个新数据集对于在受控环境中测量检测器性能是一个有价值的工具。
- InstructBio:用于生化问题的大规模半监督学习范式
本文提出了一种半监督学习算法 InstructMol 来解决大规模的分子建模任务中数据稀缺的问题,并在细粒度后处理以提高准确性。
- CVPR利用 GAN 应对 COVID-19 数据稀缺:超越炒作
本研究分析了 43 项 GAN 生成合成数据的研究的发表情况,并发现存在数据偏见、缺乏可复现性、缺乏来自放射学家或其他领域专家的反馈等问题。最后,提出了建议以指导未来的研究。
- 少即是多:用因果发现方法缓解开放域对话生成模型中的虚假关联
本文针对当前存在的虚假相关性问题和数据匮乏问题,提出了一种基于因果发现算法的模型无关方法,即条件独立分类器,并在训练时采用约束自学习方法 CONSTRAIN 进行数据扩充,实验结果表明该方法比竞争基准模型在相关性、信息量和流畅度方面显著优于 - 神经 NLP 数据增强
本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展,着重介绍了基于神经网络和变换器的方法,讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。
- 缓解大型语言模型的数据稀缺问题
本文研究了使用数据增强和神经集成学习技术来减轻预训练神经语言模型在医学或低资源语言等特定领域中的数据稀缺问题。实验结果表明,这些简单有效的解决方案可以显著提高这些领域下神经语言模型的性能。
- 基于随机掩码采样的医学影像高效分布式视觉 Transformer 基础模型
该研究提出了一种基于自监督遮掩采样蒸馏方法的视觉 Transformer,它可以在不需要持续通信的情况下进行,同时使用特定于视觉 Transformer 的加密方法来增强隐私保护,经过对两种医疗数据和两种不同下游任务的广泛实验表明,该方法具 - 基于分段增强的语音翻译数据效用最大化(SegAugment)
提出了一种名为 SegAugment 的数据增强方法,通过音频分割系统重新分割每个文档的语音,以获取多个目标文本,并得到多个和不同的句子级视图,实现了语音翻译中的数据增强,平均 BLEU 分数增加了 2.2 个点,并且在低资源场景下增加了 - MM音乐乐器分类重新编程
本研究旨在探讨如何在数据稀缺情况下,重新编程预训练的深度神经网络来解决音乐信息检索中流行的乐器分类问题。实验证明,重新编程技术能够有效地利用为不同任务学习到的表征能力,使其在训练参数量大幅减少的情况下性能接近或甚至超过最先进系统,因此重新编 - 敌对掩蔽预训练心电图数据提高模型泛化能力用于数据稀缺任务
本研究提出了一种采用敌对掩蔽技术增强医学数据集的自监督学习方法,该方法针对 12 导联心电图数据生成掩蔽增强,相比于传统增强方法在少样本数据集上表现更优,证明了该方法的泛化性。
- 结合语音和双语文本的联合预训练,用于直接语音翻译
本文提出了一种基于不对称数据的语音到语音模型 Speech2S,利用双语文本数据训练模型可以有效地模拟跨语言的语音转换,实验结果显示,Speech2S 的表现比现有的最先进模型更好。
- 针对业务流程的基础模型案例
该论文探讨了发展用于处理商业流程数据的基础模型的重要性,以应对数据稀缺、多模型表示、领域特定术语和隐私问题等独特挑战。
- 通过无标注文本改进语音到语音翻译
通过应用声学效果生成大量合成数据,利用现有的大量不同语言的未标记文本,提出了一种有效的方法来利用大量的语音到语音翻译数据,改进翻译质量,在西班牙语 - 英语和俄语 - 英语翻译中提高了 2 个 BLEU,尤其是在极低资源情况下表现显着。
- EMNLP如何选择形态变化数据
本篇论文研究了对于低资源语言的狭缺数据问题,通过使用主动学习方法,基于置信度、熵等策略选择最具信息的数据进行更准确的模型训练,实验证明这种方法可以显著提高模型性能。
- ACL多类型对话式封闭和无法回答问题的问答生成
本文提出了一种新的方法合成用于 CQA 的数据,其中包括开放式,封闭式和无法回答的问题,通过为每种问题类型设计不同的生成流程并将它们有效地结合在单个共享框架中,同时设计了分层回答分类模块,提高了合成数据的质量,手动检查发现我们的框架生成的合 - ACL利用领域文本生成对回译进行缩放,用于手语术语翻译
本文提出了一种 Prompt-based domain text generation (PGEN) 方法来克服标记稀缺性问题,该方法使用预训练语言模型(即 GPT-2)生成类似于原始领域口语的文本,通过该方法生成的口语文本用于 BT 技术 - 脑电波探幽者:从大脑活动中重构复杂图像
本文研究了如何通过结合 fMRI 神经活动信号、图像和图像语义描述来重建复杂的图像场景,使用深度学习模型,并且通过采用预先训练的视觉 - 语言潜在空间编码 fMRI 信号来解决数据稀缺的问题。
- COLING用跨语言检索方法提升跨语言事实核查
为了解决低资源语言事实核查数据集的缺乏问题,我们提出了一种跨语言检索的事实核查框架,该框架利用我们提出的自监督算法,使用翻译的文章标题来创建训练实例,并在多种语言下实现证据的汇集。在 X-Fact 数据集上,我们的方法在零 - shot 跨