- 自动纤维放置中的异常检测:数据限制下的学习
该研究提出了一种基于自编码器的方法来检测自动化纤维铺放中的制造缺陷,并通过对深度图的处理能够确定缺陷位置并达到足够的二元分类准确性,克服了数据匮乏问题。
- DenseMP:无监督密集预训练用于少样本医学图像分割
通过使用无监督稠密预训练 (Unsupervised DenseMP) 方法,我们提出了一种新的少样本医学图像语义分割模型 (DenseMP),它通过两个阶段的训练极大地提高了 PA-Net 模型的性能,实现了 Abd-CT 和 Abd-M - 自由组合网络用于自我中心动作识别
本研究提出了一种自由形态组合网络 (FFCN),可以同时学习语义动词、介词和名词的分离表示,并利用它们在特征空间中组合新的样本,以处理视角行动识别中数据稀缺的问题。
- FeSViBS: 带块采样的 Transformer 视觉联邦分散学习
本文提出了一种基于 Federated Split 视觉变换器的块采样的医学图像分类任务的框架,该框架利用中间特征并将其信息内容蒸馏成伪类令牌,以增强模型的泛化能力。
- AI 生成综合数据集的潜力探究:以 Telematics 数据为案例研究(使用 ChatGPT)
本研究以 ChatGPT 为基础,探讨了合成数据集的构建和利用,特别地,针对遥测监测领域。合成数据集具有对数据保密、不足以及控制变量等问题的解决方案,但其效用主要取决于其多样性、相关性和一致性。通过案例研究,本文对合成遥测数据集的生成过程进 - IJCAI直接语音转文本翻译的最新进展
本文综述了直接语音翻译的当前技术状况,将现有研究工作分为三个方向:建模负担,数据稀缺和应用问题,并提出了未来工作的一些有前途的方向。
- 基于扩散模型的偏微分方程数据生成
为解决物理机器学习中的数据稀缺性问题,我们提出了一种新的物理模拟数据生成方法,利用扩散模型生成合成数据样本,并通过两种情况下的比较检验生成数据样本的准确性和符合物理法则的一致性,从而使它们能够有效地用于下游任务。
- KDD通过反事实数据模拟改进对话式推荐系统
本文提出了一种名为 CFCRS 的对话推荐系统,该系统采用反事实数据模拟方法来减轻对话推荐系统中数据不足的问题,并设计了基于对话模式的多阶段模拟器和逐步优化数据增强策略的对抗训练方法
- 跨编码作为增强方式:朝着有效的教育文本分类
本文提出了一种检索方法 CEAA,可以有效解决教育文本分类中的多标签、低资源等数据匮乏问题,其主要贡献是将迁移学习和跨编码器样式文本引入到双编码器结构中,以提高推理效率。实验表明,该方法比现有模型更有效。
- 条件扩散模型用于语义化 3D 医学影像合成
该论文介绍了 Med-DDPM,这是一种使用扩散模型进行语义 3D 医学图像合成的创新解决方案,解决了医学成像中的普遍问题,如数据稀缺、不一致的采集方法和隐私问题。
- ACL端到端隐喻检测的对抗多任务学习
本论文提出了一种基于多任务学习的方法,通过使用对对手学习进行元喻识别模型与词义消歧模型间的特征转移,从而缓解元喻识别领域中因数据量过少而导致的问题。实验表明,该方法具有很好的性能表现。
- 低资源语言中以文本为基础的对话系统的跨语言数据增强
本论文提出了一种新框架,利用高资源语言来增强低资源语言的对话生成能力,并通过跨语言增强模型(CLEM)来解决 DGDS 中数据稀缺的问题,包括对抗训练检索,翻译训练和融合生成技术。该方法在 DialDoc 2023 竞赛中获得第四名,表明该 - CVPR从语言和非语言沟通中学习情感表达
EmotionCLIP 通过使用非筛选数据从语言和非语言交流中提取视觉情感表示来进行预训练,从而解决了情感理解中数据稀缺的问题,并通过情感引导的对比学习提供了口头和非口头情感线索。结果表明,EmotionCLIP 在各种基准测试中优于现有有 - ACL面向德语文本简化的语言模型:通过风格特定的预训练克服平行数据稀缺问题
本文提出了一种通过在德国简单语言语料库上微调语言模型并将其作为序列到序列简化任务的解码器来克服数据稀缺性问题的两步方法,结果表明,在不同于英语的语言上进行无对齐预训练可以降低所需的平行数据量,同时提高下游任务的性能。
- Wav2SQL: 通用直接的语音转 SQL 解析
本文提出了第一个直接语音转 SQL 的解析模型 Wav2SQL,利用最近的大规模预训练技术来缓解数据稀缺问题,通过语音重新编程和梯度反转分类器技术减少声学差异和学习的样式无关表示,显著提高准确性。
- XTREME-UP: 面向用户的稀缺数据基准测试,用于代表性不足的语言
该研究提出了一个针对语言严重不足的情况的基准测试 XTREME-UP 来评估语言模型对 88 种语言的能力,比传统的零样本测试更具实际价值,侧重于用户中心的任务,包括 ASR,OCR,MT 和信息访问任务,并提供多种建模场景的方法学。
- 面向多语言稠密检索的软提示解码
本文提出了 KD-SPD 方法,透過 soft prompt decoding 處理多種語言之雜亂和不平衡性,運用知識蒸餾戰略,將 teacher model 訓練出的檢索知識轉移到多語言文檔編碼器上,實驗顯示在三個多語言檢索數據集中表現優 - 医学影像的少样本学习:方法学和数学框架的比较分析
深度学习在医学图像处理领域的应用受到数据不足的限制,因此研究者们开发出了一种称为 “Few-shot learning” 的模型,通过分类和分割方法来从小规模数据集中提取特征以解决数据不足的问题。本文综述了 Few-shot learnin - 文本驱动的少样本领域自适应视觉融合事件检测
本研究提出一种领域特定的、可从少量标注的图文数据训练的、可在缺乏可视化背景下合成图像的视觉联想事件检测方法,实验结果表明,在 M2E2 基准数据集上,该模型的性能超过了现有的最先进模型达 11 个百分点。
- 合成医学图像的美貌还是野兽:哪一方面值得我们关注?
研究表明:医疗人工智能算法训练所需的人工数据过于稀缺,使用深度生成模型生成的低保真度合成图像在某些情况下可能比高保真度合成图像更优,这为合成图像在现实应用中的价值提供了新思路。