- 希腊播客语料库:用弱监督数据训练低资源语言的竞争性语音模型
通过使用弱监督方法构建大规模语料库,本研究在语音技术方面证实了通过增加数据量和模型规模来提高 ASR 性能的成效,进一步推动了资源匮乏语言的语音技术发展。
- KDD城市集中的多目标离线强化学习与对比数据共享
MODA 是一个多任务线下强化学习方法,通过对比数据共享来解决线下强化学习中的数据稀缺性和异质性问题,并且利用集成动力学模型和生成对抗网络构建鲁棒的马尔可夫决策过程,显著提升了城市决策过程。
- 儿童语音识别的离散标记增强
在这项研究中,我们调查了将离散语音标记整合到儿童语音识别系统中的方法,以解决数据稀缺和隐私问题,并探索了单视图和多视图策略,测试了模型的泛化能力。结果表明,儿童的离散标记语音识别系统几乎可以达到与传统方法相当的性能,并且参数减少了约 83% - 全球数据限制:大型语言模型中的道德与效果挑战
本文研究了大规模语言模型(LLM)获取高质量训练数据所面临的多方面挑战,包括数据稀缺、偏差以及低质量内容,并通过使用 GPT-4 和 GPT-4o 进行一系列评估,证明这些数据限制对模型性能和伦理对齐的不利影响。我们提出并验证了一些旨在提高 - 利用大规模视觉模型增强机器人抓取的简要调查
通过大规模视觉预训练探索提高机器人抓握性能的潜在益处,并对视觉预训练在机器人操纵中的关键挑战和未来研究方向进行了初步文献综述。
- COOL:全面的知识增强提示学习用于领域自适应小样本假新闻检测
通过综合的知识增强推理学习方法(COOL),我们提出了一种适用于领域自适应少样本 fake news detection 的方法,该方法通过从外部来源提取结构化和非结构化知识,并采用对抗性对比增强的混合推理学习策略来建模领域不变的新闻 - - 多个来源胜过一个:在低资源词汇标注中整合外部知识
通过协调多个语言专业知识源,我们解决了低资源语言自动数据驱动预览中的数据稀缺问题,并在词级准确性方面获得了 5 个百分点的平均绝对改进,对横跨六种低资源语言的多样化数据集而言,这些增强在最低资源的 Gitksan 语言中表现尤为明显,我们实 - MALLM-GAN:用于合成表格数据的多智能体大型语言模型生成对抗网络
在大数据时代,访问丰富的数据来推动研究进展至关重要,然而在医疗领域,这种数据往往由于隐私问题或高成本而无法获得。生成合成数据可以解决这个问题,但现有模型通常需要大量数据进行训练,与我们解决数据稀缺的目标相矛盾。为了应对这一挑战,我们提出了一 - KDD通过隐私保护特征增强解决联邦学习中的数据稀缺和标签偏斜问题
使用 FLea 框架进行联邦学习,通过全局特征缓冲区、特征增强和模糊化方法来解决分布式设备中稀缺和标签倾斜数据引起的局部模型过拟合和漂移问题,并在各种数据模态下进行实验证明其优越性,并降低了共享特征的隐私风险。
- 多变量时间序列分类的数据增强:一个实验研究
我们的研究探讨了数据增强对多变量时间序列模型性能的影响,重点关注 UCR 存档中的数据集。尽管这些数据集规模有限,但我们通过使用 Rocket 和 InceptionTime 模型,在 13 个数据集中有 10 个实现了分类准确度的提升。这 - 用于个性化处理非典型语音的超网络
通过参数效率高的微调,将一般语音识别模型个性化为适于非典型语音的模型,通过使用元学习的超网络,在生成高度个性化的语音适应时,不再需要特定的同伴模型。
- 用物理信息扩散模型生成合成网负荷数据
本研究提出一种新颖的物理知情扩散模型,用于生成合成的净负荷数据,解决数据稀缺和隐私问题。该模型将物理模型嵌入去噪网络中,提供了一种多功能方法,可以轻松推广到未预料的情景。利用来自 Pecan Street 的真实智能电表数据,我们验证了所提 - TAIA:大型语言模型的非分布式数据学习者
通过细调参数和推理时干预的 Transformer 模型,能够在数据匮乏的领域中提高大语言模型的性能。
- MediSyn: 用于广泛医学 2D 和 3D 图像合成的文本引导扩散模型
通过生成逼真且多样化的医学 2D 和 3D 图像,基于指令的文本导向潜在扩散模型 MediSyn 为算法的训练和研究提供了一个丰富且尊重隐私的资源,并通过已建立的指标展示了在医学图像和视频综合中以文本提示为导向的显著改进。
- 101 亿阿拉伯语词汇数据集
该研究致力于解决阿拉伯地区数据稀缺的问题,以鼓励开发真实地反映该地区语言和细微差异的阿拉伯语言模型。通过从 Common Crawl WET 文件中提取大量阿拉伯文本数据,经过严格的清洗和去重处理,形成了迄今为止最大的 1010 亿阿拉伯词 - 使用对比共享表征进行个性化的联邦学习,解决非独立同分布数据中的标签差异性
本文提出了一种名为 Federated Contrastive Representation Learning (FedCRL) 的个性化联邦学习算法,旨在处理分布式机器学习场景中由标签分布偏斜和数据稀缺性造成的异质性。FedCRL 通过在 - 跨领域强化学习的知识迁移:系统综述
通过对跨领域强化学习的了解和分类,以及对数据假设需求进行特征分析,本文全面系统地介绍了不同领域知识传递方法的研究,讨论了交叉领域知识传递的主要挑战以及未来研究方向。
- 借助 GPT 作为枢纽,减轻对资源匮乏的代码混合数据问题
通过使用 GPT 3.5 生成非洲语言中的代码切换句子,我们发现非拉丁脚本语言(如约鲁巴语)生成的句子质量明显较低,与高阿非卡语 - 英语成功率相比。因此,我们提出了一个框架来增加合成代码切换数据的多样性,并建议利用这项技术缓解低资源语言的 - SynthEval:一个用于详细评估表格化合数据的效用和隐私的框架
合成数据评估框架 SynthEval 旨在解决机器学习中的数据稀缺性、数据公平性和数据隐私性问题,并通过统计和机器学习技术全面评估数据的准确性和隐私保护完整性。
- 皮肤科人工智能中零样本概念生成的数据对齐
人类语义相关且医学领域精确的元标签在皮肤病学中的 AI 分类模型培训中十分稀缺,CLIP 模型可通过利用互联网上的大量图像 - 标题对进行零样本学习以解决数据缺乏的问题,并可以通过使用领域特定的图像 - 标题对对其进行微调来提高分类性能。