- 自洽基于推理的方面 - 情感四元预测与提取 - 分派策略
通过模型的自洽性推理和相应的情感四元组生成,SCRAP 显著提高了应对复杂推理任务的能力,并通过一致性投票正确预测四元组,从而在 ASQP 中获得了增强的可解释性和准确性。
- UrbanGPT:时空大型语言模型
基于大型语言模型和空间 - 时间依赖编码器的 UrbanGPT 在数据稀缺情况下实现了更全面、准确的空间 - 时间预测任务,显示了在零样本场景中建立大型语言模型的潜力。
- LexC-Gen:利用大型语言模型和双语词典为极低资源语言生成数据
利用双语词典从高资源语言的标记任务数据进行逐词翻译,可以解决低资源语言中的数据稀缺问题。然而,双语词典往往与任务数据的词汇重叠有限,导致翻译覆盖率和词典利用率较低。本文提出了一种称为词典条件生成(LexC-Gen)的方法,可以大规模生成低资 - 一个面向时空图传输学习的生成预训练框架
我们提出了一种新颖的生成式预训练框架 GPDiff,用于解决智能城市应用中由于数据稀缺导致的空间 - 时间图 (STG) 学习问题。通过将 STG 迁移学习重新视为生成式超网络的预训练,我们的方法能够在多个真实数据集上显著优于现有方法,对于 - 欺骗检测是否能更深入?欺骗推理的数据集、评估和基准
为了解决数据匮乏的问题,本文提出一种新的数据收集方法,使用 GPT-4 模拟嫌疑人和警官之间的角色扮演,并将传统的欺骗检测任务扩展到欺骗推理,以提供更多的证据。这个数据集还可以评估当前大型语言模型的复杂推理能力,并作为进一步研究的推理基准。
- 逐步推进零尾到尾语音翻译的极限
该论文介绍了一种名为 ZeroSwot 的零样本语音翻译方法,通过利用新颖的 CTC 压缩和最优传输技术,在没有配对的语音翻译数据的情况下,通过仅使用语音识别数据训练语音编码器,实现了语音到文本的直接翻译,展示了该方法在模态差异上的优越性和 - 朝着规模化的注重隐私的手语翻译
通过两阶段的框架提出了 SSVP-SLT,该框架应对了缺乏对齐字幕的手语数据的问题,并解决了基于大规模网络抓取的数据集存在的隐私风险,通过自监督视频预训练和面部模糊化来提高 SLT 性能和保护隐私。
- 基于词典的形态学感知数据增强技术用于机器翻译低资源语种
我们提出了一种依赖于词法 - 句法信息和双语词典以及少量种子并行数据来合成并行数据的策略,该方法在 14 种语言中(28 个英语 <->X 对)的实验中展示了性能的一致提升。
- QACP: 协助中文 Python 编程学习者的问题回答数据集
为了解决编程教育中的数据稀缺问题,本文提出了一个针对 Python 学习者的新的中文问答数据集,通过收集实际学生问题并根据不同维度进行分类,以提高在线编程教育的效果和质量,并为开发编程教学助手提供扎实的数据基础。同时,通过对各种处理和生成中 - 医学图像深度主动学习的收集函数研究
通过实验和分析证明了不确定性在黑素瘤检测任务中是有用的,并且证实了作者提出的 BALD 方法在平均性能上优于其他获取函数。然而,进一步的分析揭示了所有获得函数在阳性(癌症)样本上表现不佳,暗示了类别不平衡的利用,在真实世界环境中可能是关键的 - 利用大型语言模型进行自杀意念检测的社交感知合成数据生成
使用生成式人工智能模型,如 ChatGPT、Flan-T5 和 Llama,通过利用社会因素从心理学文献中提取的数据,创造了可用于自杀倾向检测的合成数据,结果表明这种方法在克服数据匮乏和数据表征多样性等领域主要挑战方面具有潜力。
- IndiText Boost: 低资源印度语言的文本增强
本研究主要关注文本增强在印度语言上的应用,使用了多种数据增强技术如 Easy Data Augmentation、Back Translation、Paraphrasing、LLMs 文本生成和 LLMs 文本扩展,并进行了二分类和多分类文 - 不平衡数据下的 COVID-19 胸部 X 射线分类的少样本学习:一项领域内外研究
通过应用 Siamese 神经网络和一系列技术,研究医学图像数据集对少样本学习和数据不平衡的影响,提出了解决数据稀缺和分布不平衡问题的方法,并对不同分类器在准确性上进行了评估和比较。
- ANIM-400K:一个大规模数据集用于视频自动配音的端到端系统
我们介绍了 Anim-400K,这是一个包含超过 425K 对齐的日语和英语动画视频片段的全面数据集,支持各种与视频相关的任务,包括自动配音、同声翻译、引导式视频摘要和类型 / 主题 / 风格分类。我们的数据集已公开发布供研究目的使用。
- 基礎模型的低資源視覺挑戰
该研究探索低资源图像任务的挑战,并介绍一种基于生成模型、局部区域编码和注意力机制的简单基准解决方案,该解决方案在低资源数据源上相比于常见的转移学习、数据增强和细粒度方法具有更好的基准效果。
- 基于注意力的个性化联邦学习
个性化联邦学习方法 (FedACS) 关注非独立同分布数据与数据稀缺问题,通过引入注意力机制提高具有相似数据分布的客户之间的协作,优化资源分配,表现出与众不同的优势,从而推动个性化联邦学习领域的进步。
- Atlantis: 实现稳定扩散的水下深度估计
通过使用准确的陆地深度数据生成真实感的水下图像,我们提出了一种新的流程,实现了水下深度估计模型在未见水下图像上取得了相当大的定量和定性改进,并帮助了依赖于深度图的水下图像恢复技术。
- 精选 LLM:LLM 与数据整理在超低数据环境中的表格增强的协同效应
通过结合大型语言模型的强大能力和强大的数据中心方法,利用数据增强方法提高低数据环境中机器学习的性能,从而为数据稀缺的领域和地区扩大机器学习的应用平台。
- 您是在与 ['xem'] 或者 ['x', 'em'] 交谈吗?关于标记化和处理 LLM 中的性别错误的研究
通过研究语料数据稀缺对子词分词及大型语言模型中单词表示的影响,以及 Byte-Pair Encoding (BPE) 分词器在缺少特定词汇时与新代词性别错误相关性,提出了保持词语功能结构的新方法 PTP 来改善大型语言模型中的新代词一致性, - MM推荐系统中的数据稀缺现象:一项调查研究
应对推荐系统中的数据稀缺问题,本文提出了多种策略,包括数据增强、自监督学习、迁移学习、广义学习和知识图谱利用,以缓解该挑战,并深入探讨了推荐系统领域中的挑战和未来发展方向,为研究人员和实践者提供宝贵的指导和启示,最终推动推荐系统领域的进展。