- 增强的物体检测:2024 年 V3Det 挑战赛上关于广泛词汇物体检测轨道的研究
我们在 V3Det 数据集上对监督式大规模词汇视觉检测任务进行了研究,通过调整网络结构、改变损失函数和设计训练策略等一系列改进,我们的模型在 V3Det Challenge 2024 的大规模目标检测 (Supervised) 任务和 Op - 关于 RAG 遇见 LLM 的调研:走向检索增强的大型语言模型
检视了检索增强型大型语言模型(RA-LLMs)的现有研究,涵盖体系结构、训练策略和应用三个主要技术视角,并介绍了此类模型的基础知识和最新进展,以及它们为大型语言模型(LLMs)带来的实际意义和应用领域的挑战和能力,最后讨论了当前的局限性和未 - 稳定 MoFusion:面向稳健高效的基于扩散的运动生成框架
通过对网络架构、训练策略和推理过程的深入分析,我们根据研究结果为高质量的人体运动生成定制了每个组件,最终提出了稳定的人体运动生成框架 StableMoFusion,并通过大量实验证明其在与当前最先进方法的比较中表现出色。
- 穿越博斯普鲁斯海峡:通过低资源语言适应和基准测试推进土耳其大型语言模型
通过研究低资源语言,对训练策略、模型选择、数据可用性和知识传递等问题进行深入分析,以进一步推进低资源语境下大型语言模型 (LLMs) 的发展,使自然语言处理 (NLP) 的益处更广泛可及。
- 为改写检索调整双编码图像 - 语言模型
通过改进训练策略,对双编码器模型进行优化,提高了语义相似性的检索结果,同时保持了零样本分类和检索准确性。
- 缩放 (下降) CLIP: 数据、架构和训练策略的全面分析
研究通过受限的计算预算缩小规模的对比性语言 - 图像预训练(CLIP)的性能,分析数据、架构和训练策略三个维度,证明高质量训练数据的重要性,指出较小的数据集在一定计算限制下优于较大数据集,并提供选择基于 CNN 架构或 ViT 架构进行 C - CodeFort:代码生成模型的强化训练
用 CodeFort 框架提高代码生成模型的鲁棒性,通过丰富训练数据并采用多种训练策略,包括混合数据增强、批量数据增强、对抗性 Logits 对齐和对比学习,将基准 CodeGen 模型的平均鲁棒通过率从 14.79% 提高到 21.74% - 术前護理中大型語言模型的適當劑量
术后风险预测对于有效的围手术期护理管理和规划具有重要意义。本研究旨在评估临床大型语言模型(LLMs)是否能够使用各种训练策略对临床文本进行术后风险预测。使用 Barnes Jewish Hospital(BJH)系统 2018 年至 202 - 基因引导的 GFlowNets:提升实用分子优化基准
本篇论文提出了一种新的 GFlowNet 变体,遗传引导 GFlowNet (Genetic GFN),通过将迭代遗传搜索集成到 GFlowNet 中,有效地指导 GFlowNet 到高回报区域,解决全局过度探索导致训练效率低下和探索有限区 - 大规模语言模型推动图表示学习的进展:技术综述
利用大型语言模型和图表示学的集成标志着复杂数据结构分析的重大进展,通过利用 LLM 的先进语言能力来改善图模型的上下文理解和适应性,从而拓宽了 GRL 的范围和潜力。本研究通过提出一种新颖的分类法,深入分析了 LLM 与 GRL 之间的核心 - 多集合免疫接种:跨多个挑战集评估模型的稳健性
探讨语言模型对输入扰动的敏感性以及通过不同训练策略来提高模型性能和鲁棒性的方法,通过在 Tabular-NLI 任务中的实例验证了该模型可对抗不同的扰动而不降低准确性。
- FATE: 基于 Transformer 的特征无关编码器用于学习流式细胞仪数据中的广义嵌入空间
通过学习一种通用的嵌入空间,我们提出了一种新型架构,能够直接处理具有不同特征集合的数据,从而实现对异构特征空间数据的共享潜在特征空间的学习。该模型的优势在于能够在不一致的特征空间中无缝操作,特别适用于数据稀缺的情况,例如急性髓性白血病流式细 - 跨越多语言数学推理中的语言障碍:洞察与观察
本文首次探索和训练强大的多语种数学推理语言学习模型,通过利用翻译构建了首个多语种数学推理指令数据集 MGSM8KInstruct,提出不同的训练策略,构建了名为 MathOctopus 的强大的多语种数学推理模型,其在少样本情况下表现优于传 - 医学影像学中的基础模型:综合调查与未来视野
通过提供医学成像领域基础模型的综合概述,本调查旨在帮助研究人员了解基础模型的基本概念、培训策略、计算要求以及在医学图像分析方面的机会、应用和未来发展方向。
- 端到端语音到文本翻译中一致性正则化的实证研究
通过经验研究,本文针对端到端语音转文本翻译提出了两种训练策略:SimRegCR 和 SimZeroCR,以实现一致性正则化的最新性能。在 MuST-C 基准测试中,在大多数翻译方向上,我们的方法取得了最先进的性能。分析证明,由内部一致性带来 - 自我监督表示学习的视觉地理定位
利用自监督学习方法提升视觉地理定位技术性能和训练效率,通过统合 SimCLR、MoCov2、BYOL、SimSiam、Barlow Twins 和 VICReg 等多种自监督学习方法,研究训练策略和参数设置对视觉地理定位任务的适应性
- 大型语言模型综述
本篇综述论文全面分析了大型语言模型的架构及其分类、训练策略、训练数据集和性能评估,并讨论了未来的研究方向,最后总结了大型语言模型研究的重要发现和关键的架构和训练策略。
- 如何训练一款基于多模态输入的 GPT4 风格语言模型?
探讨大型语言模型的结构、训练数据、训练策略和不同指令对模型的影响,并且创建了一个既包括图像任务又包括视频任务的全面评估集,最终呈现了 Lynx,该模型在保持最佳多模生成能力的同时,表现出最准确的多模态理解能力。
- KDD联邦式少样本学习
本文介绍了一种新颖的问题:在联合学习场景下,如何面对数据有限的客户端。为了解决数据分布和本地数据不足等问题,提出了联合少样本学习框架,并进行了大量实验,证明了该框架的有效性。
- 使用合成字幕和迁移学习训练的音频字幕的 Whisper 变形器
本技术报告介绍了我们在音频字幕领域的研究,重点关注了预训练语音转文字的 Whisper 模型和合成字幕的预训练使用。我们探讨了我们的训练过程,并呈现了我们实验的结果,包括模型大小变化、数据集混合和其他超参数。我们的发现证明了不同训练策略对音