- 一致性扩散模型的可证明统计速率
本文提出了一种统计理论,将一致性模型的训练视为分布差异最小化问题,并通过使用 Wasserstein 距离,导出了与传统扩散模型相匹配的一致性模型的统计估计速率,同时揭示了一致性模型通过蒸馏和隔离方法进行训练的优势。
- 应用有限资源的高质量辐射场调节 3D 图形引擎
通过在有限预算内进行训练和渲染,提出了一种改进的 3D 高斯粉碎(3DGS)模型,实现了较快速、高质量的新视图合成,并减少了模型大小和训练时间。
- DEM:混合数据分布训练的分布编辑模型
提出了一种简单和高效的方法,使用基本的逐元素向量操作将每个数据源上单独训练的模型与基本模型相结合,从而更好地优化数据源,得到一种名为分布编辑模型(DEM)的模型,与标准数据混合相比廉价 11 倍,并在各种基准测试中优于强基准,对大小为 3B - 通过错误的合成数据应用 RL 技术提高数理推理任务效率八倍
通过经验研究,我们发现利用模型生成的合成数据进行训练可以提高数学推理的性能,但是通过添加负回答可以进一步增强效果,并去除其中的虚假相关性。
- 研究感应阵预测模型中的数据使用
本研究通过多个实验证明了在有限或昂贵的开发数据情况下,允许训练集和校准集之间的示例重叠是一种高效的方式,从而提供了关于使用 ICPs 的价值的结论。
- Job-SDF:职业技能需求预测和基准的多粒度数据集
在迅速发展的就业市场中,技能需求预测对于政策制定者和企业来说至关重要,因为它使其能够预测和适应变化,确保劳动力技能与市场需求相吻合,从而提高生产力和竞争力。然而,缺乏全面的数据集对于研究和这一领域的进展存在重大挑战。为了填补这一差距,我们提 - LiLiuM: eBay 的大型语言模型用于电子商务
我们介绍了由 LiLiuM 系列构成的大型语言模型(LLMs):1B、7B 和 13B 参数模型,这些模型完全由 eBay 内部开发,以适应 eBay 在电子商务领域的特定需求,并实现了对模型许可、数据、词汇表和架构的全部控制,使得它们可以 - RetinaGS:使用十亿级三维高斯函数进行密集场景渲染的可扩展训练
本研究探索了在大规模高分辨率数据集上训练高参数 3D 高斯喷溅(3DGS)模型的可能性,并设计了一种称为 RetinaGS 的通用模型并行训练方法,通过使用适当的渲染方程式可适用于任何场景和任意高斯图元分布,能够探索以前难于探索的 3DGS - 4M-21:面向数十项任务和模态的任意到任意视觉模型
通过对多个多媒体形式进行联合训练和扩展,我们成功地提升了多模态模型的能力,并展示了训练一个模型以解决更多任务 / 多模态性的可能性,而不损失性能,从而实现更精细化和可控的多模态生成能力。
- Real3D:用真实世界图像扩展大型重建模型
该研究介绍了 Real3D,使用单视图真实世界图像训练的第一个大型重建模型系统,通过引入自主训练框架和无监督的损失函数,同时利用现有的合成数据和多样化的单视图真实图像,提高了性能和扩大了图像数据的规模,实验结果表明 Real3D 在不同的评 - Flextron: 多合一弹性大语言模型
Flextron 是一种网络架构和后训练模型优化框架,用于灵活的模型部署,并通过样本高效的训练方法和路由算法将现有的 LLM 转换为 Flextron 模型,实现卓越的性能,远优于其他弹性网络和多个端到端训练变体,并且仅需要进行一轮预训练消 - 优化眼科医生:通过稀疏生成器在初始化期间找到图像先验
介绍了一种用于修剪和训练深度图像生成网络的最佳眼科医生 (Optimal Eye Surgeon, OES) 框架,使用自适应修剪网络的方法,实现低频图像组件和去噪图像的生成。
- PATIENT-Ψ: 使用大型语言模型为训练心理健康专业人员模拟患者
我们提出了一种新颖的患者模拟框架 PATIENT-Ψ,用于认知行为疗法 (CBT) 培训。通过角色扮演与 PATIENT-Ψ 进行治疗会话,我们设计了一个交互式培训方案,PATIENT-Ψ-TRAINER,让心理健康实习生练习 CBT 的关 - 快速且准确地训练和抽样受限波尔兹曼机
通过凸优化过程将数据集的主要方向整合到低秩 RBM 中,从而通过静态蒙特卡罗过程实现平衡分布的高效采样,成功训练 RBM 来捕捉之前方法失败的高度结构化数据集中的全部多样性,并提出了一种新的采样方法 - 平行轨迹调整,使得能够比之前的 MC - 神经网络超参数化区域之外的新型核模型和精确表示器理论
这篇论文提出了两种适用于任意宽度、深度和拓扑结构的神经网络的模型及其训练方法,假设神经激活仅存在有限能量,并提出了一种基于矩阵核的神经网络的新颖表达器理论。其中,第一种模型是精确的且全局的模型,将神经网络看作是再生核 Banach 空间中的 - DiskGNN:为离核 GNN 训练提供 I/O 效率和模型准确性的桥接
研究使用离线采样的 DiskGNN 系统,在训练大规模图神经网络时达到高的 I/O 效率和快速训练,同时保持模型的准确性。与其他现有系统相比,DiskGNN 能够将性能提高 8 倍以上,并且具有相同的模型精确度。
- 绿色特斯林在特斯林机框架中的重新定义效率
Green Tsetlin 是一个易于使用的 Tsetlin Machine 框架,旨在降低复杂性并提供一个适用于经验丰富的从业者和初学者的可生产的 TM 实现。
- 求解带有神经网络的偏微分方程过程中的损失跃迁
通过研究不同损失函数对神经网络解决偏微分方程的训练的影响,我们发现从数据损失到模型损失切换时会出现稳定的损失跃变现象, 进一步实验证明这一现象源于神经网络在不同损失函数下的频率偏好,这为研究神经网络在解决偏微分方程时的内在机制提供了有价值的 - LLaVA 发现免费午餐:教授人类行为提高 LLM 的内容理解能力
训练语言模型以预测接收者行为,可以改善其对内容的理解能力。通过训练语言模型预测接收者的喜欢和评论行为,可以在多种内容理解任务上显著提高性能。
- 嘈杂信道的力量:无监督端到端任务导向对话的 LLMs
通过使用未标注的数据和模式定义,我们开发了一种新方法来构建一个完全无监督的面向任务的对话系统,该系统可以在迭代中通过期望最大化方法逐渐改进伪标签,并利用这些标签来训练一个端到端的对话代理,其在 MultiWOZ 基准测试上的成功率超过了强大