training | BriefGPT - AI 论文速递

关键词training

搜索结果 - 381

年龄对决策的影响，漂移扩散模型
训练可以改善人类决策能力，特定年龄组参与者在随机点动（RDM）任务的训练后，处理和决策速度提高，但准确性受到决策边界和阈值的影响。老年组在训练前后拥有更高的决策边界和较低的决策速率，训练后两组参数差异减小。
PDF7 months ago
通过软挖掘加速神经场训练
我们通过有效选择采样位置的方法来加速神经场训练，通过软采样技术基于重要性采样来改进收敛速度和训练质量，我们使用 Langevin Monte-Carlo 采样来实现这个想法，以实现更高收敛速度，研究代码和相关资源可以在该 https URL
PDF7 months ago
HUGS: 人类高斯斑点
通过 3D 高斯模糊表示 animatable 的人物及其所在的场景，以实现对动画人物的新姿势合成和人物和场景的新视图合成，并在提高渲染质量的同时，训练速度更快。
PDF7 months ago
ET3D：通过多视角蒸馏实现高效的文本到三维生成
通过使用大型预训练的文本到图像扩散模型生成的图像作为监督信号，我们提出了一种高效的文本到 3D 生成方法，在消费级显卡上仅需约 8 毫秒即可根据文本提示生成一个 3D 资产，并且不需要 3D 训练数据，通过提炼预训练图像扩散模型为高效文本到
PDF7 months ago
基于灵敏度的残差和前馈神经网络层插入
我们提出了一种系统的方法，在训练过程中插入新层，从而消除了在训练前选择固定网络大小的需要。我们的技术借鉴了约束优化技术，并且基于目标函数对虚拟参数的一阶敏感性信息，此虚拟参数代表了如果插入额外层将会提供的信息。通过数值实验，我们的敏感性层插
PDF7 months ago
分布重新加权和选举悖论
我们探讨了一种特定类型的分布偏移，称为领域专门知识，其中训练仅限于所有可能标签的子集。我们展示了标准的分布偏移方法如何在不同领域专门知识之间引发矛盾的争议，并证明了因果推断的标准调整也会导致同样的矛盾。我们证明了这些悖论的特征与选民偏好集之
PDF8 months ago
CAFE：地理分布式数据中心中的碳感知联邦学习
通过提出一个名为 CAFE 的框架，同时优化学习性能和减少环境影响，本研究重点探讨了在各地数据中心分布的条件下训练大规模人工智能模型所面临的挑战。
PDF8 months ago
基于自蒸馏的微调方法拓展数据有限的扩散模型的表达能力
我们提出了自我蒸馏 Fine-Tuning 扩散模型（SDFT），通过利用在大型源数据集上预训练的扩散模型的多样特征，从源模型中提取出更一般的特征（形状、颜色等），少量的领域特定特征（纹理、细节等），以在目标数据集上进行知识传递且不干扰训练
PDF8 months ago
拓展你的极限：基于实际场景的强化学习用于机器人运动的持续改进
基于 APRL 的深度强化学习 (RL) 框架，使四足机器人能够在现实世界中通过高效的训练学会行走，并且不断改进适应各种挑战性情况和动力学的变化。
PDF8 months ago
带有正则化轴突的玻尔兹曼机的通用表征
通过对玻尔兹曼机的连接进行正则化，我们证明了正则化玻尔兹曼机能够表示任意分布，并且控制能量局部极小值的数量，从而实现了简化的采样和训练，同时能够存储指数级的任意相关可见模式，并与稠密关联记忆网络相关联。
PDF8 months ago
基于采样的图神经网络的局部图极限视角
我们提出了一种用于训练大型输入图的图神经网络（GNNs）的理论框架，通过在小型固定大小的采样子图上进行训练。在渐进理论的基础上，我们证明了在渐进意义下，通过在大型输入图的小样本上训练基于采样的 GNNs 所学习到的参数在 ε- 邻域内与在整
PDF9 months ago
利用多线性算子对预训练模型进行高效训练的复用
我们提出了一种方法，通过线性关联目标模型的每个权重与预训练模型的所有权重，进一步增强加速能力，从而节省 76％的计算成本，超过 bert2BERT 12.0％和 LiGO 20.7％的性能。
PDF9 months ago
KAKURENBO：深度神经网络训练中的自适应样本隐藏
本文提出了一种方法，通过在训练深度神经网络时隐藏最不重要的样本，从而提高效率，即减少训练成本。通过在训练过程中使用损失和预测置信度的信息，我们根据样本对整体学习过程的贡献动态地在给定的 epoch 中找到要排除的样本，而不会显著降低准确性。
PDF9 months ago
TRANSOM: 一个高效的容错系统用于训练 LLMs
该研究提出了一种名为 TRANSOM 的新型容错大模型训练系统，包括 TOL 自动容错与恢复机制、TEE 多维度度量自动异常检测系统和 TCE 异步访问容错与恢复技术，初步结果表明 TRANSOM 显著提高了集群上大规模语言模型训练的效率。
PDF9 months ago
学习交互式实景仿真器
通过生成模型学习一个真实世界互动的通用模拟器 (UniSim)，以模拟高级指令和低级控制的可视结果，并用于训练高级视觉 - 语言规划器和低级增强学习策略，实现纯粹从学习的真实世界模拟器中的零样本现实世界转移。
PDF9 months ago
LightSeq：面向长上下文 Transformer 的分布式训练的序列级并行
LightSeq 是一种新的方法，用于长上下文大语言模型 (LLMs) 的训练，在流行的 LLMs 上比 Megatron-LM 通信量少且重叠计算，通过新的梯度检查点方案实现高效的注意力计算。
PDF9 months ago
合作图神经网络
图神经网络是基于迭代计算的节点表示的图机器学习流行架构之一；本文提出了一个新的框架，用于训练图神经网络，其中每个节点可以选择自己的策略，从而更灵活地探索图拓扑结构并进行学习。
PDF9 months ago
通过草堆中的靓丽针使图像生成模型更上一层楼
通过在网络规模的图像 - 文本对上训练文本到图像模型，可以从文本生成广泛的视觉概念，但是这些经过预训练的模型在生成高度美学化图像方面往往面临挑战，因此需要进行美学对齐的预训练后处理。本文中，我们提出了质量微调方法，以有效地指导经过预训练的模
PDF9 months ago
使用场景先验的通用神经场进行三维重建
在高保真度 3D 场景重建方面，神经场的最新进展已经有了实质性的提升。然而，大多数现有方法为每个独立场景训练单独的神经网络，这不可扩展、低效且对有限视角下的结果不理想。本研究引入了训练可推广的神经场，将场景先验结合其中，从而更好地解决上述问
PDF9 months ago
LLMCarbon：大型语言模型的端到端碳足迹建模
大型语言模型的碳足迹估算对于新的神经网络的训练前有重要意义，现有研究已报告了训练过程中的碳足迹，然而现有工具在估算碳足迹时存在一些严重限制，为填补这些空白，我们引入了 LLMCarbon，一个端到端的碳足迹预测模型，可以显著提高大型语言模型
PDF9 months ago