model training | BriefGPT - AI 论文速递

关键词model training

搜索结果 - 165

数据用于预测对智能能量存储中模型预测控制性能的影响
利用历史建筑能源数据，研究了简单的线性多层感知器模型在多建筑能源系统模拟中提供与先进模型相当的预测精度，并具有更高的数据效率和泛化能力。通过使用变点分析对训练数据进行筛选，同时提高了预测精度和数据效率。重用模型和使用三个月的数据训练的模型平
PDF4 months ago
自鉴换脸：基于形状不可知掩蔽自编码器的自监督人脸换脸
通过引入自重建训练方案，使用 Shape Agnostic Masked AutoEncoder（SAMAE）来解决传统方法的局限性，包括模型训练不稳定性、目标身份泄露问题和形状错位问题，以实现在保留身份和非身份属性的同时，超越其他基准方法
PDF5 months ago
利用小像素批量梯度下降算法优化物理设计流程中的预测性人工智能
我们提出了迷你像素批梯度下降（MPGD）算法，用于优化预测模型在芯片物理设计流程中的收敛速度和效果。实验证明，MPGD 在使用 CNN 或基于图的模型进行各种物理设计预测任务时带来了显著的益处。
PDF5 months ago
模拟过参数化
在这项研究中，我们介绍了一种名为模拟超参数化（SOP）的新范式。SOP 将紧凑模型的计算效率与超参数化模型的先进学习能力相结合，提出了一种独特的模型训练和推断方法。我们提出了一种与主流架构（包括 Transformer 模型）无缝集成的架构
PDF5 months ago
提高模型健壮性的自然语言纠错的澄清
通过 Clarify，用户仅需提供短文本描述来描述模型的连续失败模式，然后我们完全自动化地使用这些描述来改善训练过程，以重新加权训练数据或收集额外的有针对性的数据，并通过用户研究表明，非专业用户可以成功地通过 Clarify 描述模型的误解
PDF5 months ago
SmartFRZ：一种利用基于注意力的层冻结的高效训练框架
通过注意力引导的冻结层方法在模型训练中智能地选择适当的层进行冻结，以提高训练效率并在时间上取得显著加速，从而优于现有的层冻结方法。
PDF5 months ago
ELRT: 高效低秩训练用于紧凑卷积神经网络
通过识别适当的低秩格式和性能改进策略，本文提出了 ELRT，一种高准确性、高紧凑性、低秩 CNN 模型的高效低秩训练解决方案。
PDF6 months ago
关于训练和发展用于行为树生成的大型语言模型的研究
本文提出了一种基于大型语言模型（LLM）的创新方法，解决了自动生成复杂任务的行为树（BT）的挑战性任务。该方法利用 LLMs 的鲁棒表达和推理能力，设计了一个基于 LLM 的 BT 生成框架，通过数据合成、模型训练、应用开发和数据验证的全过
PDF6 months ago
标准化人体动作识别模型的训练过程：可调参数的综合评述
近年来，深度学习在可穿戴人体活动识别领域的应用引起了广泛关注，但对实验模型训练的标准化和一致性的关注不断增加，为了解决这个问题，本文对 WHAR 领域的深度学习研究进行了全面的回顾，并汇总了各项研究中使用的训练程序信息，结果表明现阶段存在训
PDF6 months ago
具有投影轨迹正则化的联邦学习
提出了一种新颖的联邦学习框架（FedPTR），通过采用轨迹正则化来解决分布式学习中数据异质性问题，利用模型训练轨迹中的全局信息进行本地训练规范化，经过理论分析和实验证明其快速收敛并在异质数据分布下具有良好效果。
PDF6 months ago
MM提供模型作为一项服务的联邦学习：联合训练与推断优化
通过联邦学习对模型训练和推理进行联合优化，以最大化客户端的推理性能。
PDF6 months ago
AAAI模型归因的鲁棒性再思考
机器学习模型的可靠性和可信度要求其决策具有可解释性，尤其在安全关键应用中，模型预测和解释（作为特征归因）对微小且不可察觉的输入扰动要具有鲁棒性。最近的研究表明许多归因方法是脆弱的，并提出了改进这些方法或模型训练的方法。我们观察到脆弱归因的两
PDF7 months ago
AAAI应对标签噪声的重新分组中值损失
RML 是一种用于降低选择噪声样本概率和校正噪声样本损失的方法，通过稳定的均值损失和健壮的中值损失组合以获得噪声样本的鲁棒损失估计，并提出了新的样本选择策略和基于 RML 的半监督方法来进一步提高模型对标签噪声的性能。
PDF7 months ago
训练 'N' 交易：参数市场基础
通过交易模型的组成部分，即权重集，作为市场商品，提出建立参数市场的基本问题，研究交换参数的策略，并提供代理商货币化参数的方法，揭示通过市场使用参数可以在竞争环境中互相获益，建议参数市场的概念可能有助于未来改进大规模模型训练。
PDF7 months ago
nerblackbox: Python 中的高级命名实体识别库
我们提出了 nerblackbox，这是一个用于简化使用最先进的基于 transformer 的模型进行命名实体识别的 Python 库。它提供了简单易用但功能强大的方法，用于从各种来源访问数据和模型，进行完全自动化的模型训练和评估，以及灵
PDF7 months ago
自动驾驶端到端中速度和延迟的应对
行为克隆方法在端到端驾驶中的应用，通过收集专家驾驶数据集，模型学习猜测专家在不同情况下会做出什么行为，并表现为低级或中级指令和轨迹。研究发现驾驶速度的差异和延迟会影响模型的性能，同时提出了改变目标标签以减轻延迟影响的解决方法。
PDF7 months ago
FedTruth: 拜占庭容错和后门抵制的联邦学习框架
FedTruth 是一种针对 FL 中的模型污染问题的鲁棒防御方法，通过动态聚合权重估计全局模型更新，考虑了所有良性客户的贡献，并在实证研究中证明了其对拜占庭攻击和后门攻击的毒化更新的影响有很好的缓解效果。
PDF8 months ago
DAMEX：面向混合数据集的数据集感知专家混合模型用于可视化理解
构建一个通用检测器的关键问题是如何在大量混合数据集上最有效地训练模型？答案在于学习数据集特定的特征并将它们的知识组合在一个单一模型中。我们提出了一种解决方案，即基于数据集的专家混合模型 (DAMEX)，通过训练专家成为数据集的 “专家”，学
PDF8 months ago
不要让您的 LLM 成为一个评估基准作弊者
大型语言模型的评估常常会受到不适当使用评估基准和误导性解读评估结果等问题的影响。本研究通过大量实验发现，评估基准泄漏会极大地提高评估结果，从而导致对模型性能的不可靠评估。最后，为大型语言模型的开发者和基准维护者提出了一些建议。
PDF8 months ago
基于变分自编码器的联邦主题模型与模型修剪
提出了一种以变分自编码器为基础的联邦主题模型修剪方法，可在保护模型隐私的同时大大加速模型训练速度。
PDF8 months ago