training procedures | BriefGPT

关键词training procedures

搜索结果 - 13

多任务神经网络共享与任务特定参数的轮替训练
该论文介绍了一种用于训练难参数共享的多任务神经网络的新型交替训练程序，该方法通过交替更新共享权重和任务特定权重，利用模型的多头架构，从而降低计算成本，增强训练规范化，并提高泛化性能。实证实验表明，该交替训练程序延迟过拟合，提高了预测准确性，
PDF6 months ago
回归基础：提升密集编码器领域外检索的简单方法
通过改进训练过程，使用参数高效的方法和适当的负样本，可以提高密集编码器在训练时的泛化能力，从而在单一数据集上训练时实现有效的泛化。
PDF8 months ago
现实世界图像描述和场景识别的全面分析
图像字幕生成是一项计算机视觉任务，涉及为图像生成自然语言描述，本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。
PDFa year ago
验证神经模型训练数据的工具
为了评估神经模型的能力和风险，我们引入了一种名为 “Proof-of-Training-Data” 的概念，该概念包括了一些协议，使模型训练者能够向验证者证明所产生的一组模型权重的训练数据。我们研究了与大部分当前的大型模型训练程序兼容的 P
PDFa year ago
生成预训练变压器：启用技术、潜在应用、新兴挑战和未来方向的全面评估
本文综述了生成式预训练转换模型，包括它的架构、工作流程、训练程序、相关技术以及对各种应用的影响，并探讨了潜在的挑战和解决方案。
PDFa year ago
ACL适应文本分类任务中性能与效率的权衡
本文研究了不同的训练方法，使用预训练语言模型来进行文本分类。研究发现，在训练大型语言模型时，虽然标准微调和提示可以很好地运作，但是还有更有效的替代方法可以降低计算或数据成本。有趣的是，发现提示结合知识蒸馏可以同时降低计算和数据成本。
PDF2 years ago
测量强化学习中的干预鲁棒性
本文提出了干预鲁棒性的概念，并开发了一种可量化的方法来测量它。通过对八个算法和三种 Atari 环境下的干预和状态进行计算，发现干预鲁棒性因算法类型和训练次数而异，高性能不一定意味着高干预鲁棒性。
PDF2 years ago
HerBERT：基于 Transformer 的波兰语预训练语言模型的高效实现
本文介绍了第一项针对波兰语的去构建 BERT 的训练过程的消融研究，其中探讨了跨语言训练和其他因素，最终实现了一个波兰语 BERT 模型 HerBERT，并在多个下游任务中达到了最佳结果。
PDF3 years ago
ICML损失面体连接简单形式和快速集成
该研究发现在多层网络中存在形成低误差的多维流形的模连接简单复合体，可用于构建高效的简单复合体来进行快速集成，具有优于独立训练深层集成的准确性、校准性和对数据集转换稳健性的特点。
PDF3 years ago
ICMLMC Dropout 行为注记
本研究探讨了 Monte-Carlo dropout 的行为特性，并发现了一些需要注意的有趣属性，以供不确定性估计时谨慎考虑和测试。
PDF4 years ago
修复训练 - 测试分辨率不一致：FixEfficientNet
本篇论文通过对 EfficientNet 图像分类器的性能进行了详细分析，提出了一种修复训练集和测试集图像不一致问题的新训练方法 FixEfficientNet，并以 ImageNet 数据集进行了测试，证明了 FixEfficientNe
PDF4 years ago
图形扰动的可验证鲁棒性
本文提出了一种针对图神经网络和标签 / 特征传播模型的验证可证（非）鲁棒性的方法，并通过 PageRank 和马尔可夫决策过程的相关性来计算证书。我们同时研究了一种鲁棒性训练程序，以增加可证明鲁棒性节点的数量，同时保持或提高了干净的预测准确
PDF5 years ago
ACL利用挖掘规则作为弱监督实现神经方面与观点术语提取
通过算法自动挖掘提取规则，应用于标注大量辅助数据，以及研究训练程序，使得神经网络模型在同时学习自动标注和人工精确标注数据的情况下，超越或与现有先进技术相当的表现。
PDF5 years ago