training strategy | BriefGPT

关键词training strategy

搜索结果 - 75

OpenBA：一个从零开始的开源 15B 双向语言模型预训练
大型语言模型（LLM）在多个自然语言处理任务上展现出卓越性能。本报告介绍了 OpenBA，这是一个开源的 150 亿双语不对称 seq2seq 模型，为中文导向的开源模型社区做出了贡献。我们通过有效且高效的技术增强了 OpenBA，并采用三
PDF10 months ago
分裂增强神经网络
通过一种创新的训练策略，称为 Split-Boost，提高了前馈神经网络的性能，自动引入正则化行为，减少超参数数量和调优时间，在医疗保险设计问题中得到了验证。
PDF10 months ago
追踪中使用负样本进行高效训练
通过使用分布式头和目标指示令牌，以及平衡负样本和正样本的训练过程，本研究介绍了一种更高效的训练策略来减轻过拟合并降低计算要求，同时在性能上优于现有方法。
PDF10 months ago
StereoFlowGAN: 无监督领域适应下的立体与光流联合训练
我们介绍了一种新的训练策略，用于立体匹配和光流估计，该策略利用合成和真实图像域之间的图像翻译。我们的方法使得训练模型在真实图像情景中表现出色，同时仅依赖于合成图像的真实信息。为了促进任务无关的域适应和任务特定组件的训练，我们引入了一个处理左
PDF10 months ago
不变训练 2D-3D 联合硬样本用于少样本点云识别
我们通过使用传统的 3D 模型和经过良好训练的 2D 模型的联合预测来解决 3D 物体的少样本点云识别中的数据稀缺挑战。令人惊讶的是，尽管这种集成似乎没什么特别的，但近期的 2D-3D 模型中很少被证明有效。我们发现关键在于对 '' 联合难
PDFa year ago
FootGPT：基于简单环境的大型语言模型开发实验
通过使用低阶适应的方法，我们在基于意大利足球联赛前十轮的球队统计数据上进行了一个十亿参数规模的通用因果语言模型的微调，结果观察到在开发特定目的的语言模型时，数据集内容和训练策略比起神经网络参数数量、训练时长或数据集大小更为重要。
PDFa year ago
利用内存增强适配器的可插拔神经机器翻译模型
本研究提出了一种记忆增强适配器模型，利用用户提供的样本控制预训练神经机器翻译模型的生成行为，减少针对不同用户需求独立训练的成本和数据稀缺性挑战，其训练策略可以有效地降低模型与记忆之间的虚假依赖，并在实验中表现出优异的效果。
PDFa year ago
ViViT 训练优化：行动识别的时间和内存减少
本文提出了一种训练策略，可以降低视频 transformers 的训练时间和内存消耗，通过对 ViViT 的编码器变体进行修正实现冻结空间 transformer 的效果并提高准确率，最终在 6 个基准测试中减少了 50％的训练成本和内存消
PDFa year ago
前向传递中差分隐私聚合实现的图像合成
DPFA 是一种有效的隐私保护生成模型，通过前向聚合的方式代替后向加噪来减少信息损失和敏感性，并通过不对称训练方法解决了不当批次大小对合成数据效用的影响。
PDFa year ago
MoMo: 一种用于文本、图像和多模态表示的共享编码器模型
本文提出了一种自主监督的共享编码器模型，在数据、内存和运行时效率高的同时，在几个视觉、语言和多模式基准测试中取得了强大结果。
PDFa year ago
CVPR基于 LiDAR 的目标检测中的课程目标操作
该研究提出了一种基于课程学习的曲线物体操作（COM）框架，结合 COM 损失和 COM 增益策略来动态预测物体级难度，提高模型性能和泛化能力。
PDFa year ago
CVPR极低光照条件下的人体姿态估计
本文研究了极低光照下的人体姿态估计，通过自主构建专用相机系统并建立包含准确姿态数据的新数据集，并使用新模型和新训练策略，该系统在真实极低光照环境下成功实现了姿态估计。
PDFa year ago
从黑盒模型中学习私有模型：引导原始潜变量
该论文提出了一种新的 Back-Propagated Black-Box Adaptation（BPBA）方法，通过该方法用户可以更好地训练其私有模型，从而使得基础 / 源模型的使用更加轻松，并且防止泄露和误用，并提出了一种新的训练策略 B
PDFa year ago
ICLR基于神经网络的序列数据分类规则学习
本文提出了一种新颖的可微分全可解释性方法，用于发现规则为基础的二元分类的本地和全局模式，并在开源肽数据集上展示了方法的有效性和实用性。
PDFa year ago
EMNLPFRSUM：提高事实鲁棒性以实现忠实的抽象摘要
本文从事 Seq2Seq 模型中摘要不忠实的问题，并从事实鲁棒性的角度对现有系统的忠实度进行研究。针对当前存在的问题，作者提出了一种名为 FRSUM 的新的训练策略，能够在生成文本时防御显式和隐式的对抗信息，从而提高 Seq2Seq 模型的
PDF2 years ago
学习紧凑的语音表示以实现低资源语言的高质量神经语音合成
本文提出了一种用于提高低资源的 TTS 系统性能的方法，其利用紧凑的语音表示并利用 Multi-Stage Multi-Codebook (MSMC) VQ-GAN 学习 MSMCR 表示并解码成波形，并使用多阶段预测器从文本中预测 MSM
PDF2 years ago
ACL邻域感知最优传输学习在低资源仇恨言论检测中的应用
提出了一种新的训练策略，利用基于邻域的框架和 Optimal Transport，以改善对低资源仇恨言论语料库的系统性能，实现相对距离建模的灵活性。
PDF2 years ago
ICLRSTaSy: 基于得分的表格数据合成
本文提出了一种名为 STaSy 的新模型和它基于评分的生成模型训练策略，在实验中，该模型在生成任务中较现有方法表现更好，提升了样本质量和多样性。
PDF2 years ago
多路注意力交互建模
介绍了 Interaction Modeling with Multiplex Attention (IMMA) 方法，该方法能够准确地建模多智能体系统中代理之间的多种类型的相互作用，并利用渐进式层训练策略训练这种 d 听建筑，显示该方法在
PDF2 years ago
ECCV通过 CLIP 引导的分组优化实现独特的图像字幕
本研究聚焦于生成能够区分目标图像和其他相似图像的独特描述，引入了一系列使用大规模视觉 - 语言预训练模型 CLIP 量化独特性的度量标准，并提出了一种简单有效的训练策略，通过比较目标图像与相似图像组并优化组嵌入差距来提高字幕生成模型的独特性
PDF2 years ago