training algorithm | BriefGPT

关键词training algorithm

搜索结果 - 49

利用搜索引擎增强的对话响应生成及廉价监督查询生产
通过使用查询产生器从动态信息检索引擎检索知识，为聊天机器人生成响应的对话模型中，基于廉价噪声监督的训练算法用于产生查询，调整查询生成器而无需人为标注黄金查询，取得了不错的检索效果，大大提高了聊天机器人响应的质量。
PDFa year ago
分布式内存系统上的可扩展图卷积网络训练
我们提出了一种高度并行的算法，用于效放缩大处理器计数的图卷积网络的训练。我们利用图的顶点划分，在处理器之间使用非阻塞点对点通信操作以获得更好的可伸缩性。我们基于超图划分模型提出一种稀疏矩阵划分方案，展示了所提出算法在真实世界的图数据集上比替
PDF2 years ago
ICML基于同伦的神经常微分方程训练，用于准确的动态探索
本研究提出一种利用混沌和数学优化的训练算法，可有效解决 NeuralODEs 实际应用中训练时间长，效果不佳的问题。与传统训练方法相比，该算法在不更改模型架构的情况下，可大幅降低误差值，并能够准确地捕捉真实的长期行为并正确地向未来外推。
PDF2 years ago
ICML提高泛化性能的特征提取器后训练
该研究开发了一种训练算法：后特征提取器，该算法可更新已经训练好的深度模型的特征提取器部分，以搜索更平的最小值，通过对高层参数空间的参数扰动进行训练，提高了模型在 CIFAR-10、CIFAR-100 和 SVHN 数据集上的表现。
PDF2 years ago
使用保留音色的音高增强提高 FastPitch 的音高可控性
本文介绍了针对最近开发的 FastPitch 说话人的音调控制模型，其生成的语音质量对平均音高偏离较大的音高值下降的问题，并提出了两种算法来改善 FastPitch 的鲁棒性，一是保留音色的变调算法，二是使用不同音高范围的语料库定义 Fas
PDF2 years ago
ICLR低维数据存在下的变分自编码器：优化空间及内在偏向
本文研究了变分自编码器的训练问题，提出了一种二阶段的训练算法，证明了该算法可以在低维流形上训练，并且得到的生成器可以恰好支持原本的低维流形，且是由于训练算法的隐式偏差而非 VAE 损失本身的原因。
PDF3 years ago
MMMISO 下行系统的鲁棒波束成形学习
本研究提出了一种基于深度神经网络的训练算法，能够在多用户系统中，仅基于部分自适应通道状态信息的不完全观测，提供有效鲁棒的波束成形方案。
PDF3 years ago
ACLEarlyBERT: 早鸟抽奖票优化 BERT 训练
本篇论文提出了 EarlyBERT，这是一种通用的计算高效的训练算法，可用于大规模语言模型的预训练和微调，通过对自注意和全连接子层进行精简，第一次在 BERT 训练的早期阶段中发现了结构优质的 winning tickets，实验结果表明，
PDF4 years ago
AAAI使用近似梯度下降学习图神经网络
该论文提供了第一个针对具有一个隐层节点信息卷积的图神经网络（GNN）的可证明有效的学习算法，并开发了一种综合性框架来设计和分析 GNN 训练算法的收敛性。提出的算法适用于各种激活函数，包括 ReLU，Leaky ReLU，Sigmoid，S
PDF4 years ago
ZORB：一种无导数反向传播算法用于神经网络
本论文提出了一个名为 ZORB 的训练算法，使用伪逆代替梯度计算以加快深度神经网络的训练速度，并在 MNIST 和 CIFAR-10 数据集上的实验中取得了优于传统反向传播的结果。
PDF4 years ago
ECCV挖掘自相似性：用微表征表示进行标签超分辨率
通过 epitomes 这种简单的基于 patch 模型，我们可以在语义分割和标签超分辨率等领域中取得超越卷积神经网络的优异表现。我们提出了一种新的 epitomes 训练算法，从而首次能够从非常大的数据集中进行学习，并将 epitomes
PDF4 years ago
ICLR从规则中学习概括标记实例
本文提出了一种规则示例方法来收集人类监督，以结合规则的效率和实例标签的质量，通过潜在的覆盖变量联合去噪规则，通过覆盖和标签变量上的软蕴涵损失训练模型，并将去噪的规则和训练好的模型一起用于推理。实证评估表明，我们的算法比现有的几种方法更精确地
PDF4 years ago
ECCV强化学习建模 3D 形状
本文提出了一种基于深度强化学习的两步神经框架来模拟 Maya 软件中的建模过程，并且采用新颖的训练算法来 efficient 训练模拟器，从而达到模拟生成 3D 模型的效果。
PDF4 years ago
规模化流水线反向传播：无批量训练大型模型
本文研究了深度神经网络的硬件加速器，并提出了一种具有硬件优势的异步管道并行训练算法。通过引入 Spike Compensation 和 Linear Weight Prediction 两种方法，它有效地减轻了由 Pipelined Bac
PDF4 years ago
ACL零样本语义解析指令
本文提供了一个新的数据集，旨在解决零样本语义分析和训练算法，并通过增加特征和逻辑形式候选筛选逻辑，从而支持零样本适应。实验结果表明，该算法在多种零样本适应环境中展现出显著的性能提升。
PDF5 years ago
FEED: 特征级集成的知识蒸馏
FEED 是一种有效的知识蒸馏（knowledge distillation）方法，旨在通过特征映射级别的集成学习，将多个教师网络的知识传递给学生网络，提高其泛化能力，同时在测试时不引入额外的参数或计算。
PDF5 years ago
EMNLP对话的多粒度表示
本文提出了一种新的训练程序，显式地在多个粒度级别上学习语言的多个表征，通过修改负候选响应的采样机制来控制所学习的潜在表征的粒度，观察到在使用 MultiWOZ 数据集和 Ubuntu 对话语料库进行下一个话语检索任务时出现了显著的性能提高，
PDF5 years ago
神经机器翻译中领域自适应的课程学习
介绍了一种课程学习方法，将通用的神经机器翻译模型适应于特定领域，实验结果表明，在两个领域和两种语言对中，该方法始终优于基准模型。
PDF5 years ago
SinReQ：低比特宽度深度量化训练的广义正弦正则化
本文介绍了一种新的正弦正则化方法 - SinReQ1，它能有效地解决通过深度量化神经网络存在的精度损失问题，对多种深度量化训练算法的作用具有通用性和灵活性，并且能够改善 DoReFa 和 WRPN 的绝对精度。
PDF5 years ago
AAAI利用对抗样本实现可解释的深度神经网络
本研究旨在通过减少神经元的不确定性，提高 DNNs 在整个图像空间的可解释性。通过提出一个新的度量方式、利用对抗样本发现学习后的神经元特征具有歧义性，以及通过一种有着一致性损失的对抗训练算法来提高对抗样本子集上的神经元的一致性
PDF5 years ago