BriefGPT.xyz
大模型
Ask
alpha
关键词
reinforce algorithm
搜索结果 - 6
发现视觉任务向量
通过分析 MAE-VQGAN 模型的激活,我们发现任务向量可用于引导网络在不提供输入 - 输出示例的情况下执行不同的任务。
PDF
3 months ago
通过奖励塑造技术增强多跳知识图推理
利用强化学习和 BERT 嵌入来改进多跳知识图谱推理的方法,以提高知识图谱推理的准确性和鲁棒性。
PDF
4 months ago
响应增强的半监督对话查询生成
提出了一种半监督学习框架 SemiDQG,通过使用未标注的对话数据来改进模型性能,使用类似度选择策略选取高质量伪查询进一步训练模型,并采用 REINFORCE 算法作为精细化训练信号,实验结果表明该框架在跨领域和资源有限场景中具有显著优势。
PDF
6 months ago
训练计算密集型目标概率分布的正则化流
机器学习技术特别是所谓的标准化流在蒙特卡洛模拟中变得越来越受欢迎,因为它们可以有效地逼近目标概率分布。在格点场论中,目标分布由作用的指数给出。我们提出了一种基于 REINFORCE 算法的标准化流估计器,避免了相关的计算问题,应用于临界维度
→
PDF
10 months ago
一种更好的自举式序列训练变体
本论文介绍了一种改进的自我监督时序训练思想,通过在 REINFORCE 算法中改变基准函数的选择来提高性能,与贪婪解码基准相比没有额外的成本。
PDF
4 years ago
级联深度分类器的高效摊销推理
该论文提出了一种使用深度神经网络级联和选择模块的新框架,通过同时优化预测准确性和能耗,实现了在测试时间的有效成本 - 准确性权衡,验证了该方法在图像分类任务中优于标准训练的 ResNets,对 CIFAR-10/100 数据集的 FLOPs
→
PDF
7 years ago
Prev
Next