BriefGPT.xyz
Ask
alpha
关键词
gradient learning
搜索结果 - 2
ColA: 梯度学习的协作调整
使用协作适应(ColA)和梯度学习(GL)的参数自由、模型不可知的微调方法在性能上与现有的参数高效微调方法相媲美甚至更好,在各种基准测试中 ColA 的计算性能更具成本效益,使得微调作为一项服务可通过将梯度计算卸载到低成本设备来实现。
PDF
2 months ago
连续深度策略的强化学习兼容性价值梯度
本研究提出一种新的深度强化学习算法 ——GProp,可用于连续动作策略的训练,算法基于在值函数的梯度上学习的时差法,并提出了包含三个神经网络的漂移器 — 演员 — 评论家(DAC)模型,分别估计值函数、梯度和确定演员策略。GProp 在两个
→
PDF
9 years ago
Prev
Next