关键词supervised and reinforcement learning
搜索结果 - 3
- 随机梯度方法在梯度主导条件下的几乎必然收敛速率
基于全局和局部梯度支配的随机梯度下降法收敛速度证明及其在监督学习和强化学习中的应用。
- 弥合检索模型与语言模型之间的偏好差距
我们提出了一个新的桥接模型,并验证了 RAG 中检索器的排序和选择假设,并提出了一个将监督学习和强化学习连接起来的培训框架,在问答和个性化生成任务中证明了我们方法的有效性。
- ICLR知识流:超越你的教师
通过知识流的方式将多个深度网络(教师)的知识传递给新的深度网络模型(学生),解决了在新任务中选择哪个网络或为微调新模型选择哪个网络的初始化的问题,并在监督和强化学习任务中提供比微调和其他知识交流方法更好的表现。