BriefGPT.xyz
Ask
alpha
关键词
continual improvement
搜索结果 - 4
自奖励语言模型
通过自我奖励语言模型的迭代 DPO 训练,本研究展示了模型的指示遵循能力及为自身提供高质量奖励的能力的提升,最终的 Llama 2 70B 模型在 AlpacaEval 2.0 排行榜上表现优于许多现有系统,包括 Claude 2、Gemi
→
PDF
6 months ago
CLIN: 一个用于快速任务适应和泛化的持续学习语言代理
CLIN 是第一个语言驱动的智能体,它通过持续更新的文本内存,不断改进表现并能够在变化的环境和任务中迁移学习,使得智能体的性能逐渐提升。
PDF
9 months ago
终身和持续学习对话系统
这本书介绍了一种新的对话系统学习方法,即通过自身与用户和环境的交互来学习,实现从用户和外部来源不断学习语言表达、词汇和 factual 知识、训练样本和会话技能等方面的持续改进。除了总体论述,书中还介绍了一些特定话题的持续学习方法,并探讨了
→
PDF
2 years ago
神经网络 Quine
本文描述如何构建和训练自我复制的神经网络,其中网络通过学习输出自己的权重来实现复制,并使用称为再生的方法来训练网络。通过在复制和优化步骤之间交替进行,该自我复制神经网络可以解决 MNIST 图像分类等辅助任务。同时,该文提出自我复制机制对人
→
PDF
6 years ago
Prev
Next