BriefGPT.xyz
Ask
alpha
关键词
training processes
搜索结果 - 4
大型语言模型作为双人游戏中的代理
通过在单一统一的机器学习范式中正式定义大型语言模型(LLM)的训练过程,包括预训练、监督微调和强化学习与人类反馈,我们可以获得推进 LLM 技术的重要见解。本文勾勒出 LLM 训练方法与两人博弈中代理人发展所采用的战略之间的相似之处,从博弈
→
PDF
5 months ago
使用 PT-Pump-Up 进行葡萄牙语 NLP 资源索引
提出了 PT-Pump-Up,一套旨在减少资源分散并改善对葡萄牙语自然语言处理资源的可访问性的工具。该提案包括四个软件组件:a) 用于列出可用资源的网页平台;b) 用于简化加载葡萄牙语自然语言处理资源的客户端 Python 包;c) 用于管
→
PDF
5 months ago
评估深度强化学习在在线投资组合管理中的稳健性
近年来,深度强化学习在在线组合选择中的应用得到了广泛的关注。我们提出了一个新的培训和评估过程以评估古典深度强化学习算法在组合管理中的表现,发现大多数深度强化学习算法不够健壮,策略泛化能力差,在回归测试期间很快退化。
PDF
a year ago
扩散式生成模型设计空间的阐明
我们提出了一种设计空间,清晰地分离具体的设计选择,从采样和训练过程以及得分网络的预处理中识别了几个变化。通过改进,我们以比之前的设计更快的采样速度(每张图像 35 个网络评估)在条件设置下获得了 1.79 FID,无条件设置下获得了 1.9
→
PDF
2 years ago
Prev
Next