BriefGPT.xyz
大模型
Ask
alpha
关键词
hallucinating datasets
搜索结果 - 1
ICLR
行为蒸馏
行为压缩是一种旨在将大型数据集压缩为少数合成示例的方法,以用作在训练新模型时可直接替换使用。本文提出行为压缩的概念,并介绍了 HaDES 方法,它可以发现仅需包含四个状态 - 动作对的数据集,通过监督学习训练出在连续控制任务中表现竞争水平的
→
PDF
13 days ago
Prev
Next