关键词self-evolving mechanism
搜索结果 - 2
- 示范引导的多目标强化学习
利用先前示范、角重支持、自我演进机制和样本复杂度,我们引入了一种新型方法,即示范引导的多目标强化学习(DG-MORL),以解决多目标强化学习中从头开始训练策略的困难,并通过各种实验证明了 DG-MORL 在挑战性条件下的优越性、稳健性和有效 - 自主演化多样化数据采样用于高效指导调优
通过引入自我演变机制 DiverseEvol,我们提出了一种标签高效的指令调整方法,该方法允许模型自己主动采样同样或更有效的子集来改善自身性能,而无需人类干预或更先进的 LLMs。在选择子集时,我们的数据采样技术的关键在于增强所选子集的多样