BriefGPT.xyz
Ask
alpha
关键词
population based approach
搜索结果 - 1
ICLR
监督与自我对弈在新兴通讯中的相互作用
本研究探讨了一种新的教授人工智能代理人使用自然语言的方法,发现在通过受监督的学习奖励和自我对弈的信号两种方式的训练后比直接从头开始进行自我学习效果更好,并提出了一种基于人群的方法以进一步提高表现。
PDF
4 years ago
Prev
Next