BriefGPT.xyz
大模型
Ask
alpha
关键词
policy differences
搜索结果 - 2
多智能体强化学习的策略距离测量
多样性在提高多智能体强化学习 (MARL) 性能方面起着关键作用,本文提出了一种通用的量化智能体政策差异的工具,多智能体政策距离 (MAPD),并通过在线部署设计了一个多智能体动态参数共享 (MADPS) 算法来应用该工具。实验证明,我们的
→
PDF
5 months ago
Gov2Vec: 学习机构及其法律文本的分布式表示
使用唯一向量空间嵌入法比较不同机构之间的政策差异,发现各机构之间存在有意义的差异,并使用文法向量回答具体问题,正在扩展为更综合的法律语义地图。
PDF
8 years ago
Prev
Next