关键词credit assignment
搜索结果 - 54
  • PlanDQ: 分层计划编排通过 D-Conductor 和 Q-Performer
    PDF24 days ago
  • 通过行为分解进行策略优化来增强语言代理
    PDFa month ago
  • 学习的非马尔可夫安全性约束下的安全强化学习
    PDF2 months ago
  • 从 $r$ 到 $Q^*$:您的语言模型暗地里是一个 Q 函数
    PDF3 months ago
  • 反向传播:超越空间、时间与大脑
    PDF3 months ago
  • 基于 Shapley 值的多智能体强化学习:理论、方法及其在能源网络中的应用
    PDF4 months ago
  • 神经科学启发的机器学习综述
    PDF5 months ago
  • AAAI从过去到未来:重新思考资格追踪
    PDF6 months ago
  • MACCA: 离线多智能体强化学习与因果信用分配
    PDF7 months ago
  • 脑启发的机器智能:神经生物学可行的信用分配综述
    PDF7 months ago
  • 脑样柔性视觉推理:通过利用反馈前馈对齐
    PDF8 months ago
  • 抑制性神经元环路可控制突触可塑性的符号
    PDF8 months ago
  • Delta-AI:稀疏图模型中的摊销推理的局部目标
    PDF9 months ago
  • 离线强化学习中的潜在扩散推理
    PDF10 months ago
  • Hindsight-DICE:深度强化学习的稳定信用分配
    PDFa year ago
  • 探索人工智能对知识工作创造力的影响:超越机械抄袭和随机鹦鹉
    PDFa year ago
  • Transformers 在强化学习任务中的优势:将记忆与信用分配解耦
    PDFa year ago
  • IJCAI多智能体团队学习的更深层理解
    PDFa year ago
  • 多智能体环境中高效协作的因果关系发现
    PDFa year ago
  • 在线学习长程依赖关系
    PDFa year ago
Prev