markov decision process | BriefGPT

关键词markov decision process

搜索结果 - 365

KDD城市集中的多目标离线强化学习与对比数据共享
MODA 是一个多任务线下强化学习方法，通过对比数据共享来解决线下强化学习中的数据稀缺性和异质性问题，并且利用集成动力学模型和生成对抗网络构建鲁棒的马尔可夫决策过程，显著提升了城市决策过程。
PDF12 days ago
无限时间平均回报马尔科夫决策过程的强化学习与多项式逻辑函数逼近
我们研究了具有非线性函数逼近的基于模型的强化学习，其中底层马尔可夫决策过程（MDP）的转移函数由一个多项式逻辑模型给出。本文针对无限时间平均奖励设定，提出了两种算法。第一个算法 UCRL2-MNL 适用于通信 MDP 类，并实现了一种具有
PDF13 days ago
VELO: 基于向量数据库的云边协同 LLM QoS 优化框架
本研究提出了一种名为 VELO 框架的向量数据库辅助云边协作的大型语言模型（LLM）的 QoS 优化方法，通过利用向量数据库缓存来降低相似请求的响应时间和成本，并通过多智能体强化学习算法解决 QoS 优化问题。实验结果表明，VELO 框架显
PDF13 days ago
基于强化学习的感知到达时延感知资源分配方法研究
提出了一种基于可重构智能表面的车联网网络方案，利用信息时代模型和负载传输概率模型来优化车辆与基础设施之间的时效和车辆之间的稳定性，通过软性演员 - 评论家算法以最小化信息时代和优先传输负载的方式，使用驻波状态下 AI-B 图方案控制车辆的资
PDF15 days ago
自适应强化学习规划：利用大规模语言模型进行复杂信息提取
大规模语言模型在信息提取任务中存在问题，通过两阶段多步骤方法和强化学习框架提高其表现，将顺序提取视为马尔可夫决策过程，训练决策模型以提供最佳的实体提取顺序，有效改善大规模语言模型的信息提取能力。
PDF15 days ago
自行车共享系统实时再平衡的双策略强化学习
自行车共享系统扮演了缓解交通拥堵和促进健康生活方式的关键角色。然而，保证其可靠性和用户接受度需要有效的自行车再平衡策略。本研究引入了一种新颖的方法来解决实时再平衡问题，采用车辆车队的双策略强化学习算法，通过分开库存和路径决策来提高现实性和效
PDFa month ago
多智能体系统中独立学习的近似全局收敛性
独立学习是一个常用方法来实现大规模多智能体系统的可扩展性，本文研究了两个代表性算法，在基于价值函数和策略的框架中，为近似全局收敛提供了首个有限样本分析结果。这些结果揭示了样本复杂度约为 ϵ^(-2)，考虑了智能体间的依赖关系和独立学习实现全
PDFa month ago
SpecDec++：通过自适应候选长度提升推测解码能力
通过使用较小且更快的草稿模型，推测解码可减少目标大型语言模型的推理延迟。本文以候选长度 K 作为超参数进行研究，并将其形式化为马尔科夫决策过程，理论上证明了最优策略采用阈值策略，在预测的被拒概率超过阈值时终止当前推测。基于这一理论，我们提出
PDFa month ago
ICML动态治疗方案中的强化学习需要全面重新审视
通过对超过 17,000 个评估实验的案例研究，我们批判性地检视了当前离线强化学习在动态治疗方案中的应用现状，并提出了评估指标的不一致性、缺乏基线比较、以及现有研究中选择的强化学习表示形式的多样性等关注点。令人惊讶的是，在一些情况下，随机基
PDFa month ago
有限时间价值函数的张量低秩逼近
本研究论文提出了一种非参数低秩随机算法，以近似有限时域 MDP 的价值函数。研究采用多维数组或张量表示未知的价值函数，利用从 MDP 采样得到的奖励来估计最优价值函数，并使用截断的 PARAFAC 分解设计了在线低秩算法，以恢复价值函数张量
PDFa month ago
通过强化学习学习具有通用性的人体运动生成器
以文本为驱动的人体动作生成作为计算机辅助内容创作的重要任务之一，近年来越来越受到关注。本文提出了一种以马尔可夫决策过程为基础的文本到动作生成算法 InstructMotion，通过优化奖励设计，同时在配对数据和合成文本数据上进行训练，实现了
PDFa month ago
纤维采样问题的演员 - 评论算法
我们提出了一个用于代数统计和离散优化方面复杂问题的演员 - 评论算法，在高维多面体定义的有限非负整数点格子的一个子集中生成样本。我们将问题转化为马尔可夫决策过程，并设计了一种演员 - 评论增强学习算法，以学习一组可以用于采样的良好移动。我们
PDFa month ago
截断方差减小的值迭代
我们提供了一种更快的随机算法，用于在具有有限状态动作对、有界奖励和折扣因子的折扣马尔可夫决策过程中计算 ε- 最优策略。我们通过在采样设置和离线设置中提供不同的时间算法，进一步优化了之前的最先进技术。我们的方法基于先前的随机方差减少值迭代方
PDFa month ago
无限时间段折现决策过程的汤普森抽样
我们通过建立一个马尔可夫决策过程模型，研究一种名为汤普森采样的采样算法的渐近行为。我们展示了标准（期望）遗憾可能呈超线性增长，并且不能很好地捕捉到在具有非平凡状态演进的现实情况下的学习概念。通过分解标准（期望）遗憾，我们提出了一种新的指标，
PDF2 months ago
结构化强化学习对激励性随机隐秘优化的应用
本文研究了如何控制随机梯度算法（SG）以隐藏本地稳态点的估计，以防止窃听者获取。通过动态激励随机预测器和混淆窃听者，将隐蔽优化问题构建为有限视域马尔科夫决策过程（MDP）。通过使用成本和转移概率结构的区间优势条件，证明了 MDP 的最优策略
PDF2 months ago
ICML免模型强化学习中的 $φ$- 散度使用离线和在线数据
鲁棒的 φ- 正则化马尔可夫决策过程（RRMDP）框架的关键贡献是提出了无模型算法，通过历史数据和在线采样来学习最优的鲁棒政策，并在高维系统中进行了理论保证。
PDF2 months ago
医疗领域中使用故障模式与影响分析（FMEA）进行治疗的自动计算
通过将 FMEA 模型转化为马尔科夫决策过程，我们提供了一个正式的框架来实现自动计划和操作，不仅可以支持医学专家在建模过程中应用，还可以自动确定对患者治疗的最佳治疗方案。
PDF2 months ago
基于模型的多智能体个性化短视频推荐系统
本文提出了一种基于强化学习框架的工业级短视频推荐排序系统，通过协作多智能体建模和最大化用户观看时间来解决用户多方面偏好的环境下，推荐会话的马尔可夫决策过程。此外，我们的框架采用基于模型的学习方法来缓解工业推荐系统中关键但难以解决的样本选择偏
PDF2 months ago
大规模语言模型的强化学习问题解决
使用大型语言模型作为强化学习代理以解决对话式强化学习问题，通过提出的提示技术，演示了如何迭代引导语言模型学习和优化特定强化学习任务的策略，并通过两个具体案例研究展示了该方法的实用性。
PDF2 months ago
利用共享车队数据的高效停车搜索
车队数据对于驾驶员的搜索时间有重要作用，可以显著减少寻找可用停车位的时间。
PDF3 months ago