BriefGPT.xyz
Ask
alpha
关键词
dynamic decisions
搜索结果 - 2
高维状态空间中具有有限时间保证的马尔可夫决策过程的结构估计
本文提出了一种单步估计算法,用于处理高维状态空间,同时又不会降低奖励估计精度的问题。该算法通过随机梯度最大化似然函数,使每次策略改进都能够进行。研究表明,该算法可以达到平稳状态,同时在 MuJoCo 机器人控制问题和其转移设置中,相比其他逆
→
PDF
2 years ago
基于对齐分块的神经同声传译
提出了一种用于机器翻译的神经网络模型,其能够动态决定何时继续输入源文本或生成翻译文本,通过使用单向或双向编码器来处理实际语音和文本输入,使用词对齐方法生成分块训练数据,并在 IWSLT 2020 英 - 德任务上优于 wait-k 基线 2
→
PDF
4 years ago
Prev
Next