Dec, 2011

增强学习机器人中的多时间尺度推断

TL;DR本研究通过基于时间差分法和线性函数逼近的 TD (lambda) 算法,在机器人中实现了对当下及未来 0.1 至 8 秒内全部感知信息的预测及实时学习,最终获得了较高的准确率,证明了该方法具有实用价值。