Actor-Critic--Type Learning Algorithms for Markov Decision Processes 论文

1999SIAM Journal on Control and Optimization引用 238

Reinforcement Learning in RoboticsAdaptive Dynamic Programming ControlAdvanced Control Systems Optimization

机器人 Reinforcement Learning in Robotics Advanced Control Systems Optimization Adaptive Dynamic Programming Control

作者

摘要

Algorithms for learning the optimal policy of a Markov decision process (MDP) based on simulated transitions are formulated and analyzed. These are variants of the well-known "actor-critic" (or "adaptive critic") algorithm in the artificial intelligence literature. Distributed asynchronous implementations are considered. The analysis involves two time scale stochastic approximations.

作者查看全部 (2)

Vivek S. Borkar

Vijaymohan R. Konda

Actor-Critic--Type Learning Algorithms for Markov Decision Processes 论文

摘要

作者查看全部 (2)

相关技术查看全部 (2)

相关事件

相关文章