R-MAX: a general polynomial time algorithm for near-optimal reinforcement learning 论文

2001引用 352

Reinforcement Learning in RoboticsAdvanced Bandit Algorithms ResearchArtificial Intelligence in Games

机器人 Reinforcement Learning in Robotics Advanced Bandit Algorithms Research Artificial Intelligence in Games

相关技术:Reinforcement Learning in Robotics Advanced Bandit Algorithms Research

R-MAX: a general polynomial time algorithm for near-optimal reinforcement learning · 相关技术

相关技术

Reinforcement Learning in Robotics Advanced Bandit Algorithms Research