Near-optimal Regret Bounds for Reinforcement Learning 论文

2010引用 711

Advanced Bandit Algorithms ResearchReinforcement Learning in RoboticsMachine Learning and Algorithms

机器人 Machine Learning and Algorithms Reinforcement Learning in Robotics Advanced Bandit Algorithms Research

相关技术:Reinforcement Learning in Robotics Machine Learning and Algorithms Advanced Bandit Algorithms Research

Near-optimal Regret Bounds for Reinforcement Learning · 作者

Peter Auer

Ronald Ortner

Thomas Jaksch