PyTorch implementation of Deep Reinforcement Learning: Policy Gradient methods (TRPO, PPO, A2C) and Generative Adversarial Imitation Learning (GAIL). Fast Fisher vector product TRPO.
1285
Stars
191
Forks
2
技术栈
0
替代方案
相关事件
开发者/公司
相关技术
相关文章
暂无数据