HPO: Hysteretic Policy Optimization for Stable and Efficient Training under Sparse-Reward Regime 文章

ArXiv CS.AI2026-05-29NEWSen作者: Mohamed Sana, Nicola Piovesan, Antonio De Domenico, Fadhel Ayed, Haozhe Zhang