OrderGrad: Optimizing Beyond the Mean with Order-Statistic Policy Gradient Estimation 事件

Name: OrderGrad: Optimizing Beyond the Mean with Order-Statistic Policy Gradient Estimation
Start: 2026-06-05

PRODUCT_LAUNCH2026-06-05影响: MEDIUM

OrderGrad: Optimizing Beyond the Mean with Order-Statistic Policy Gradient Estimation arXiv:2606.06096v1 Announce Type: cross Abstract: Policy-gradient methods usually optimize expected return, but many real world applications care about distributional properties of returns: tail risk, outlier robustness, or best-of-K discovery. We introduce OrderGrad, a family of likelihood-ratio and reparameterization gradient estimators for order-statistic objectives. OrderGrad optimizes finite-sample L-stat

人工智能

关系图谱

OrderGrad: Optimizing Beyond the Mean with Order-Statistic Policy Gradient Estimation · 相关公司

ISCCOMPANY

ChangCOMPANY

COS

Abstract

arXivNONPROFIT

TERINONPROFIT

CATIRESEARCH_INSTITUTE

IterRESEARCH_INSTITUTE

ACTNONPROFIT

RatioRESEARCH_INSTITUTE