Reward Learning from Best-of-$N$ Preference Data: Targets, Tradeoffs, and Design Principles 文章

ArXiv CS.AI2026-06-01NEWSen作者: Rattana Pukdee, Maria-Florina Balcan, Pradeep Ravikumar