From Demonstrations to Rewards: Test-Time Prompt Optimization for VLM Reward Models 文章

ArXiv CS.AI2026-06-02NEWSen作者: Christian Gumbsch, Leonardo Barcellona, Lennard Sch\"unemann, Platon Karageorgis, Andrii Zadaianchuk, Zehao Wang, Sergey Zakharov, Fabien Despinoy, Rahaf Aljundi, Efstratios Gavves