Parallel Tempering Initial Sampling in Inference-Time Reward Alignment 文章

ArXiv CS.CV2026-06-01NEWSen作者: Myeongjun Oh, Gwangho Kim, Sungyoon Lee

Parallel Tempering Initial Sampling in Inference-Time Reward Alignment · 相关技术