HugMap
人工智能
云计算
半导体
网络安全
企业软件
区块链
量子计算
生物科技
新能源与智能制造
智能穿戴
机器人
智能手机
图谱探索
趋势分析
登录
注册
Quantifying Empirical Compute-Supervision Tradeoffs in RLVR
文章
ArXiv CS.AI
2026-05-26
NEWS
en
作者: Ryo Mitsuhashi, Patrick Chen, Isabelle Tseng, Jasin Cekinmez, Addison J. Wu
查看原文
→
关系图谱
概览
相关事件
相关公司
相关人物
相关产品
相关技术
Quantifying Empirical Compute-Supervision Tradeoffs in RLVR · 相关技术
相关技术
ODE
language model
递归自我改进
远程代码执行(RCE)
后训练
reinforcement learning
divide-and-conquer partitioning
UCT
TURN
Stan
Referring expression comprehension (REC)
Reinforcement learning with verifiable rewards
RLVR
QUIC
Prompt
Parts-of-Speech (POS) tags
ORM
ICT
HIS
Granular Alignment Paradigm
GSM
GRPO
For
FFI
ANN
ICE