HugMap
人工智能
云计算
半导体
网络安全
企业软件
区块链
量子计算
生物科技
新能源与智能制造
智能穿戴
机器人
智能手机
图谱探索
趋势分析
登录
注册
Learning to Reason Efficiently with A* Post-Training
文章
ArXiv CS.CL
2026-05-26
NEWS
en
作者: Andreas Opedal, Francesco Ignazio Re, Abulhair Saparov, Mrinmaya Sachan, Bernhard Sch\"olkopf, Ryan Cotterell
大语言模型
查看原文
→
关系图谱
概览
相关事件
相关公司
相关人物
相关产品
相关技术
Learning to Reason Efficiently with A* Post-Training · 相关技术
相关技术
ORM
ODE
LLM
language model
远程代码执行(RCE)
后训练
reinforcement learning
exec
UCT
UAR
TEE
Straight-Through Estimator
Stan
Supervised Fine-Tuning
Referring expression comprehension (REC)
Parts-of-Speech (POS) tags
Natural Language Inference
NAT
LMM
large language models
For
FFI
EFI
ARG
ANN
LLaMA