Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation 事件

Name: Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation
Start: 2026-06-03

PRODUCT_LAUNCH2026-06-03影响: MEDIUM

Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation arXiv:2606.02684v1 Announce Type: cross Abstract: On-Policy distillation (OPD) in large language models is shifting from full-trace KL supervision toward more selective training paradigms. Recent OPD methods increasingly focus on selecting which trajectories to learn from, which tokens are most informative, and which supervision signals are most reliable. Motivated by this trend, we rethink optimization granula

人工智能

关系图谱

Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation 事件

Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation · 相关技术

相关技术