Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training 事件

Name: Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training
Start: 2026-06-01

PRODUCT_LAUNCH2026-06-01影响: MEDIUM

Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training arXiv:2602.00747v3 Announce Type: replace Abstract: Determining an effective data mixture is a key factor in Large Language Model (LLM) pre-training, where models must balance general competence with proficiency on hard tasks such as math and code. However, identifying an optimal mixture remains an open challenge, as existing approaches either rely on unreliable tiny-scale proxy experim

人工智能

关系图谱

Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training 事件

相关公司查看全部 (10)

相关人物查看全部 (3)

相关产品查看全部 (10)

相关技术查看全部 (9)

相关报道查看全部 (1)