Yonggan Fu

Featured in:

Articles

CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training

2 months ago | research.nvidia.com | Yu Yang |Yonggan Fu |Xin Dong |Dan Su

Abstract Pre-training datasets are typically collected from web content and lack inherent domain divisions. For instance, widely used datasets like Common Crawl do not include explicit domain labels, while manually curating labeled datasets such as The Pile is labor-intensive. Consequently, identifying an optimal pre-training data mixture remains a challenging problem, despite its significant benefits for pre-training performance.

Try JournoFinder For Free

Search and contact over 1M+ journalist profiles, browse 100M+ articles, and unlock powerful PR tools.