Pretrain-Datasets
updated
togethercomputer/RedPajama-Data-V2
Updated • 8.64k
• 403
Viewer
• Updated • 5.45B • 19.2k
• 563
mlfoundations/dclm-baseline-1.0
Preview
• Updated • 432k
• 271
Updated • 780k
• 257
opencsg/chinese-fineweb-edu-v2
Viewer
• Updated • 188M • 3.76k
• 73
HuggingFaceFW/fineweb-edu
Viewer
• Updated • 3.5B • 615k
• 1.08k
Viewer
• Updated • 237M • 14.3k
• 396
Viewer
• Updated • 4.48B • 58.1k
• 799
Updated • 35
• 35
CASIA-LM/ChineseWebText2.0
Viewer
• Updated • 2k • 2.97k
• 29
Viewer
• Updated • 1.29B • 50.7k
• 342