8B模型训练数据筛选方案
8B模型训练数据筛选方案1. 数据筛选目标 为8B参数规模的语言模型准备高质量训练数据 平衡数据多样性、质量和规模 优化计算资源使用效率 2. 数据规模估算 总数据量目标: 200-500B tokens 中文数据比例: 60-70% 英文数据比例: 30-40% 代码数据比例: 10-15% 多语言数据: 5-10% 3. 数据来源分类3.1 高质量中文数据源 学术文献 知网、万方等学术数据库 高质量期刊论文摘要 学位论文摘要 百科知识 百度百科精选条目 维基百科中文版 专业领域百科 新闻媒体 主流媒体新闻报道 深度分析文章 评论文章 文学作品 经典文学作品 现代优秀小说 散文、诗歌 3.2 高质量英文数据源 学术资源 arXiv论文摘要 PubMed医学文献 高质量期刊论文 百科与知识 英文维基百科 Britannica百科 专业领域知识库 高质量网页 Common Crawl精选 C4数据集高质量部分 权威网站内容 3.3 代码数据 开源代码库 GitHub高质量项目 主流编程语言代码 代码注释和文档 技术文档 官方...
Hello World
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub. Quick StartCreate a new post1$ hexo new "My New Post" More info: Writing Run server1$ hexo server More info: Server Generate static files1$ hexo generate More info: Generating Deploy to remote sites1$ hexo deploy More info: Deployment

