中华诗词·数据源说明
本系统所使用的数据主要来源于开源项目 中文诗歌数据库(chinese-poetry) 。
该数据库是目前最为完整的中华古典文集公开数据集,涵盖: 5.5 万首唐诗、26 万首宋诗、2.1 万首宋词和其他古典文集。
总计收录唐宋两代近 14,000 位古诗人,及两宋时期约 1,500 位词人,为研究与挖掘中国古代诗词文化提供了坚实的数据基础。

六砚·训练数据概况
在本项目中,我们从上述数据库中精选了以下子集作为模型训练语料:
语料类型 | 句子数 |
---|---|
楚辞 | 2,273 |
全唐诗 | 1,495,186 |
宋词 | 161,620 |
元曲 | 45,509 |
总计训练语料超过 2,000,000 字,为模型提供丰富的语言上下文。