首页/数据概览

 中华诗词·数据源说明

本系统所使用的数据主要来源于开源项目 中文诗歌数据库(chinese-poetry)

该数据库是目前最为完整的中华古典文集公开数据集,涵盖: 5.5 万首唐诗、26 万首宋诗、2.1 万首宋词和其他古典文集。

总计收录唐宋两代近 14,000 位古诗人,及两宋时期约 1,500 位词人,为研究与挖掘中国古代诗词文化提供了坚实的数据基础。

唐诗主题词

 六砚·训练数据概况

在本项目中,我们从上述数据库中精选了以下子集作为模型训练语料:

语料类型 句子数
楚辞 2,273
全唐诗 1,495,186
宋词 161,620
元曲 45,509

总计训练语料超过 2,000,000 字,为模型提供丰富的语言上下文。

 

 

六砚斋数据挖掘坊版权所有