六砚 · 字库
在大数据与人工智能技术日益发展的今天,我们尝试将其融入中国古典诗词创作与学习之中。“六砚·字库”项目,正是在此背景下应运而生 —— 这是一次以技术重构诗意的尝试,是一次对古典文化的现代解读与数字致敬。
六砚·字库是由《数据挖掘》课程第8小组 —— “六砚斋·数据挖掘坊” 开发的古典诗词智能创作辅助平台。系统基于 中文诗歌数据库,涵盖 5.5 万首唐诗、26 万首宋诗、2.1 万首宋词及其他典籍文集,汇聚唐宋约 1.4 万诗人与千余词人之笔墨精华,合计超过 2000 万字。
平台从数据出发,结合图挖掘、自然语言处理与向量数据库等多种技术,搭建起一个兼具文化深度与交互趣味的创作空间。
字-词-句-章 四大功能模块
🧭
字影流转
基于 PageRank 图算法,分析古典诗词中字词之间的自然连接频率,智能推荐下一个字,化解创作卡壳之难。
🔍
语林采珠
结合 FP-Growth 算法,深度挖掘古诗词中的高频共现词组,构建风格化意象推荐系统,激发联想与创作灵感。
💬
句意传心
以 句向量相似度技术,将现代语言与古诗文进行语义级相似度匹配,采撷意境相似之句,搭建古今语言桥梁。
📖
章回对映
通过 MinHash与相似度分析,利用signature向量匹配相似诗篇,实现章回呼应、同题异构分析,重塑诗文脉络。
同时
本项目的全流程没有接入人工智能大语言模型(LLM),部署轻便,几乎无算力、存储空间要求。
“六砚·字库”不仅希望成为学习诗词的智能帮手,更希望成为一个让诗意流动、文化再生的平台。无论是对传统文学的现代解读,还是对 AI 技术的人文拓展,我们都在用诗句与代码共书一段数字文心。
—— 六砚斋 · 数据挖掘坊