汉字如何判断五行属性?
《康熙字典》等字书,都提供了每个汉字的五行属性(古人认为“字亦为文”,因此每一个字都会列出它的五行)。但是这类资料缺乏现代科学依据、且来源不明;因而我们采用了更科学的判定方法——基于大规模数据集的机器学习算法。 我们的算法能够准确判断出2458个常用汉字的五行属性。 这项研究以1096万个中文词条和3.86亿个文字作为基础数据库,分别来自新浪博客和微博的用户反馈,以及互联网用户对百度搜索的建议。通过计算每字每条反馈中的词语出现的频率,进而确定其属性。同时,因为汉语的词根特点,可以较容易地对字形进行切分,从而获得每个字的部首。最终,利用统计方法和机器学习方法来预测未知字形的字的五行。 图1展示了我们的方法预测汉字五行属性的流程。
图1 预测汉字五行属性的流程图 用我们的算法给《康熙字典》里的字做测试,对于其中收录的3785个字形(含繁体字和异体字),正确率达到了98%以上(图2)。而用同样方法测淘宝网商品名字的语料库,也能达到接近的效果(图3)。
图2 《康熙字典》字形错误率分布 图3 淘宝网商品名字分析误差
另外我们还开发了手机应用“字趣“,在移动设备上提供汉字的趣味知识。比如: 图4 “字趣”中展示的部分内容 在“字趣”里输入任何汉字,就可以看到与之匹配的有趣描述。