最近想分析一下四大名著生僻字數量苦于没有质量好的txt文本。解决方案有两个一是自己从pdf或epub上提取,二是找txt版本后来在知乎上知道了殆知阁,不知道这个资料库质量如何
我下载下来看了,那些没加标点的四库全书文本肯定是从四库全书电子版中提取出来的因为私有区的汉字两者是一样的。只是攵本都转换成简体了太可惜了。如果能在哪里找到提取方法就好了一直都好想要里面的文本。只是用按键精灵复制的话带双行夹注嘚文本都错乱了。
纯学术探讨光盘版的《四库全书》造了很多字,对应的是一个个汉字小图片(记忆中是这样)所以提取出来的文本沒有这些字。以前unicode不普及很多字都没造出来,各家造的字编码又不统一所以输入和显示都成问题,现在好多了
不是图片光盘版自己慥的字总共有三千多个,这些字都在汉字编码的私有区里用FZKai-Z03或HT_CJK+这两个字体就可以显示,超出这个范围的(一般都在字书里)才用图片提取出来的文本也要用这两个字体才能完美显示。