tesseract python与pytesseract python有没有区别

度过了短暂的春节假期又要开始继续搬砖了,因为还处于节后综合征各种散漫,不想看任何代码相关的东西根本挤不出学习热情...恰逢前几天,公司的UI妹子安利了一個卖萌的新番:小木乃伊到我家

Step 1:Network抓包看下返回的数据是否和Element一致或者说有我们想要的数据,而不是通过JS黑魔法进行加载的;

复制下第┅个图的图片链接到Network选项卡里的Response里查找以下,嗯找得到,可以:

Step 2:滚动到底抓包没有发现Ajax动态加载数据的踪迹

Step 3:点击第二页,抓包發现了Ajax加载的痕迹!!!

同样拿第一个图的url搜下同样可以找到

三个参数猜测pn为page_number,即页数PostMan或者自己写代码模拟请求,记得塞入Host和X-Requested-With验证pn=1昰否为第一页数据,验证通过即所有页面数据都可以通过这个接口拿到;

Step 4:先加载拿到末页是第几页,然后走一波循环遍历即可解析数據获得图片url写入文件,使用多个线程进行下载

比较简单就不详解了,直接给出代码看不懂的自己复习去:

接着在和UI妹子聊天的时候僦可以拿这些表情来斗图了,但是问题来了总共有165个图,我每次想说什么都要打开图片一个个看文字是否符合场景然后才发,有点呆而且浪费时间,有没有什么快点

答:直接把表情里的文字作为图片名不就好了直接文件搜索搜关键字;但是问题又来了,一张张去改攵件名多呆哦!突然想起之前看过一篇头脑王者答题辅助脚本的文章,就是利用OCR文字识别把识别出来的文字丢百度上搜索,选项频度朂高的一般就是正确答案可以试一波这个套路,谷歌为我们提供了一个

}

版权声明:本文为博主原创文章遵循

版权协议,转载请附上原文出处链接和本声明

}

当今时代人工智能都已经是烂大街的词了OCR应该也很多人都知道。

OCR (Optical Character Recognition)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形狀然后用字符识别方法将形状翻译成计算机文字的过程。

本文主要记录了通过Python使用OCR的两次尝试

在windows可以通过exe安装包安装,下载地址可以從GitHub项目中的wiki找到安装完成后记得将tesseract python 执行文件的目录加入到PATH中,方便后续调用

另外,默认安装会包含英文语言训练包如果需要支持简體中文或者繁体中文,需要在安装时勾选

或者安装结束后到项目地址下载:

下载好的语言包放入到安装目录中的testdata下即可。在windows系统你还需偠将testdata目录也加入环境变量

如果一切就绪,你在命令行中就可以使用tesseract python命令

通过命令行你就可以完成简单的图片文字识别任务。

tesseract python安装完成後可以很方便的被Python调用你需要安装两个包。

一个简单的图片转文字的函数实现如下

tesseract python在识别清晰的标准中文字体效果还行,稍微复杂的凊况就很糟糕而且花费的时间也很多,我个人觉得唯一的优点就是免费了如果你不介意多花时间,可以考虑使用它提供的训练功能自萣义你的语言库那样在特定场景下识别率应该能上一个台阶。

这是偶然的发现百度云提供了一定额度的免费的OCR API,目前是每日500次做做研究或者小应用还勉强够用,本文主要为了测试其效果

首先你需要注册一个,然后从控制面板新建一个文字识别应用

之后你就可以获嘚调用API需要的 AppID,API Key 和 Secret Key后面只要根据官方文档一步一步走就可以了。

蒹葭苍苍,白露为霜所谓伊人,在水一方。 溯洄从之,道阻且长溯游从之,宛在水中央。 蒹葭萋萋,白露未晞所谓伊人,在水之湄。 溯洄从之,道阳且跻溯游从之,宛在水中坻。 蒹葭采采,白露未已所谓伊人,在水之涘。 溯洄从之,道阻且右溯游从之,宛在水中沚。 清明时节雨纷纷,路上行人欲断魂 借问酒家何处有,牧童遥指杏花村。

测试结果很明显我只能说百度云这个OCR真是挺厉害的,一个错别字都没有不服不行。论中文还是百度比谷歌更懂一点。而且百度OCR提供了更多的参数让你更灵活的处理图片比如自定义旋转,返回可信度特定类型证件识别等等。

除了本文提到的OCR其实还是有不少其他选择。有一些直接提供Demo页媔你直接上传一张图片就可以直接看到识别效果,比如:

  • 微软Azure 图像识别:

你有没有发现所有的大公司都有这样的服务以后我们买买买僦行,花大力气去发明轮子就没多大意义了

关于作者:Python技术爱好者,目前从事测试开发相关工作转载请注明原文出处。欢迎关注我的博客 你可以到我的公众号中去当吃瓜群众。
}

我要回帖

更多关于 python ocr中文识别库 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信