Tesseract.js使用纯js实现的OCR文字识别

Tesseract.js 介绍

Tesseract.js是一个javascript库,可以从图像中获取几乎任何语言的单词。

最新Tesseract v5.1.0版本需要Node.js v14或更高版本。

官网:Tesseract
npm:Tesseract

官网案例
image.png

缺点:

  • 只支持图片,不支持word、pdf等格式文件识别。
  • 识别率差强人意(可能是我哪里没配好)。

好,下面我们进入主题。

首先安装插件

npm install tesseract.js tesseract.js-core

配置CDN

  • 两个文件
  • 两个语言模型

为什么要配置自己的CDN呢,因为根据Tesseract.js的案例测试时,案例获取js资源是从npm的CDN中获取,而我的网络时常不稳定,导致获取不到文件报错。所以我干脆把文件下载下来,搭建自己的CDN。

另外使用create-react-app搭建项目,可以将tesseractJS放在public中,效果是一样的。

下载文件

1、从node_modules目录的tesseract.js-core中获取tesseract-core-simd.wasm.js。

2、从node_modules目录的tesseract.js/dist 中获取worker.min.js。

也可以直接下载
worker.min.js
tesseract-core-simd.wasm.js

下载语言包

打开语言模型
官网
,可以看到支持的语言有很多。

我们需要两个
英文(eng.traineddata.gz)
中文(chi_sim.traineddata.gz)

ok,将获取到的文件放到Nginx服务器中

创建根目录tesseractJS,放入worker.min.js、tesseract-core-simd.wasm.js。

在tesseractJS中新建文件夹lang-data放入eng.traineddata.gz、chi_sim.traineddata.gz。

核心代码

import { createWorker } from 'tesseract.js';

componentDidMount(){
    this.onDiscern();
}
async onDiscern() {
        const worker = await createWorker(['chi_sim','eng'], 1, {
            legacyCore: true,
            legacyLang: true,
            gzip: true,
            workerPath: "http://xxx.xxx.xxx.xxx:3000/tesseractJS/worker.min.js",
            corePath: "http://xxx.xxx.xxx.xxx:3000/tesseractJS/tesseract-core-simd.wasm.js",
            langPath: "http://xxx.xxx.xxx.xxx:3000/attachment/cdn/tesseractJS/lang-data",
            cacheMethod: "write",
        });
        const url = "https://tesseract.projectnaptha.com/img/eng_bw.png"
        const res = await worker.recognize(url);
        console.log("res.data.text")
        
        await worker.terminate();
    }
    

识别目标

image.png

识别效果

image.png

哈哈,识别率不到百分之五十~

很奇怪,官方案例识别率是很高的。

结束语

如果有能人发现是我配置有问题,谢谢指出问题。

另外官网文档在npm下载的包里就有哦。不用费劲去找了,网上案例很少。

路径在:node_modulestesseract.jsdocs,里边都有介绍API参数的。
image.png

阅读全文
下载说明:
1、本站所有资源均从互联网上收集整理而来,仅供学习交流之用,因此不包含技术服务请大家谅解!
2、本站不提供任何实质性的付费和支付资源,所有需要积分下载的资源均为网站运营赞助费用或者线下劳务费用!
3、本站所有资源仅用于学习及研究使用,您必须在下载后的24小时内删除所下载资源,切勿用于商业用途,否则由此引发的法律纠纷及连带责任本站和发布者概不承担!
4、本站站内提供的所有可下载资源,本站保证未做任何负面改动(不包含修复bug和完善功能等正面优化或二次开发),但本站不保证资源的准确性、安全性和完整性,用户下载后自行斟酌,我们以交流学习为目的,并不是所有的源码都100%无错或无bug!如有链接无法下载、失效或广告,请联系客服处理!
5、本站资源除标明原创外均来自网络整理,版权归原作者或本站特约原创作者所有,如侵犯到您的合法权益,请立即告知本站,本站将及时予与删除并致以最深的歉意!
6、如果您也有好的资源或教程,您可以投稿发布,成功分享后有站币奖励和额外收入!
7、如果您喜欢该资源,请支持官方正版资源,以得到更好的正版服务!
8、请您认真阅读上述内容,注册本站用户或下载本站资源即您同意上述内容!
原文链接:https://www.shuli.cc/?p=21386,转载请注明出处。
0

评论0

显示验证码
没有账号?注册  忘记密码?