从官网下载已经训练好的中文训练数据,发现效果比较差。这里结合官方教程及自己的实践记录下如何训练Tesseract4.0.0。本文共分成10个部分来进行讲解。

Read More

在nginx源代码auto/cc目录下有很多编译器配置相关的脚本。除了conf脚本name脚本之外,其他的都直接与编译器相关。Nginx的出色跨平台性(Linux、Darwin、Solaris、Win32 等)就有这些脚本的贡献,这些脚本主要有:

Read More

在分析编译器配置总控代码之前,我们先来分析auto/cc/name脚本,此脚本主要是完成编译器名称的设置,从而在后续脚本中可以根据编译器名称选择对应的编译器。

Read More

在configure脚本中,运行完auto/options和auto/init脚本后,接下来就运行auto/sources脚本。这个脚本是为编译做准备的,定义了所有需要编译的modules,以及编译这些modules需要哪些源文件。

Read More

我们可以用不同字体(fonts)文本来生成图片,然后再用这些生成的图片来进行tesseract训练。在进行训练的宿主机上必须有这些字体。

Read More

在做图片文字提取时,会使用到tesseract开源软件。这里简要介绍tesseract的安装,需要安装两个部分:tesseract引擎、训练好的语言数据。这里我们会分别介绍Linux与Windows平台的安装方法。

Read More

在通过源代码安装tesseract,在执行configure命令时一直提示:

Leptonica 1.74 or higher is required. Try to install libleptonica-dev package.

而实际上,我们已经通过源代码的方式成功的安装了Leptonica 1.74.4。最后没办法只能查看configure源代码,发现原来是pkg-config找不到我们安装的leptonica。因此,学习了一下pkg-config及其使用方法,在此做一个记录。

Read More

Pillow是Python里的图像处理库(PIL: Python Image Library),提供了广泛的文件格式支持,强大的图像处理能力,主要包括图像存储、图像显示、格式转换以及基本的图像处理操作等。

Read More

图像的阈值处理一般使得图像的像素值更单一、图像更简单。阈值可以分为全局性质的阈值,也可以分为局部性质的阈值,可以是单阈值的也可以是多阈值的。当然阈值越多是越复杂的。下面将介绍opencv下的三种阈值方法:

Read More

灰度化处理就是将一幅彩色图像转化为灰度图像的过程。彩色图像分为R、G、B三个分量,分别显示出红绿蓝等各种颜色,灰度化就是使彩色的R、G、B分量相等的过程。灰度值最大的像素点比较亮(像素值最大为255,为白色);反之比较暗(像素最小为0,为黑色)。

Read More

在编译安装nginx的时候,首先要执行configure配置脚本来进行安装的配置准备,包括环境检查及生成文件。nginx的高效与编译脚本的配置也有很大的关系,nginx的很多特性都由编译脚本控制生成,此外又由于编译脚本本身较为复杂,因此这里我们有必要对nginx编译脚本进行详细且深入的分析。这里我们的分析过程是按照脚本的执行顺序来进行的。

Read More