写过网站或其他程序的人会经常遇到各种各样的因字符编码产生的问题,这里我们重点讲述一下常用的Unicode、UTF-8、UTF-16、UTF-32/GBK、GB2312、ISO-8859-1等编码。

Read More

我们会在很多文档的专业术语中看到FreeBSDLinux,通常情况下我们并不需要了解它们之间的具体关系。但很多时候,如果对这些概念有一个较清楚的把握,还是有助于我们理解相关文档的。下面我们就详细的介绍一下FreeBSDLinux.

Read More

从官网下载已经训练好的中文训练数据,发现效果比较差。这里结合官方教程及自己的实践记录下如何训练Tesseract4.0.0。本文共分成10个部分来进行讲解。

Read More

在nginx源代码auto/cc目录下有很多编译器配置相关的脚本。除了conf脚本name脚本之外,其他的都直接与编译器相关。Nginx的出色跨平台性(Linux、Darwin、Solaris、Win32 等)就有这些脚本的贡献,这些脚本主要有:

Read More

在分析编译器配置总控代码之前,我们先来分析auto/cc/name脚本,此脚本主要是完成编译器名称的设置,从而在后续脚本中可以根据编译器名称选择对应的编译器。

Read More

在configure脚本中,运行完auto/options和auto/init脚本后,接下来就运行auto/sources脚本。这个脚本是为编译做准备的,定义了所有需要编译的modules,以及编译这些modules需要哪些源文件。

Read More

我们可以用不同字体(fonts)文本来生成图片,然后再用这些生成的图片来进行tesseract训练。在进行训练的宿主机上必须有这些字体。

Read More

在做图片文字提取时,会使用到tesseract开源软件。这里简要介绍tesseract的安装,需要安装两个部分:tesseract引擎、训练好的语言数据。这里我们会分别介绍Linux与Windows平台的安装方法。

Read More