Para converter um documento digitalizado, seja ele em formato de imagem (JPG, GIF, BMP) ou PDF em um texto que poderá ser editado utilizamos os chamados programas de OCR – Optical Character Recognition.
OCR é uma tecnologia para reconhecer caracteres a partir de um arquivo de imagem ou mapa de bits sejam eles escaneados, escritos a mão, datilografados ou impressos. Dessa forma, através do OCR é possível obter um arquivo de texto editável por um computador.
Existem diversos programas de OCR disponíveis no mercado cada um com sua particularidade, uns pagos, outros não. Neste post falarei de duas ferramentas on-line e gratuitas. Não há necessidade de instalar nada nem precisa de cadastro ou mesmo fornecer e-mail, basta ter acesso a internet.
Free OCR
Para utilizar o Free OCR entre no endereço http://www.free-ocr.com/. A interface é bem intuitiva, basta selecionar o arquivo que deseja reconhecer o texto, escolher um idioma, preencher o captcha (números da figura) e enviar o arquivo.
Como a maioria das ferramentas gratuitas, ele possui algumas limitações como restrição no tamanho das imagens que não devem ser maiores do que 2MB nem superiores a 5000 pixels. Há também um limite de 10 uploads de imagens por hora. O resultado final é sempre um texto simples sem nenhuma formatação.
Free-OCR suporta vários idiomas: búlgaro, catalão, checo, dinamarquês, holandês, Inglês, finlandês, francês, alemão, grego, húngaro, indonésio, italiano, letão, lituano, norueguês, polaco , português, romeno, russo, sérvio, eslovaco, esloveno, espanhol, sueco, filipino, turco, ucraniano e vietnamita.
New OCR
O New OCR funciona da mesma maneira que o Free OCR com a opção de lém de fazer upload das imagens poder fornecer o link de uma imagem já existente na web. Para acessar o New OCR acesse o endereço http://www.newocr.com/
Do mesmo modo que o Free OCR, selecione o arquivo que deseja reconhecer o texto, escolha um idioma e clique no botão UPLOAD.
Após o upload é apresentada uma tela para selecionar o texto da imagem. Feito isso basta clicar no botão OCR.