Sítio do Piropo

B. Piropo

O Globo
Volte
20/10/1997

OmniPage Pro 7.0


Leciono uma disciplina onde a evolução tecnológica é permanente. Minhas apostilas, ainda da era pré-computador, estavam tão desatualizadas que eu preferia indicar um livro texto, pois tempo para redigitá-las não tenho tempo e pagar para fazê-lo não seria compensador. A solução, evidentemente, seria usar um programa OCR (de "Optical Character Recognition", ou reconhecimento ótico de caracteres). Mas a maioria dos que existem são otimizados para o idioma inglês e não se entendem com os acentos do português. E quando se trata de OCR, porcentagens de acerto aparentemente excelentes ficam longe do ideal (em um texto de 40 mil caracteres, um programa que acerte 99% ainda deixa quatrocentos erros espalhados pelo texto, cuja identificação pode dar mais trabalho que redigitar o texto). O resultado é que até ano passado meus alunos continuavam sem apostila.

Há alguns meses, nos salões da PC Expo, descobri o OmniPage Pro 7.0, da Caere. Eu já conhecia seu irmão menor, o OmniPage. Embora um dos melhores da categoria, estava longe de ser satisfatório, de modo que não me entusiasmei muito. Até saber que aquela versão era poliglota, aceitando diversos idiomas. Resolvi então experimentá-lo e tive uma grata surpresa: o programa não é perfeito, mas chega perto. E a razão é simples: é poliglota e domina o português (do Brasil). Além de aceitar mais dez idiomas. Durante a instalação, basta informar o idioma preferido que ele se instala com menus e janelas neste idioma, inclusive português (exceto o help, que ainda vem em inglês, embora todos os manuais sejam fornecidos nas três línguas básicas: inglês, espanhol e português). Mas esta é a menor das vantagens. A maior é o grau de acerto no reconhecimento de palavras.

O programa obedece ao padrão TWAIN, o que o torna capaz de manejar qualquer scanner TWAIN. A operação é simples, vem bem explicada no manual e é ainda mais facilitada pelo "wizard", uma função que abre algumas janelas com perguntas básicas sobre o tipo de texto a ser reconhecido (número de colunas, etc.), recebe os dados e toca o bonde sem mais delongas. Varrido o texto, o programa o reconhece e, se você desejar, permite revê-lo. É neste ponto que o programa brilha, graças a seu dicionário interno em português com o qual cada palavra é comparada. Na janela de visualização do texto as palavras aparecem em três cores. Em preto, as que o programa reconheceu (e não encontrei um único erro entre elas, depois de revisar mais de cem páginas). Em verde, as que não reconheceu por não encontrá-las no dicionário (a maioria está correta, apenas não consta no dicionário por se tratar de nomes próprios ou palavras pouco conhecidas). E em azul aquelas que propõe alterar para a grafia mais semelhante encontrada no dicionário (os poucos erros geralmente se concentram aqui). Mande verificar o texto e cada palavra duvidosa aparece com a grafia reconhecida, ao lado da "imagem" ampliada da palavra e da grafia proposta, em uma janela com botões que permitem ignorar, aceitar a alteração ou incorporar a palavra ao dicionário. Isto feito, o texto pode ser gravado em disco (em 41 formatos diferentes), ser enviado para o clipboard ou para o Exchange de Windows 95.

Isto é só o básico. O OmniPage Pro permite muito mais: alterar manualmente as "zonas" de texto, especificar as que são figuras, aceitar ou não a formatação do texto original e até mesmo especificar idiomas diferentes para diferentes trechos do texto. Mas sua maior qualidade é a forma incrivelmente eficiente com a qual ele trata os caracteres acentuados do português.

O programa, como eu disse, não é perfeito. Tem uma desagradável tendência de "partir" algumas palavras hifenizadas que continuam na linha seguinte e confunde irritantemente a conjunção "e" com o verbo "é", ignorando o acento e produzindo um erro particularmente difícil de identificar. Mas no cômputo geral, não há como não classificá-lo entre o "ótimo" e o "excelente". E, graças a ele, meus alunos este ano estão recebendo apostilas atualizadas.

B.Piropo