Leciono
uma disciplina onde a evolução tecnológica
é permanente. Minhas apostilas, ainda da era pré-computador,
estavam tão desatualizadas que eu preferia indicar um livro
texto, pois tempo para redigitá-las não tenho tempo
e pagar para fazê-lo não seria compensador. A solução,
evidentemente, seria usar um programa OCR (de "Optical Character
Recognition", ou reconhecimento ótico de caracteres).
Mas a maioria dos que existem são otimizados para o idioma
inglês e não se entendem com os acentos do português.
E quando se trata de OCR, porcentagens de acerto aparentemente excelentes
ficam longe do ideal (em um texto de 40 mil caracteres, um programa
que acerte 99% ainda deixa quatrocentos erros espalhados pelo texto,
cuja identificação pode dar mais trabalho que redigitar
o texto). O resultado é que até ano passado meus alunos
continuavam sem apostila.
Há
alguns meses, nos salões da PC Expo, descobri o OmniPage
Pro 7.0, da Caere. Eu já conhecia seu irmão menor,
o OmniPage. Embora um dos melhores da categoria, estava longe de
ser satisfatório, de modo que não me entusiasmei muito.
Até saber que aquela versão era poliglota, aceitando
diversos idiomas. Resolvi então experimentá-lo e tive
uma grata surpresa: o programa não é perfeito, mas
chega perto. E a razão é simples: é poliglota
e domina o português (do Brasil). Além de aceitar mais
dez idiomas. Durante a instalação, basta informar
o idioma preferido que ele se instala com menus e janelas neste
idioma, inclusive português (exceto o help, que ainda vem
em inglês, embora todos os manuais sejam fornecidos nas três
línguas básicas: inglês, espanhol e português).
Mas esta é a menor das vantagens. A maior é o grau
de acerto no reconhecimento de palavras.
O programa
obedece ao padrão TWAIN, o que o torna capaz de manejar qualquer
scanner TWAIN. A operação é simples, vem bem
explicada no manual e é ainda mais facilitada pelo "wizard",
uma função que abre algumas janelas com perguntas
básicas sobre o tipo de texto a ser reconhecido (número
de colunas, etc.), recebe os dados e toca o bonde sem mais delongas.
Varrido o texto, o programa o reconhece e, se você desejar,
permite revê-lo. É neste ponto que o programa brilha,
graças a seu dicionário interno em português
com o qual cada palavra é comparada. Na janela de visualização
do texto as palavras aparecem em três cores. Em preto, as
que o programa reconheceu (e não encontrei um único
erro entre elas, depois de revisar mais de cem páginas).
Em verde, as que não reconheceu por não encontrá-las
no dicionário (a maioria está correta, apenas não
consta no dicionário por se tratar de nomes próprios
ou palavras pouco conhecidas). E em azul aquelas que propõe
alterar para a grafia mais semelhante encontrada no dicionário
(os poucos erros geralmente se concentram aqui). Mande verificar
o texto e cada palavra duvidosa aparece com a grafia reconhecida,
ao lado da "imagem" ampliada da palavra e da grafia proposta,
em uma janela com botões que permitem ignorar, aceitar a
alteração ou incorporar a palavra ao dicionário.
Isto feito, o texto pode ser gravado em disco (em 41 formatos diferentes),
ser enviado para o clipboard ou para o Exchange de Windows 95.
Isto
é só o básico. O OmniPage Pro permite muito
mais: alterar manualmente as "zonas" de texto, especificar
as que são figuras, aceitar ou não a formatação
do texto original e até mesmo especificar idiomas diferentes
para diferentes trechos do texto. Mas sua maior qualidade é
a forma incrivelmente eficiente com a qual ele trata os caracteres
acentuados do português.
O programa,
como eu disse, não é perfeito. Tem uma desagradável
tendência de "partir" algumas palavras hifenizadas
que continuam na linha seguinte e confunde irritantemente a conjunção
"e" com o verbo "é", ignorando o acento
e produzindo um erro particularmente difícil de identificar.
Mas no cômputo geral, não há como não
classificá-lo entre o "ótimo" e o "excelente".
E, graças a ele, meus alunos este ano estão recebendo
apostilas atualizadas.
B.Piropo