OCR

 Programmi free per il riconoscimento ottico dei caratteri

I programmi OCR (riconoscimento ottico dei caratteri) sono quei programmi che consentono di acquisire un'immagine (da scanner, da fotocamera, da una schermata grafica del pc, da un file PDF, ecc.) e di convertirla automaticamente in un formato testuale (per esempio .doc di Word, o rtf, o html, ecc.) su cui possono essere eseguite delle modiche, al pari di qualsiasi testo.

 
 
FreeOCR
FreeOCR è la versione gratuita e compilata per Windows di Tesseract (programma OCR opensource). Si può utilizzare gratuitamente anche per scopi commerciali.

Per nostra fortuna, dopo essere stato acquisito da Google, continua ad essere aggiornato con una certa regolarità (e a restare open source), ma soprattutto è disponibile anche la lingua italiana, che va scaricata da qui (occorre scaricare il file Italian language data for Tesseract, scompattarlo con un programma di archiviazione, copiare i file presenti nella cartella in C:/Windows/tessdata, come ho scritto nella guida. A questo punto basterà, nell'interfaccia grafica di FreeOCR, selezionare la lingua italiana vicino a OCR Language).

FreeOCR funziona bene con la lingua italiana, decisamente meglio di TopOCR. In questo momento lo considero il miglior programma di OCR gratuito per la lingua italiana. Su Programmifree ho scritto una semplice guida per FreeOCR.
Le ultime versioni consentono anche di convertire da PDF a formati di testo (txt, ecc.).

IMPORTANTE: ai fini di un buon riconoscimento, occorre selezionare con il mouse l'area di cui eseguire il riconoscimento (indispensabile se ai bordi ci sono difetti o curvature della carta, per esempio in caso si stia passando un libro con lo scanner, ecc.). Questo perché FreeOCR non è in grado di rimuovere automaticamente i bordi, o le aree non attinenti al testo. Se non lo fate, il testo si riempirà di caratteri strani.

Il mio giudizio tiene conto del fatto che non ci siano programmi gratuiti OCR di altissima qualità. Altrimenti, un confronto con i vari Omnipage o FineReader sarebbe improponibile.

 

download (ultima versione): durante l'installazione, si collega in internet per gli aggiornamenti aggiuntivi
download (vecchia versione 2.6)

GIUDIZIO: MOLTO BUONO
 

 
 

MoreDataFast

Basato sul motore di Tesseract, consente di estrarre il testo contenuto in immagini. L'utilizzo è molto semplice, basta caricare un'immagine contenente del testo (per esempio proveniente da un documento PDF).

E' un'evoluzione del programma MoreData, presente da tempo su Programmifree. MoreDataFast è stato notevolmente semplificato, tanto che è possibile convertire un'immagine in testo con un solo clic.

Nel complesso è efficace con la lingua italiana, grazie anche alla presenza al suo interno di un dizionario in italiano. Se continueranno ad uscire versioni migliorate, il mio giudizio salirà in proporzione.
Per utilizzare MoreData, è necessario Microsoft Framework 3.5.

MoreDataFast (come già MoreData prima di lui) non richiede installazione.

download
 

GIUDIZIO: PIU' CHE BUONO
 

 
 

TopOCR

E' un programma OCR specifico per le fotocamere digitali (cioé è impostato soprattutto per riconoscere i caratteri dalle immagini prese da una fotocamera), tuttavia funziona anche con gli scanner, e con le immagini che possiamo già avere sul computer (in formato bmp, gif, jpg e tiff). Purtroppo non viene accettato il formato PDF (a meno di convertire i documenti PDF in immagini).
Tra le varie lingue, è compreso (per fortuna) anche l'italiano.

Il funzionamento è molto elementare: scordatevi di convertire qualche pagina lasciandone inalterato l'aspetto grafico (layout). Tutto il testo verrà convertito in un'unica colonna. Inoltre alcune parole vengono riconosciute male, e occorre controllare e correggere il testo convertito con molta cura.

Il giudizio è difficile, perché la differenza con i rispettivi programmi a pagamento (a partire da Ominpage e FineReader) è davvero moltissima. Tuttavia è uno dei pochi programmi OCR free in grado di riconoscere un testo in italiano, e se si impara a impostare correttamente (soprattutto a scattare le immagini con la fotocamera nel modo giusto), si possono ottenere risultati abbastanza buoni, anche per la lingua italiana (i risultati invece sono migliori per l'inglese).

Ad ogni modo, gli considero superiore (per la lingua italiana) MoreData e FreeOCR-Tesseract.

download

GIUDIZIO: ABBASTANZA BUONO anche per l'italiano
 

 
 
Altri programmi di OCR interessanti:

SimpleOCR
JOCR (molto valido, ma richiede MS Office installato)