OCR

 Programmi free per il riconoscimento ottico dei caratteri

I programmi OCR (riconoscimento ottico dei caratteri) sono quei programmi che consentono di acquisire un'immagine (da scanner, da fotocamera, da una schermata grafica del pc, da un file PDF, ecc.) e di convertirla automaticamente in un formato testuale (per esempio .doc di Word, o rtf, o html, ecc.) su cui possono essere eseguite delle modiche, al pari di qualsiasi testo.

 
 

Cuneiform OCR

Cuneiform è un buon programma open source di OCR che riconosce anche in italiano.
E' possibile sia selezionare manualmente il riconoscimento su certe aree, che fare tutto in automatico (in questo caso è possibile che ci siano più errori).
Il riconoscimento è molto buono, e se nella pagina c'è un layout con tabelle, Cuneiform cerca di ricrearlo, purché nel sistema sia installato MS Word. In questo caso, viene aperto direttamente quest'ultimo con l'impaginazione di partenza, altrimenti il testo verrà salvato in RTF (con delle limitazioni: se sono presenti immagini, nel file RTF non ci saranno, se ci sono tabelle, il testo sarà su una sola colonna; a parte questo funziona allo stesso modo con o senza Word).

Nel mio caso, ho avuto problemi a far funzionare Cuneiform direttamente con lo scanner, perché al termine della scansione mi usciva un messaggio di errore; dunque ho dovuto digitalizzare il testo come immagine e caricarlo (come immagine) in Cuneiform.

Nel complesso Cuneiform svolge un buon lavoro, ma, come per FreeOCR, un paragone con i programmi commerciali del settore è difficile. Il mio giudizio tiene conto del fatto che non ci siano programmi gratuiti OCR di altissima qualità, per quanto la qualità del riconoscimento di Cuneiform sia comunque buona.

Al momento lo considero per la qualità del riconoscimento il miglior programma gratuito di OCR, almeno un gradino al disopra di FreeOCR.

ATTENZIONE: per il download, scaricare la versione con il suffisso _eng (comprendente anche l'italiano). Altrimenti il programma sarà in russo e andrete poco lontano. Su Programmifree c'è anche una breve guida per Cuneiform OCR.

Homepage

Download

GIUDIZIO: MOLTO BUONO
 

 
 
FreeOCR
FreeOCR è la versione gratuita e compilata per Windows di Tesseract (programma OCR opensource). Si può utilizzare gratuitamente anche per scopi commerciali.

Per nostra fortuna, dopo essere stato acquisito da Google, continua ad essere aggiornato con una certa regolarità (e a restare open source), ma soprattutto è disponibile anche la lingua italiana, che va scaricata da qui (occorre scaricare il file Italian language data for Tesseract, scompattarlo con un programma di archiviazione, copiare i file presenti nella cartella in C:/Windows/tessdata, come ho scritto nella guida. A questo punto basterà, nell'interfaccia grafica di FreeOCR, selezionare la lingua italiana vicino a OCR Language).

FreeOCR funziona bene con la lingua italiana, decisamente meglio di TopOCR. Su Programmifree ho scritto una semplice guida per FreeOCR.
Le ultime versioni consentono anche di convertire da PDF a formati di testo (txt, ecc.).

IMPORTANTE: ai fini di un buon riconoscimento, occorre selezionare con il mouse l'area di cui eseguire il riconoscimento (indispensabile se ai bordi ci sono difetti o curvature della carta, per esempio in caso si stia passando un libro con lo scanner, ecc.). Questo perché FreeOCR non è in grado di rimuovere automaticamente i bordi, o le aree non attinenti al testo. Se non lo fate, il testo si riempirà di caratteri strani.

 

download (ultima versione): durante l'installazione, si collega in internet per gli aggiornamenti aggiuntivi
download (vecchia versione 2.6)

GIUDIZIO: PIU' CHE BUONO
 

 
 

TopOCR

E' un programma OCR specifico per le fotocamere digitali (cioé è impostato soprattutto per riconoscere i caratteri dalle immagini prese da una fotocamera), tuttavia funziona anche con gli scanner, e con le immagini che possiamo già avere sul computer (in formato bmp, gif, jpg e tiff). Purtroppo non viene accettato il formato PDF (a meno di convertire i documenti PDF in immagini).
Tra le varie lingue, è compreso (per fortuna) anche l'italiano.

Il funzionamento è molto elementare: scordatevi di convertire qualche pagina lasciandone inalterato l'aspetto grafico (layout). Tutto il testo verrà convertito in un'unica colonna. Inoltre alcune parole vengono riconosciute male, e occorre controllare e correggere il testo convertito con molta cura.

Il giudizio è difficile, perché la differenza con i rispettivi programmi a pagamento (a partire da Ominpage e FineReader) è davvero moltissima. Tuttavia è uno dei pochi programmi OCR free in grado di riconoscere un testo in italiano, e se si impara a impostare correttamente (soprattutto a scattare le immagini con la fotocamera nel modo giusto), si possono ottenere risultati abbastanza buoni, anche per la lingua italiana (i risultati invece sono migliori per l'inglese).

NOTA: TopOCR non è più sviluppato (ora è solo a pagamento). il link qui di seguito è per scaricare l'ultima versione gratuita.

download

GIUDIZIO: ABBASTANZA BUONO anche per l'italiano
 

 
 
Altri programmi di OCR interessanti:

SimpleOCR
MoreDataFast (OCR semplice ed efficace basato su Tesseract)
JOCR (valido, ma richiede MS Office installato)