OCR

 Programmi free per il riconoscimento ottico dei caratteri

I programmi OCR (riconoscimento ottico dei caratteri) sono quei programmi che consentono di acquisire un'immagine (da scanner, da fotocamera, da una schermata grafica del pc, da un file PDF, ecc.) e di convertirla automaticamente in un formato testuale (per esempio .doc di Word, o rtf, o html, ecc.) su cui possono essere eseguite delle modiche, al pari di qualsiasi testo.

 
 

Cuneiform OCR

Cuneiform è un buon programma open source di OCR che riconosce anche in italiano.
E' possibile sia selezionare manualmente il riconoscimento su certe aree, che fare tutto in automatico (in questo caso è possibile che ci siano più errori).
Il riconoscimento è molto buono, e se nella pagina c'è un layout con tabelle, Cuneiform cerca di ricrearlo, purché nel sistema sia installato MS Word. In questo caso, viene aperto direttamente quest'ultimo con l'impaginazione di partenza, altrimenti il testo verrà salvato in RTF (con delle limitazioni: se sono presenti immagini, nel file RTF non ci saranno, se ci sono tabelle, il testo sarà su una sola colonna; a parte questo funziona allo stesso modo con o senza Word).

Nel mio caso, ho avuto problemi a far funzionare Cuneiform direttamente con lo scanner, perché al termine della scansione mi usciva un messaggio di errore; dunque ho dovuto digitalizzare il testo come immagine e caricarlo (come immagine) in Cuneiform.

Nel complesso Cuneiform svolge un buon lavoro, ma, come per FreeOCR, un paragone con i programmi commerciali del settore è difficile. Il mio giudizio tiene conto del fatto che non ci siano programmi gratuiti OCR di altissima qualità, per quanto la qualità del riconoscimento di Cuneiform sia comunque buona.

Al momento lo considero per la qualità del riconoscimento il miglior programma gratuito di OCR, almeno un gradino al disopra di FreeOCR.

ATTENZIONE: per il download, scaricare la versione con il suffisso _eng (comprendente anche l'italiano). Altrimenti il programma sarà in russo e andrete poco lontano. Su Programmifree c'è anche una breve guida per Cuneiform OCR.

Homepage (in russo) (link per il download in fondo alla pagina)

Download

GIUDIZIO: BUONO ++
 

 
 
Kadmos

commento inserito: Luglio 2014

Kadmos è un plugin OCR per Irfanview; in altre parole consente di caricare un'immagine in IrfanView (in genere presa da uno scanner o da una fotocamera digitale) e di tradurla in un documento di testo.

Per farlo funzionare, basta aprire un'immagine in Irfanview, cliccare su Options->Start OCR, impostare lingua e dizionario e in ultimo tracciare con il mouse un rettangolo nell'area dell'immagine in cui vogliamo effettuare il riconoscimento dei caratteri. Su Programmifree è presente una guida per riconoscere un PDF con Kadmos.

 Dopo pochi secondi apparirà il testo che Kadmos ha riconosciuto in una nuova finestra del Blocco Note. All'inizio sembra che la lingua italiana non sia presente, ma in realtà basta aggiungerla manualmente (cliccando sul bottone 'Manage classifiers and dictionaries'). Il dizionario italiano non è granché e dà errori, tuttavia il motore funziona abbastanza bene; da alcune prove la qualità del riconoscimento mi sembra inferiore a Cuneiform, ma migliore di FreeOCR.

Kadmos funziona anche con i PDF, caricando/installando dei plugin aggiuntivi in Irfanview, ma in questo caso la qualità del riconoscimento mi è sembrata peggiore rispetto a quella delle immagini (nulla vieta comunque di salvare un PDF come immagine, per esempio con Pdf-X-Change Viewer, e analizzarla con quello).

 

download

GIUDIZIO: BUONO +
 

 
 
FreeOCR

commento modificato: Ottobre 2013

FreeOCR è la versione gratuita e compilata per Windows di Tesseract (programma OCR opensource). Si può utilizzare gratuitamente anche per scopi commerciali.

Per nostra fortuna, dopo essere stato acquisito da Google, Tesseract (su cui FreeOCR è basato) continua ad essere aggiornato con una certa regolarità (e a restare open source), ma soprattutto è disponibile anche la lingua italiana, che nelle ultime versioni è integrata nel programma di installazione (in passato andava scaricata a parte).

FreeOCR funziona bene con la lingua italiana. Su Programmifree ho scritto una semplice guida per FreeOCR.

Le ultime versioni consentono anche di convertire da PDF a formati di testo (txt, ecc.).

IMPORTANTE: ai fini di un buon riconoscimento, occorre selezionare con il mouse l'area di cui eseguire il riconoscimento (indispensabile se ai bordi ci sono difetti o curvature della carta, per esempio in caso si stia passando un libro con lo scanner, ecc.). Questo perché FreeOCR non è in grado di rimuovere automaticamente i bordi, o le aree non attinenti al testo. Se non lo fate, il testo si riempirà di caratteri strani.

 

download (ultima versione, a volte problemi con il download): durante l'installazione, si collega in internet per gli aggiornamenti aggiuntivi
download FreeOCR 4.2 (download - versione 4.2)

GIUDIZIO: BUONO
 

 
 
Abbyy ScreenShot Reader (OCR da screenshot)

commento modificato: Aprile 2014

Richiede registrazione tramite email (sempre gratuita).

E' un programma che consente di eseguire il riconoscimento dei caratteri (OCR) da screenshot, cioé dallo schermo del computer. In questo modo, si possono riconoscere facilmente testi in immagini, PDF, ecc.

ABBYY è da molti anni una delle migliori società per l'OCR, e il fatto che dia un programma di questa qualità gratuitamente è degno di nota.

Ovviamente non è il grande ABBYY FineReader, ma è comunque più che funzionale per la maggior parte degli utenti. L'utilizzo è semplice: basta caricare a tutto schermo una pagina (jpg, pdf o altro) con il testo da riconoscere e scegliere l'area per il riconoscimento. Dopo di che il testo potrà essere copiato negli appunti, o salvato in un file (txt,rtf o doc).

Se il testo è abbastanza grande, il riconoscimento sarà eccellente. Se i caratteri sono molto piccoli, invece, ci saranno delle difficoltà e alcune parole non saranno riconosciute correttamente (verrà fuori una serie di caratteri senza senso). Provando ad aumentare lo zoom sull'immagine da riconoscere, in alcuni casi si può risolvere la cosa, ma non sempre (se i caratteri divengono sfocati dall'ingrandimento, non si risolverà nulla).

Ovviamente non ci sono funzionalità più avanzate (per esempio riconoscere un intero PDF), ma già così, considerando che è gratuito, e che i programmi a pagamento di OCR non sono a buon mercato, è molto valido.

NOTA: Abbyy Screenshot Reader non è più ufficialmente gratuito, tuttavia il link qui di seguito è ancora attivo (basta inserire la propria email e ci verrà inviato dalla Abbyy il link per scaricarlo e il seriale per la registrazione). Se questo programma vi serve, vi suggerisco comunque di prenderlo subito, perché non si sa per quanto tempo la Abbyy manterrà questo link rimarrà funzionante.

download

GIUDIZIO: BUONO +
 

 
 
Altri programmi di OCR interessanti:


JOCR (valido, ma richiede MS Office installato)
MoreDataFast (OCR basato su Tesseract)
Puma.NET (basato sul motore di Cuneiform)
SimpleOCR
TopOCR (OCR specifico per fotocamere digitali)

OCR online (OCR senza installare né scaricare nulla)