OCR

 Programmi free per il riconoscimento ottico dei caratteri

I programmi OCR (riconoscimento ottico dei caratteri) sono quei programmi che consentono di acquisire un'immagine (da scanner, da fotocamera, da una schermata grafica del pc, da un file PDF, ecc.) e di convertirla automaticamente in un formato testuale (per esempio .doc di Word, o rtf, o html, ecc.) su cui possono essere eseguite delle modiche, al pari di qualsiasi testo.


 
 

Cuneiform OCR

commento modificato: Aprile 2017

Cuneiform è un valido programma open source di OCR che riconosce anche in italiano.
E' possibile sia selezionare manualmente il riconoscimento su certe aree, che fare tutto in automatico (in questo caso è possibile che ci siano più errori).
Il riconoscimento è molto buono, e se nella pagina c'è un layout con tabelle, Cuneiform cerca di ricrearlo, purché nel sistema sia installato MS Word. In questo caso, viene aperto direttamente quest'ultimo con l'impaginazione di partenza, altrimenti il testo verrà salvato in RTF (con delle limitazioni: se sono presenti immagini, nel file RTF non ci saranno, se ci sono tabelle, il testo sarà su una sola colonna; a parte questo funziona allo stesso modo con o senza Word).

Nel mio caso, ho avuto problemi a far funzionare Cuneiform direttamente con lo scanner, perché al termine della scansione mi usciva un messaggio di errore; dunque ho dovuto digitalizzare il testo come immagine e caricarlo (come immagine) in Cuneiform.

Nel complesso Cuneiform svolge un buon lavoro, ma, come per FreeOCR, un paragone con i programmi commerciali del settore è difficile. Il mio giudizio tiene conto del fatto che non ci siano programmi gratuiti OCR di altissima qualità, per quanto la qualità del riconoscimento di Cuneiform sia comunque buona.

Al momento è per la qualità del riconoscimento il miglior programma gratuito di OCR, dato che è in grado di mantenere -in molti casi- la formattazione del testo originale.

ATTENZIONE: per il download, scaricare la versione con il suffisso _eng (comprendente anche l'italiano). Altrimenti il programma sarà in russo e andrete poco lontano.
Su Programmifree c'è anche una breve guida per Cuneiform OCR, così come un video che spiega come riconoscere il testo in un documento acquisito da scanner o cellulare.

 

Download

GIUDIZIO: BUONO ++
 

 
 
FreeOCR

commento modificato: Luglio 2017

FreeOCR è un valido programma, utilizzabile gratuitamente anche per scopi commerciali, per il riconoscimento e la conversione dei caratteri (per esempio del testo acquisito con uno scanner).

FreeOCR funziona bene con la lingua italiana. Su Programmifree ho scritto una semplice guida per FreeOCR.

Le ultime versioni consentono anche di convertire da PDF a formati di testo (txt, ecc.) e, in caso di digitalizzazioni con un basso numero di DPI, riescono ad avere risultati pari o addirittura migliori rispetto a quelli di Cuneiform (che nel complesso trovo ancora leggermente superiore).

IMPORTANTE: ai fini di un buon riconoscimento, occorre selezionare con il mouse l'area di cui eseguire il riconoscimento (indispensabile se ai bordi ci sono difetti o curvature della carta, per esempio in caso si stia passando un libro con lo scanner, ecc.). Questo perché FreeOCR non è in grado di rimuovere automaticamente i bordi, o le aree non attinenti al testo. Se non lo fate, il testo si riempirà di caratteri strani.

 

download

GIUDIZIO: BUONO  +
 

 
 
Kadmos

Kadmos è un plugin OCR per Irfanview; in altre parole consente di caricare un'immagine in IrfanView (in genere presa da uno scanner o da una fotocamera digitale) e di tradurla in un documento di testo.

Per farlo funzionare, basta aprire un'immagine in Irfanview, cliccare su Options->Start OCR, impostare lingua e dizionario e in ultimo tracciare con il mouse un rettangolo nell'area dell'immagine in cui vogliamo effettuare il riconoscimento dei caratteri. Su Programmifree è presente una guida per riconoscere un PDF con Kadmos.

 Dopo pochi secondi apparirà il testo che Kadmos ha riconosciuto in una nuova finestra del Blocco Note. All'inizio sembra che la lingua italiana non sia presente, ma in realtà basta aggiungerla manualmente (cliccando sul bottone 'Manage classifiers and dictionaries'). Il dizionario italiano non è granché e dà errori, tuttavia il motore funziona abbastanza bene. La qualità del riconoscimento è al momento inferiore a Cuneiform, ma quasi sullo stesso livello di FreeOCR.

Kadmos funziona anche con i PDF, caricando/installando dei plugin aggiuntivi in Irfanview, ma in questo caso la qualità del riconoscimento mi è sembrata peggiore rispetto a quella delle immagini (nulla vieta comunque di salvare un PDF come immagine, per esempio con Pdf-X-Change Viewer, e analizzarla con quello).

 

download

GIUDIZIO: BUONO +
 

 
     
 
Altri programmi di OCR interessanti:


Free OCRtoWord (da scanner a testo editabile)
JOCR (valido, ma richiede MS Office installato)
Orpalis PDF OCR free (esegue l'OCR in qualsiasi PDF, davvero valido)
Puma.NET (basato sul motore di Cuneiform)
SimpleOCR
 

OCR online (OCR senza installare né scaricare nulla)

Capture2Text (riconosce testo in una finestra o un'immagine)

Get Windows Text (riconosce e copia il testo nelle finestre del sistema operativo)
Textify (riconoscere e copiare il testo nelle finestre del sistema operativo)

ShareX (cattura e modifica schermate, con funzione OCR cloud opzionale)