OCR

 (programmi free per il riconoscimento ottico dei caratteri)

I programmi OCR (riconoscimento ottico dei caratteri) sono quei programmi che consentono di acquisire un'immagine (da scanner, da fotocamera, da una schermata grafica del pc, da un file PDF, ecc.) e di convertirla automaticamente in un formato testuale (per esempio .doc di Word, o rtf, o html, ecc.) su cui possono essere eseguite delle modiche, al pari di qualsiasi testo.

 

TopOCR
Al momento è l'unico programma gratuito di OCR in grado di riconoscere i documenti anche in lingua italiana. E' specifico per le fotocamere digitali (cioé è impostato soprattutto per riconoscere i caratteri dalle immagini prese da una fotocamera), tuttavia funziona anche con gli scanner, e con le immagini che possiamo già avere sul computer (in formato bmp, gif, jpg e tiff). Purtroppo non viene accettato il formato PDF (a meno di convertire i documenti PDF in immagini).
Tra le varie lingue, è compreso (per fortuna) anche l'italiano.

Il funzionamento è molto elementare: scordatevi di convertire qualche pagina lasciandone inalterato l'aspetto grafico (layout). Tutto il testo verrà convertito in un'unica colonna. Inoltre alcune parole vengono riconosciute male, e occorre controllare e correggere il testo convertito con molta cura.

Il giudizio è difficile, perché la differenza con i rispettivi programmi a pagamento (a partire da Ominpage e FineReader) è davvero moltissima. Tuttavia è uno dei pochi programmi OCR free in grado di riconoscere un testo in italiano, e se si impara a impostare correttamente (soprattutto a scattare le immagini con la fotocamera nel modo giusto), si possono ottenere risultati abbastanza buoni, anche per la lingua italiana (i risultati invece sono migliori per l'inglese).

Ad ogni modo, gli considero superiore (per la lingua italiana) FreeOCR-Tesseract.

download

GIUDIZIO: ABBASTANZA BUONO anche per l'italiano
 

FreeOCR (Tesseract)
FreeOCR è la versione gratuita e compilata per Windows di Tesseract (programma OCR opensource). Si può utilizzare gratuitamente anche per scopi commerciali.

Per nostra fortuna, dopo essere stato acquisito da Google continua ad essere aggiornato con una certa regolarità (e a restare open source), ma soprattutto è disponibile anche la lingua italiana, che va scaricata da qui (occorre scaricare il file Italian language data for Tesseract, scompattarlo con un programma di archiviazione, copiare e incollare i file presenti nella cartella tesseract/tessdata di FreeOCR24. A questo punto basterà, nell'interfaccia grafica di FreeOCR24, selezionare la lingua italiana vicino a OCR Language).

FreeOCR24 funziona bene con la lingua italiana, decisamente meglio di TopOCR. In questo momento lo considero il miglior programma di OCR gratuito per la lingua italiana Su Programmifree ho scritto una semplice guida per FreeOCR.

IMPORTANTE: ai fini di un buon riconoscimento, occorre selezionare con il mouse l'area di cui eseguire il riconoscimento (indispensabile se ai bordi ci sono difetti o curvature della carta, per esempio in caso si stia passando un libro con lo scanner, ecc.). Questo perché FreeOCR non è in grado di rimuovere automaticamente i bordi, o le aree non attinenti al testo. Se non lo fate, il testo si riempirà di caratteri strani.

download

GIUDIZIO: PIU' CHE BUONO

Altri programmi di OCR interessanti:
SimpleOCR