|
In questo momento,
FreeOCR (o per meglio dire
Tesseract, dal momento che FreeOCR è solo la sua versione compilata), è
probabilmente il miglior programma gratuito/open source per il
riconoscimento ottico dei caratteri. Per riconoscimento ottico dei
caratteri (in breve OCR) si intende la capacità del computer di
riconoscere il testo presente in un'immagine, in genere acquisita
attraverso uno scanner, ma anche -per esempio- da un documento PDF.
Una volta che il computer avrà
riconosciuto quell'immagine come documento di testo, sarà possibile
utilizzare tutte le normali funzioni che si usano su un normale testo,
come ricerca e sostituzione, controllo ortografico, cambiare carattere e
impaginazione, ecc.
Purtroppo i programmi di OCR sono in
genere costosi (Omnipage e Fine Reader i più famosi), ma anche dotati di
caratteristiche che non si trovano nei corrispondenti programmi
gratuiti, a partire dalla capacità di riconoscere automaticamente il
layout di una pagina e di riprodurlo tale e quale, oppure di caricare e
convertire direttamente in .doc (o altro formato testuale) i documenti
PDF. Per chi non vuole spendere, comunque, esistono oggi dei programmi
gratuiti abbastanza buoni anche per la lingua italiana, primo tra tutti
FreeOCR/Tesseract. Con questo programma è anche possibile convertire i
documenti PDF, ma a prezzo di un paio di passaggi in più.
Ecco dunque una guida per
FreeOCR/Tesseract comprensibile a tutti.
-
Scaricate e installate
FreeOCR.
-
Andate in
questa
pagina e scaricate il file
Italian language data for Tesseract (tesseract-2.00.ita.tar.gz)
Utilizzate il vostro
programma di archiviazione per scompattare in qualche cartella
l'archivio con estensione .gz che avete appena scaricato. Se non avete
un programma di archiviazione decente, scaricate
IZArc o Universal Extractor da
qui.
Copiate i file presenti
nella cartella che avete appena scompattato, e incollateli nella
cartella tesseract/tessdata
di FreeOCR (in genere
presente in C:Programmi/FreeOCR24/tesseract). Se non aggiungete i file
in italiano accanto ai corrispondenti inglesi, il programma non
funzionerà con l'italiano.
Avviate
FreeOCR e impostate
la lingua italiana, come nell'immagine qui sotto:

Acquisite il testo. Se
avete uno scanner, impostatelo a 300dpi. In genere impostando una
risoluzione superiore o inferiore si ottengono risultati peggiori (a
meno di caratteri microscopici, nel qual caso si può salire a 600 dpi).
Se invece avete un documento PDF che volete convertire, seguite la parte
iniziale della guida per convertire i
PDF.
Adesso è molto importante
delimitare il testo con il mouse, tracciando un rettangolo intorno alla
parte del testo da convertire, soprattutto se i bordi della pagina
digitalizzata sono un po' scuri (se non lo fate, il testo si potrebbe
riempire di caratteri strani).

Cliccate
e finalmente potrete avere in italiano il vostro documento.
Pur non essendo
paragonabile ai programmi del genere a pagamento, FreeOCR svolge lo
stesso un lavoro abbastanza buono (il migliore tra i programmi gratuiti
che abbia provato), e se imparete bene ad usarlo (non che
ci voglia molto...), otterrete dei risultati soddisfacenti.
|