|
In questo momento,
FreeOCR (o per meglio dire
Tesseract, dal momento che FreeOCR è solo la sua versione compilata), è
probabilmente il miglior programma gratuito/open source per il
riconoscimento ottico dei caratteri. Per riconoscimento ottico dei
caratteri (in breve OCR) si intende la capacità del computer di
riconoscere il testo presente in un'immagine, in genere acquisita
attraverso uno scanner, ma anche -per esempio- da un documento PDF.
Una volta che il computer avrà
riconosciuto quell'immagine come documento di testo, sarà possibile
utilizzare tutte le normali funzioni che si usano su un normale testo,
come ricerca e sostituzione, controllo ortografico, cambiare carattere e
impaginazione, ecc.
Purtroppo i programmi di OCR sono in
genere costosi (Omnipage e Fine Reader i più famosi), ma anche dotati di
caratteristiche che non si trovano nei corrispondenti programmi
gratuiti, a partire dalla capacità di riconoscere automaticamente il
layout di una pagina e di riprodurlo tale e quale, oppure di caricare e
convertire direttamente in .doc (o altro formato testuale) i documenti
PDF. Per chi non vuole spendere, comunque, esistono oggi dei programmi
gratuiti abbastanza buoni anche per la lingua italiana, primo tra tutti
FreeOCR/Tesseract. Con questo programma è anche possibile convertire i
documenti PDF, ma a prezzo di un paio di passaggi in più.
Ecco dunque una guida per
FreeOCR/Tesseract comprensibile a tutti.
-
Scaricate e installate
FreeOCR (esattamente dove
c'è scritto download)
-
Andate in
questa
pagina e scaricate il file
Italian language data for Tesseract (tesseract-2.00.ita.tar.gz)
Utilizzate il vostro
programma di archiviazione per scompattare in qualche cartella
l'archivio con estensione .gz che avete appena scaricato. Se non avete
un programma di archiviazione decente, scaricate
IZArc o Universal Extractor da
qui.
Scompattate questa cartella
appena scaricata dove volete, anche sul desktop.
Copiate tutti i file della
cartella appena scompattata in C:/Windows/tessdata . So che è una
cosa sgradevole andare a mettere le mani nella cartella C:Windows, ma se non aggiungete i file
in italiano, il programma non
funzionerà con i documenti nella nostra lingua.
Avviate
FreeOCR e impostate
a lingua italiana, come nell'immagine qui sotto:

Acquisite il testo. Se
avete uno scanner, impostatelo a 300dpi. In genere impostando una
risoluzione superiore o inferiore si ottengono risultati peggiori (a
meno di caratteri microscopici, nel qual caso si può salire a 600 dpi).
Se avete un documento PDF, potete direttamente cliccare su
OpenPDF.
Adesso è molto importante
delimitare il testo con il mouse, tracciando un rettangolo intorno alla
parte del testo da convertire, soprattutto se i bordi della pagina
digitalizzata sono un po' scuri (se non lo fate, il testo si potrebbe
riempire di caratteri strani).

Cliccate
e finalmente potrete avere in italiano il vostro documento.
Pur non essendo
paragonabile ai programmi del genere a pagamento, FreeOCR svolge lo
stesso un lavoro abbastanza buono (il migliore tra i programmi gratuiti
che abbia provato), e se imparete bene ad usarlo (non che
ci voglia molto...), otterrete dei risultati soddisfacenti.
|