Premessa. Il formato PDF
è un insieme di testo e immagini: a seconda di come un documento PDF
viene creato (cioé attraverso una conversione da un documento testuale,
per esempio da un programma di videoscrittura come Word, o simili,
oppure se viene digitalizzato, per esempio da scanner o da fotocamera),
sarà più o meno complesso il convertirlo in un formato testo.
Per formato testo intendo un formato in cui è possibile eseguire delle
ricerche, cambiare delle parole, delle frasi, ecc., cioé un normalissimo
documento di Word, Open Office, o programmi del genere.
Per prima cosa, dobbiamo capire se il
PDF è stato in origine creato da un documento di testo (Word, ecc.): in
questo caso è immediatamente possibile convertirlo in altri formati con
il gratuito
Free PDF to Word converter. Basta caricare il PDF in questo
programma (Cliccando Browse), e poi Convert to Word Document.
Se siamo fortunati, otterremo un file .doc perfettamente utilizzabile in
Word, Open Office, ecc.
Se invece non siamo fortunati
(il PDF proviene da qualche documento digitalizzato senza
OCR), allora il file .doc creato da Free
PDF to Word Converter, oltre ad occupare decine di MB, sarà
completamente inutile. In questo caso cancelliamo il ile .doc ottenuto,
e procediamo con la guida.
L'ideale sarebbero i
programmi di OCR a pagamento (come
Omnipage Pro, Abby FineReader,
ecc.), tuttavia tali programmi sono alquanto costosi, e il nostro
scopo -come sempre- è l'utilizzo di programmi free (d'altra parte il mio sito si chiama Programmifree.com e non in altro modo).
Installiamo l'ottimo programma per
visualizzare i PDF, PDF-X
change Viewer e carichiamo il nostro PDF. Adesso clicchiamo
File-> Export->Export to Image.

Scegliamo di salvare in formato GIF
(Image Type: GIF) e di salvare ogni pagina in un file di
immagine separato (Save each page to a separate image file), come
mostrato qui sotto:

Quando abbiamo fatto, clicchiamo
Export.
Adesso installiamo il nostro
programma di OCR gratuito, TopOCR.
Avviamo TopOCR e impostiamo Settings->Language->Italian.
IMPORTANTE: si può
utilizzare FreeOCR al posto di
TopOCR perché è in grado di ottenere risultati migliori con l'italiano
(questa guida è con TopOCR solo perché l'ho scoperto prima): il
procedimento è quesi identico. Su Programmifree è presente anche una
buona guida per FreeOCR.

Clicchiamo File->Open e
carichiamo l'immagine GIF che abbiamo salvato con PDF-X Change Viewer.
Nel giro di pochi secondi, nella
finestra di destra di TopOCR, comparirà il nostro testo, che
dovremo correggere attentamente prima di salvare. Se la qualità della
digitalizzazione è buona, ci saranno risultati abbastanza buoni
(altrimenti, sarà alquanto dura). Quando abbiamo finito di
correggere questa pagina, la salviamo in formato RTF (o txt, o html, a
seconda di quello che ci serve; in genere sarebbe meglio RTF),
cliccando, dalla finestra su cui abbiamo corretto il testo,
File->Save as.
Oppure, sempre quando abbiamo finito di correggere, selezioniamo tutto
il testo, clicchiamo Edit->Copy, e lo incolliamo in Word
(oppure Open Office, ecc.).
Quindi carichiamo la successiva
immagine GIF (nel caso fosse stato un PDF con più pagine), e
ricominciamo la procedura con TopOCR.
Conclusione: purtroppo i
risultati della conversione, nel caso dell'utilizzo della procedura
PDF-X Change Viewer e TopOCR, variano molto a seconda della
qualità con cui è stato digitalizzato il testo. In certi casi il testo
finale sarà quasi perfetto, in altri andrà ritoccato (o meglio
riscritto) quasi
completamente. Questo perché TopOCR è al momento un programma di
riconoscimento OCR accettabile, ma nulla più. Se in futuro migliorerà, o
se in futuro ci saranno programmi OCR gratuiti superiori ad esso (per la
lingua italiana), allora i risultati che si otterranno con questa guida
saranno di altissimo livello. Se invece utilizzare
la guida per FreeOCR, otterrete risultati anche
migliori.