guida riscritta
interamente: Ottobre 2015
Ci sono due tipi di PDF:
quelli creati con un programma di videoscrittura tipo Word, OpenOffice,
ecc., e quelli creati da scanner (o fotografando con lo smartphone
una pagina, che è più o meno la stessa cosa).
I primi potranno essere
facilmente convertiti in testo, tramite un apposito programma, in pochi
secondi. Per i PDF creati da scanner (o con il cellulare), invece,
l'operazione è più lunga, perché dovremo eseguire il riconoscimento dei
caratteri, chiamato OCR.
Purtroppo non esiste una soluzione intermedia e non
esistono scorciatoie. Se abbiamo un PDF creato con lo scanner e vogliamo
poter utilizzare il testo in qualsiasi programma di word processor,
dobbiamo eseguire
l'OCR.
Come capire se un
PDF è stato creato con uno scanner o con un programma di
videoscrittura?
E' molto semplice: o dalla grandezza (un PDF creato con lo
scanner sarà di circa 0.6/1MB per pagina, contro 0.03 MB per pagina di un PDF creato con i software di
scrittura), o anche, semplicemente, provando a convertire il PDF
in .doc(x) con un programma come UniPDF.
Vi accorgerete immediatamento di che tipo di PDF vi
trovate davanti: ammesso che la conversione avvenga senza che UniPDf
vada in crash, il .docx creato da scanner sarà come una fotografia,
non conterrà testo.
Dunque il primo passo è
installare
UniPDF, caricare il vostro PDF e
vedere se lo converte. Se non ci riesce, significa che è stato creato
con lo scanner.
Per trasformarlo in un formato di testo (.doc, .docx, .txt o altro)
dovremo utilizzare un programma per eseguire l'OCR; il migliore
tra quelli gratuiti è Cuneiform. Esistono programmi a
pagamento che fanno più o meno la stessa cosa (Omnipage,
Readiris, ecc.);
questi programmi rendono il lavoro un po' più veloce, ma alla fine
occorre sempre controllare tutto manualmente e comunque anche con
Cuneiform si può fare un ottimo lavoro.
-
Per prima cosa,
dobbiamo convertire il PDF in immagine.
Installiamo l'ottimo programma per
visualizzare i PDF, PDF-X
Change Viewer e carichiamo il nostro PDF. Adesso clicchiamo File→ Exporta→Exporta
come Immagine.
Scegliamo di salvare in formato PNG
(Tipo immagine: PNG) e clicchiamo Esporta.
Il nostro PDF sarà diviso in tante immagini PNG, una per pagina.
-
Installate e avviate Cuneiform. Comincia il procedimento di OCR.
- Impostate la lingua italiana


Caricate la prima pagina (che poco fa abbiamo salvato in
formato PNG) in Cuneiform, cliccando
File→Open.
Cliccate Recognition→Automatic Markup.

Apparirà una cosa del tipo:

Le aree che Cuneiform ha evidenziato in blu, sono quelle in cui
verrà effettuato il riconoscimento.
[Facoltativo] Se volete escludere qualcuna di
queste aree dal testo finale (per esempio intestazione o pié di
pagina), basta cliccarci sopra con il tasto
destro del mouse e selezionare: Delete block Markup.

[Facoltativo] Se cliccate sul menu Edit in
alto, vedrete che è possibile fare varie operazioni con questi
blocchi evidenziati, tra cui numerarli. In genere, comunque, questa
operazione non serve.
Per far avvenire il riconoscimento, è sufficiente cliccare
Recognition→Recognize.

Se sul vostro sistema è presente Microsoft Word,
quest'ultimo si aprirà automaticamente, altrimenti il vostro testo
verrà salvato in formato RTF (si perderà
parte dell'impaginazione, ma se non altro il formato RTF è supportato da qualsiasi word processor).
Date una controllata al documento che avete appena
salvato aprendolo con un programma di testo, come
LibreOffice,
OpenOffice.org, MS Word, ecc., (è una
cosa che va fatta anche quando si usano programmi OCR costosi, perché
accade che il software OCR scambi una lettera con un'altra, soprattutto
se il testo di partenza è scolorito o le pagine sono ingiallite), e
passate al file successivo.
Se avete un documento di più pagine,
ricominciate dal punto 4. Incollate il file RTF successivo dopo quello precedente
nel programma di videoscritturs, e così via, di modo da
ottenere nuovamente un documento unico.
Alla fine avrete finalmente un vero e proprio documento di testo.
Potrete salvarlo nel formato che volete, e modificarlo come vi pare.
|