PDF visualizzare
PDF creare
da DOC a PDF
guida a FreeOCR
 
   
   
   
   
 
   
 
 
 

 
 
 
 
 

 

  Guida da PDF a DOC, RTF, TXT, HTML
(convertire da PDF a Word, Open Office, ecc.)

© Copyright Programmifree.com.  E' vietata la copia anche parziale senza il consenso scritto dell'autore.

 

Premessa. Il formato PDF è un insieme di testo e immagini: a seconda di come un documento PDF viene creato (cioé attraverso una conversione da un documento testuale, per esempio da un programma di videoscrittura come Word, o simili, oppure se viene digitalizzato, per esempio da scanner o da fotocamera), sarà più o meno complesso il convertirlo in un formato testo.
Per formato testo intendo un formato in cui è possibile eseguire delle ricerche, cambiare delle parole, delle frasi, ecc., cioé un normalissimo documento di Word, Open Office, o programmi del genere.

Per prima cosa, dobbiamo capire se il PDF è stato in origine creato da un documento di testo (Word, ecc.): in questo caso è immediatamente possibile convertirlo in altri formati con il gratuito PDF2Html Gui. Basta caricare il PDF in questo programma (Cliccando Browse), e poi Convert.
Se siamo fortunati, otterremo un file .html utilizzabile e modificabile in Word, Open Office, ecc.
Stesso discorso per Free PDF to Word Converter, che per certi versi è ancora più semplice, ma che dopo un certo numero di utilizzi richiede la registrazione.

Se invece non siamo fortunati (il PDF proviene da qualche documento digitalizzato senza OCR), allora il file .doc creato da Free PDF to Word Converter, oltre ad occupare decine di MB, sarà completamente inutile. In questo caso cancelliamo il ile .doc ottenuto, e procediamo con la guida.

L'ideale sarebbero i programmi di OCR a pagamento (come Omnipage Pro, Abby FineReader, ecc.), tuttavia tali programmi sono alquanto costosi, e il nostro scopo -come sempre- è l'utilizzo di programmi free (d'altra parte il mio sito si chiama Programmifree.com e non in altro modo).

IMPORTANTE: l'attuale versione di FreeOCR rende alquanto obsoleta questa guida, che è stata scritta prima che le ultime versioni di FreeOCR uscissero. Infatti FreeOCR contiene al suo interno la possibilità di caricare e convertire i PDF.

Installiamo l'ottimo programma per visualizzare i PDF, PDF-X change Viewer e carichiamo il nostro PDF. Adesso clicchiamo File-> Export->Export to Image.

Scegliamo di salvare in formato GIF (Image Type: GIF)  e di salvare ogni pagina in un file di immagine separato (Save each page to a separate image file), come mostrato qui sotto:

Quando abbiamo fatto, clicchiamo Export.

Adesso installiamo il nostro programma di OCR gratuito, TopOCR (oppure MoreData, migliore nel riconoscimento del testo in italiano, ma arrivato dopo che avevo scritto questa guida).
Avviamo TopOCR e impostiamo Settings->Language->Italian.

IMPORTANTE: si può utilizzare FreeOCR (o MoreData) al posto di TopOCR perché è in grado di ottenere risultati migliori con l'italiano (questa guida è con TopOCR solo perché l'ho scoperto prima): il procedimento è quesi identico. Su Programmifree è presente anche una buona guida per FreeOCR.

Clicchiamo File->Open e carichiamo l'immagine GIF che abbiamo salvato con PDF-X Change Viewer.

Nel giro di pochi secondi, nella finestra di destra di TopOCR, comparirà il nostro testo, che dovremo correggere attentamente prima di salvare. Se la qualità della digitalizzazione è buona, ci saranno risultati abbastanza buoni (altrimenti, sarà alquanto dura). Quando abbiamo finito di correggere questa pagina, la salviamo in formato RTF (o txt, o html, a seconda di quello che ci serve; in genere sarebbe meglio RTF), cliccando, dalla finestra su cui abbiamo corretto il testo, File->Save as.
Oppure, sempre quando abbiamo finito di correggere, selezioniamo tutto il testo, clicchiamo Edit->Copy, e lo incolliamo in Word (oppure Open Office, ecc.).

Quindi carichiamo la successiva immagine GIF (nel caso fosse stato un PDF con più pagine), e ricominciamo la procedura con TopOCR.

Conclusione: purtroppo i risultati della conversione, nel caso dell'utilizzo della procedura PDF-X Change Viewer e TopOCR, variano molto a seconda della qualità con cui è stato digitalizzato il testo. In certi casi il testo finale sarà quasi perfetto, in altri andrà ritoccato (o meglio riscritto) quasi completamente. Questo perché TopOCR è al momento un programma di riconoscimento OCR accettabile, ma nulla più.

Come ho scritto prima, comunque, al momento FreeOCR è in grado di caricare direttamente i PDF, dunque vi suggerisco di utilizzare direttamente quello.

© Copyright Programmifree.com - Tutti i diritti riservati.
 E' vietata la copia anche parziale senza il consenso scritto dell'autore.