da PDF a WORD o altri formati di testo con programmi gratuiti

guida riscritta interamente: Ottobre 2015

Ci sono due tipi di PDF: quelli creati con un programma di videoscrittura tipo Word, OpenOffice, ecc., e quelli creati da scanner (o fotografando con lo smartphone una pagina, che è più o meno la stessa cosa).

I primi potranno essere facilmente convertiti in testo, tramite un apposito programma, in pochi secondi. Per i PDF creati da scanner (o con il cellulare), invece, l'operazione è più lunga, perché dovremo eseguire il riconoscimento dei caratteri, chiamato OCR.
Purtroppo non esiste una soluzione intermedia e non esistono scorciatoie. Se abbiamo un PDF creato con lo scanner e vogliamo poter utilizzare il testo in qualsiasi programma di word processor, dobbiamo eseguire l'OCR.

Come capire se un PDF è stato creato con uno scanner o con un programma di videoscrittura?
E' molto semplice: o dalla grandezza (un PDF creato con lo scanner sarà di circa 0.6/1MB per pagina, contro 0.03 MB per pagina di un PDF creato con i software di scrittura), o anche, semplicemente, provando a convertire il PDF in .doc(x) con un programma come UniPDF. Vi accorgerete immediatamento di che tipo di PDF vi trovate davanti: ammesso che la conversione avvenga senza che UniPDf vada in crash, il .docx creato da scanner sarà come una fotografia, non conterrà testo.

Dunque il primo passo è installare UniPDF, caricare il vostro PDF e vedere se lo converte. Se non ci riesce, significa che è stato creato con lo scanner.
Per trasformarlo in un formato di testo (.doc, .docx, .txt o altro) dovremo utilizzare un programma per eseguire l'OCR; il migliore tra quelli gratuiti è Cuneiform. Esistono programmi a pagamento che fanno più o meno la stessa cosa (Omnipage, Readiris, ecc.); questi programmi rendono il lavoro un po' più veloce, ma alla fine occorre sempre controllare tutto manualmente e comunque anche con Cuneiform si può fare un ottimo lavoro.

Per prima cosa, dobbiamo convertire il PDF in immagine.
Installiamo l'ottimo programma per visualizzare i PDF, PDF-X Change Viewer e carichiamo il nostro PDF. Adesso clicchiamo File→ Exporta→Exporta come Immagine.

Scegliamo di salvare in formato PNG (Tipo immagine: PNG) e clicchiamo Esporta.
Il nostro PDF sarà diviso in tante immagini PNG, una per pagina.

Installate e avviate Cuneiform. Comincia il procedimento di OCR.

Impostate la lingua italiana

Caricate la prima pagina (che poco fa abbiamo salvato in formato PNG) in Cuneiform, cliccando File→Open.

Cliccate Recognition→Automatic Markup.

Apparirà una cosa del tipo:

Le aree che Cuneiform ha evidenziato in blu, sono quelle in cui verrà effettuato il riconoscimento.
[Facoltativo] Se volete escludere qualcuna di queste aree dal testo finale (per esempio intestazione o pié di pagina), basta cliccarci sopra con il tasto destro del mouse e selezionare: Delete block Markup.

[Facoltativo] Se cliccate sul menu Edit in alto, vedrete che è possibile fare varie operazioni con questi blocchi evidenziati, tra cui numerarli. In genere, comunque, questa operazione non serve.

Per far avvenire il riconoscimento, è sufficiente cliccare Recognition→Recognize.

Se sul vostro sistema è presente Microsoft Word, quest'ultimo si aprirà automaticamente, altrimenti il vostro testo verrà salvato in formato RTF (si perderà parte dell'impaginazione, ma se non altro il formato RTF è supportato da qualsiasi word processor).

Date una controllata al documento che avete appena salvato aprendolo con un programma di testo, come LibreOffice, OpenOffice.org, MS Word, ecc., (è una cosa che va fatta anche quando si usano programmi OCR costosi, perché accade che il software OCR scambi una lettera con un'altra, soprattutto se il testo di partenza è scolorito o le pagine sono ingiallite), e passate al file successivo.

Se avete un documento di più pagine, ricominciate dal punto 4. Incollate il file RTF successivo dopo quello precedente nel programma di videoscritturs, e così via, di modo da ottenere nuovamente un documento unico.

Alla fine avrete finalmente un vero e proprio documento di testo. Potrete salvarlo nel formato che volete, e modificarlo come vi pare.

Guida da PDF a DOC, DOCX, RTF, TXT, HTML (convertire da PDF a Word, Open Office, ecc.)

Guida da PDF a DOC, DOCX, RTF, TXT, HTML
(convertire da PDF a Word, Open Office, ecc.)