Guida da PDF a testo
con Kadmos

© Copyright Programmifree.com.  E' vietata la copia anche parziale senza il consenso scritto dell'autore.

 

 


guida inserita: Luglio 2014

Questa è un guida che vi aiuterà a convertire un documento PDF con Kadmos; Kadmos è un buon programma/plugin OCR che funziona con Irfanview. Io ritengo che il riconoscimento con Cuneiform sia superiore (e su Programmifree c'è già un'ottima guida al riguardo), ma dal momento che i programmi OCR sono pochi e che Kadmos può sembrare difficile da configurare, ho scritto comunque queste note.

  1. Kadmos funziona come plugin di Irfanview, dunque installiamo Irfanview (o usiamone la versione portabile)

  2. Installiamo Kadmos, senza modificare la cartella di installazione predefinita.

  3. Convertiamo il PDF in immagine. Installiamo PDF-X Change Viewer e carichiamo il nostro PDF. Adesso clicchiamo File-> Export->Export to Image. Esportiamo in PNG e prepariamoci ad analizzare il testo con Kadmos.
    IMPORTANTE: Irfanview avrebbe un ulteriore plugin per risconoscere i PDF senza convertirli prima in PNG. Tuttavia, dal momento che la qualità del riconoscimento è in questo caso inferiore, ho preferito la strada della conversione preventiva del PDF in un'immagine PNG.

  4. Avviamo Irfanview, carichiamo l'immagine PNG che abbiamo appena salvato e Options->Start OCR

  5. Clicchiamo "Manage classifiers and dictionaries", scegliamo l'italiano e poi Download.


    Alla fine del download clicchiamo Exit e poi selezioniamo Language: Italy.

     

  6. Selezionamo Dictionary 1: ISpell.

  7. Tracciamo un rettangolo sul testo da riconoscere e aspettiamo qualche secondo.

  8. Apparirà una finestra con il testo riconosciuto, che potremo salvare come un normale file di testo ASCII o UNICODE

  9. La qualità del riconoscimento sarà abbastanza buona, ma non perfetta. Dovremo comunque correggere a mano alcune parole (Cuneiform fa un lavoro migliore, ma in ogni caso, qualsiasi programma OCR si utilizzi, qualche correzione va comunque fatta).