OCR
PDF visualizzare
PDF creare
da DOC a PDF
da PDF a DOC
 
   
   
   
   
 
   
 

INTERNET GRATIS
Connessione gratuita e velocissima

 
 

 
 
 
 
 

 

  Guida a FreeOCR
(per il riconoscimento ottico dei caratteri e
convertire da PDF a Word, Open Office, ecc.)

© Copyright Programmifree.com.  E' vietata la copia anche parziale senza il consenso scritto dell'autore.

 

In questo momento, FreeOCR (o per meglio dire Tesseract, dal momento che FreeOCR è solo la sua versione compilata), è probabilmente il miglior programma gratuito/open source per il riconoscimento ottico dei caratteri. Per riconoscimento ottico dei caratteri (in breve OCR) si intende la capacità del computer di riconoscere il testo presente in un'immagine, in genere acquisita attraverso uno scanner, ma anche -per esempio- da un documento PDF.

Una volta che il computer avrà riconosciuto quell'immagine come documento di testo, sarà possibile utilizzare tutte le normali funzioni che si usano su un normale testo, come ricerca e sostituzione, controllo ortografico, cambiare carattere e impaginazione, ecc.

Purtroppo i programmi di OCR sono in genere costosi (Omnipage e Fine Reader i più famosi), ma anche dotati di caratteristiche che non si trovano nei corrispondenti programmi gratuiti, a partire dalla capacità di riconoscere automaticamente il layout di una pagina e di riprodurlo tale e quale, oppure di caricare e convertire direttamente in .doc (o altro formato testuale) i documenti PDF. Per chi non vuole spendere, comunque, esistono oggi dei programmi gratuiti abbastanza buoni anche per la lingua italiana, primo tra tutti FreeOCR/Tesseract. Con questo programma è anche possibile convertire i documenti PDF, ma a prezzo di un paio di passaggi in più.

Ecco dunque una guida per FreeOCR/Tesseract comprensibile a tutti.

  1. Scaricate e installate FreeOCR.

  2. Andate in questa pagina e scaricate il file Italian language data for Tesseract (tesseract-2.00.ita.tar.gz)

  3. Utilizzate il vostro programma di archiviazione per scompattare in qualche cartella l'archivio con estensione .gz che avete appena scaricato. Se non avete un programma di archiviazione decente, scaricate IZArc o Universal Extractor da qui.

  4. Copiate i file presenti nella cartella che avete appena scompattato, e incollateli nella cartella tesseract/tessdata di FreeOCR (in genere presente in C:Programmi/FreeOCR24/tesseract). Se non aggiungete i file in italiano accanto ai corrispondenti inglesi, il programma non funzionerà con l'italiano.

  5. Avviate FreeOCR e impostate la lingua italiana, come nell'immagine qui sotto:


     

  6. Acquisite il testo. Se avete uno scanner, impostatelo a 300dpi. In genere impostando una risoluzione superiore o inferiore si ottengono risultati peggiori (a meno di caratteri microscopici, nel qual caso si può salire a 600 dpi). Se invece avete un documento PDF che volete convertire, seguite la parte iniziale della guida per convertire i PDF.

  7. Adesso è molto importante delimitare il testo con il mouse, tracciando un rettangolo intorno alla parte del testo da convertire, soprattutto se i bordi della pagina digitalizzata sono un po' scuri (se non lo fate, il testo si potrebbe riempire di caratteri strani).

     
     

  8. Cliccate    e finalmente potrete avere in italiano il vostro documento.

Pur non essendo paragonabile ai programmi del genere a pagamento, FreeOCR svolge lo stesso un lavoro abbastanza buono (il migliore tra i programmi gratuiti che abbia provato), e se imparete bene ad usarlo (non che ci voglia molto...), otterrete dei risultati soddisfacenti.

 

© Copyright Programmifree.com - Tutti i diritti riservati.
 E' vietata la copia anche parziale senza il consenso scritto dell'autore.