|
|
|
|
|

OCR
Programmi free per il riconoscimento ottico dei
caratteri
I programmi OCR (riconoscimento ottico dei
caratteri) sono quei programmi che consentono di acquisire un'immagine (da
scanner, da fotocamera, da una schermata grafica del pc, da un file PDF, ecc.) e
di convertirla automaticamente in un formato testuale (per esempio .doc di Word,
o rtf, o html, ecc.) su cui possono essere eseguite delle modiche, al pari di
qualsiasi testo.
|
 |
| |
|
 |
|
|
|
|
 |
|
 |
 |
| |
FreeOCR
FreeOCR è la versione gratuita e
compilata per Windows di Tesseract
(programma OCR opensource). Si può
utilizzare gratuitamente anche per
scopi commerciali.Per nostra
fortuna, dopo essere stato acquisito
da Google, continua ad essere
aggiornato con una certa regolarità
(e a restare open source), ma
soprattutto è disponibile anche la
lingua italiana, che va scaricata da
qui (occorre scaricare il file
Italian language data for Tesseract,
scompattarlo con un
programma
di archiviazione, copiare i file
presenti nella
cartella in C:/Windows/tessdata, come ho scritto
nella
guida. A questo punto
basterà, nell'interfaccia grafica di
FreeOCR, selezionare la lingua
italiana vicino a OCR Language).
FreeOCR funziona bene
con la lingua italiana, decisamente meglio di
TopOCR. In questo momento lo
considero il miglior
programma di OCR gratuito per la
lingua italiana. Su Programmifree ho
scritto una semplice
guida
per FreeOCR.
Le ultime versioni consentono anche
di convertire da PDF a formati di
testo (txt, ecc.).
IMPORTANTE: ai fini
di un buon riconoscimento, occorre
selezionare con il mouse l'area di
cui eseguire il riconoscimento (indispensabile
se ai bordi ci sono difetti o
curvature della carta, per esempio
in caso si stia passando un libro
con lo scanner, ecc.). Questo perché
FreeOCR non è in grado di rimuovere
automaticamente i bordi, o le aree
non attinenti al testo. Se non lo
fate, il testo si riempirà di
caratteri strani.
Il mio giudizio tiene conto del fatto che non ci
siano programmi gratuiti OCR di altissima qualità.
Altrimenti, un confronto con i vari Omnipage o
FineReader sarebbe improponibile.
|
|
download (ultima
versione): durante
l'installazione, si collega
in internet per gli
aggiornamenti aggiuntivi
download (vecchia
versione 2.6) |
GIUDIZIO:
MOLTO BUONO
|
|
 |
 |
| |
MoreDataFast
Basato sul motore di Tesseract,
consente di estrarre il testo
contenuto in immagini. L'utilizzo è
molto semplice, basta caricare
un'immagine contenente del testo
(per esempio proveniente da un
documento PDF).E' un'evoluzione
del programma
MoreData, presente da tempo su Programmifree.
MoreDataFast è stato notevolmente semplificato,
tanto che è possibile convertire un'immagine in
testo con un solo clic.
Nel complesso è efficace con la
lingua italiana, grazie anche alla
presenza al suo interno di un
dizionario in italiano. Se
continueranno ad uscire versioni
migliorate, il mio giudizio salirà
in proporzione.
Per utilizzare MoreData, è
necessario
Microsoft Framework 3.5.
MoreDataFast (come già MoreData
prima di lui) non richiede
installazione.
download
GIUDIZIO: PIU'
CHE BUONO
|
|
 |
 |
| |
TopOCR
E' un programma OCR specifico per le fotocamere
digitali (cioé è impostato soprattutto per
riconoscere i caratteri dalle immagini prese da una
fotocamera), tuttavia funziona anche con gli
scanner, e con le immagini che possiamo già avere
sul computer (in formato bmp, gif, jpg e tiff).
Purtroppo non viene accettato il formato PDF (a meno
di convertire i documenti PDF in immagini).
Tra le varie lingue, è compreso (per
fortuna) anche l'italiano.Il
funzionamento è molto elementare:
scordatevi di convertire qualche
pagina lasciandone inalterato
l'aspetto grafico (layout). Tutto il
testo verrà convertito in un'unica
colonna. Inoltre alcune parole
vengono riconosciute male, e occorre
controllare e correggere il testo
convertito con molta cura.
Il giudizio è difficile, perché
la differenza con i rispettivi
programmi a pagamento (a partire da
Ominpage e
FineReader) è davvero
moltissima. Tuttavia è uno dei pochi programmi OCR free in grado
di riconoscere un testo in italiano,
e se si impara a impostare
correttamente (soprattutto a
scattare le immagini con la
fotocamera nel modo giusto), si
possono ottenere risultati
abbastanza buoni, anche per la
lingua italiana (i risultati invece
sono migliori per l'inglese).
Ad ogni modo, gli considero
superiore (per la lingua italiana)
MoreData e FreeOCR-Tesseract.
download
GIUDIZIO:
ABBASTANZA BUONO anche per
l'italiano
|
|
 |
 |
| |
Altri programmi di
OCR interessanti:
SimpleOCR
JOCR
(molto valido, ma richiede MS Office installato)
|
|
 |
| |
|
|
|
|
|
 |
|
|
|