|
|
|
|
|

OCR
Programmi free per il riconoscimento ottico dei
caratteri
I programmi OCR (riconoscimento ottico dei
caratteri) sono quei programmi che consentono di acquisire un'immagine (da
scanner, da fotocamera, da una schermata grafica del pc, da un file PDF, ecc.) e
di convertirla automaticamente in un formato testuale (per esempio .doc di Word,
o rtf, o html, ecc.) su cui possono essere eseguite delle modiche, al pari di
qualsiasi testo.
|
 |
| |
|
 |
|
|
|
|
 |
|
 |
 |
| |
Cuneiform OCR
Cuneiform è un buon programma open source di
OCR che riconosce anche in italiano.
E' possibile sia selezionare manualmente il
riconoscimento su certe aree, che fare tutto in
automatico (in questo caso è possibile che ci
siano più errori).
Il riconoscimento è molto buono, e se nella
pagina c'è un layout con tabelle, Cuneiform
cerca di ricrearlo, purché nel sistema sia
installato MS Word. In questo caso, viene aperto
direttamente quest'ultimo con l'impaginazione di
partenza, altrimenti il testo
verrà salvato in RTF (con delle limitazioni: se
sono presenti immagini, nel file RTF non ci
saranno, se ci sono tabelle, il testo sarà su
una sola colonna; a parte questo funziona allo
stesso modo con o senza Word).
Nel mio caso, ho avuto problemi a far funzionare
Cuneiform direttamente con lo scanner, perché al
termine della scansione mi usciva un messaggio
di errore; dunque ho dovuto digitalizzare il
testo come immagine e caricarlo (come
immagine) in Cuneiform.
Nel complesso Cuneiform svolge un buon lavoro,
ma, come per FreeOCR, un paragone con i programmi
commerciali del settore è difficile. Il mio giudizio tiene conto del fatto che non
ci siano programmi gratuiti OCR di altissima
qualità, per quanto la qualità del riconoscimento di
Cuneiform sia comunque buona.
Al momento lo considero per la
qualità del riconoscimento il miglior programma
gratuito di OCR, almeno un gradino al disopra di FreeOCR.
ATTENZIONE: per il download, scaricare la
versione con il suffisso _eng (comprendente anche
l'italiano). Altrimenti il programma sarà in russo e
andrete poco lontano. Su Programmifree c'è anche una
breve
guida per Cuneiform OCR.
GIUDIZIO: MOLTO BUONO
|
|
 |
 |
| |
FreeOCR
FreeOCR è la versione gratuita e
compilata per Windows di Tesseract
(programma OCR opensource). Si può
utilizzare gratuitamente anche per
scopi commerciali.Per nostra
fortuna, dopo essere stato acquisito
da Google, continua ad essere
aggiornato con una certa regolarità
(e a restare open source), ma
soprattutto è disponibile anche la
lingua italiana, che va scaricata da
qui (occorre scaricare il file
Italian language data for Tesseract,
scompattarlo con un
programma
di archiviazione, copiare i file
presenti nella
cartella in C:/Windows/tessdata, come ho scritto
nella
guida. A questo punto
basterà, nell'interfaccia grafica di
FreeOCR, selezionare la lingua
italiana vicino a OCR Language).
FreeOCR funziona bene
con la lingua italiana, decisamente
meglio di TopOCR. Su Programmifree ho
scritto una semplice
guida
per FreeOCR.
Le ultime versioni consentono anche
di convertire da PDF a formati di
testo (txt, ecc.).
IMPORTANTE: ai fini
di un buon riconoscimento, occorre
selezionare con il mouse l'area di
cui eseguire il riconoscimento (indispensabile
se ai bordi ci sono difetti o
curvature della carta, per esempio
in caso si stia passando un libro
con lo scanner, ecc.). Questo perché
FreeOCR non è in grado di rimuovere
automaticamente i bordi, o le aree
non attinenti al testo. Se non lo
fate, il testo si riempirà di
caratteri strani.
|
|
download (ultima
versione): durante
l'installazione, si collega
in internet per gli
aggiornamenti aggiuntivi
download (vecchia
versione 2.6) |
GIUDIZIO:
PIU' CHE BUONO
|
|
 |
 |
| |
TopOCR
E' un programma OCR specifico per le fotocamere
digitali (cioé è impostato soprattutto per
riconoscere i caratteri dalle immagini prese da una
fotocamera), tuttavia funziona anche con gli
scanner, e con le immagini che possiamo già avere
sul computer (in formato bmp, gif, jpg e tiff).
Purtroppo non viene accettato il formato PDF (a meno
di convertire i documenti PDF in immagini).
Tra le varie lingue, è compreso (per
fortuna) anche l'italiano.Il
funzionamento è molto elementare:
scordatevi di convertire qualche
pagina lasciandone inalterato
l'aspetto grafico (layout). Tutto il
testo verrà convertito in un'unica
colonna. Inoltre alcune parole
vengono riconosciute male, e occorre
controllare e correggere il testo
convertito con molta cura.
Il giudizio è difficile, perché
la differenza con i rispettivi
programmi a pagamento (a partire da
Ominpage e
FineReader) è davvero
moltissima. Tuttavia è uno dei pochi programmi OCR free in grado
di riconoscere un testo in italiano,
e se si impara a impostare
correttamente (soprattutto a
scattare le immagini con la
fotocamera nel modo giusto), si
possono ottenere risultati
abbastanza buoni, anche per la
lingua italiana (i risultati invece
sono migliori per l'inglese).
NOTA: TopOCR non è
più sviluppato (ora è solo a
pagamento). il link qui di seguito è
per scaricare l'ultima versione
gratuita.
download
GIUDIZIO:
ABBASTANZA BUONO anche per
l'italiano
|
|
 |
 |
| |
Altri programmi di
OCR interessanti:
SimpleOCR
MoreDataFast (OCR semplice ed efficace
basato su Tesseract)
JOCR
(valido, ma richiede MS Office installato)
|
|
 |
| |
|
|
|
|
|
 |
|
|
|