Con questa guida saremo in grado di digitalizzare un
documento di testo con lo scanner in maniera corretta, e di trasformarlo
in un documento testuale, come .doc, .txt., .rtf, (ma anche pdf), ecc.
Questa operazione è in genere chiamata
OCR (cioé riconoscimento ottico dei caratteri).
Potremo cioé trattare questo documento
digitalizzato come un normale documento di testo, nel quale
si potranno effettuare ricerche, sostituire parole, creare capitoli,
ecc., insomma tutte quelle operazioni che in genere facciamo con
un normale testo.
Per far ciò utilizzeremo principalmente il
programma gratuito Cuneiform OCR:
considero questo programma, almeno al momento, come il miglior
software free per riconoscere un testo, nonostante alcune
mancanze. Se avete installato sul vostro computer Microsoft Word, Cuneiform lo utilizzerà per rispettare l'impaginazione
del testo che avete appena digitalizzato; se non lo avete,
salverà il testo in RTF, perdendo però il layout grafico.
Non utilizzeremo invece programmi molto famosi come
Omnipage o
FineReader
perché il nostro scopo è utilizzare -come sempre-
programmi gratuiti.
Sarebbe possibile anche creare un PDF in un
attimo, senza utilizzare questa guida, per esempio con
il leggerissimo (e portabile) WinScan2PDF:
è vero che faremmo prima, ma è anche vero che il PDF sarà visto
come un'immagine grafica e non come un testo, dunque sarà del
tutto inutile se in esso vorremo fare qualsiasi operazione
(ricerca, sostituzione o altro).
Dunque vediamo come digitalizzare e riconoscere
un testo nel modo giusto.
Poiché Cuneiform
va in crash con il mio scanner HP, è necessario un passaggio
aggiuntivo: digitalizzare il testo come immagine, con un qualsiasi
programma (anche portabile), come
DeskScan,
FastStone Viewer,
Irfanview, o tantissimi
altri.
In genere, la risoluzione consigliata dello
scanner per testi con caratteri non troppo grandi, è 300 DPI
(sono quasi sempre sufficienti).
Se
nel documento sono presenti caratteri molto piccoli, allora può
essere opportuno alzare a 600 DPI.
Digitalizzate la pagina che avete scelto (tramite
DeskScan, o
FastStone, o Irfanview, ecc.) e salvatela in formato PNG (o GIF, in
alternativa). Salvate le pagine come 00.PNG, 01.PNG, ecc.
[IMPORTANTE: se volete riconoscere un documento PDF che non
riuscite a convertire con un programma classico di conversione PDF,
allora convertitela in PNG o GIF con
PDF-X-Change Viewer
e continuate con il punto successivo di questa guida).
Caricate la pagine (PNG, GIF, ecc.) in Cuneiform, cliccando
File->Open.
Se Cuneiform non ha problemi con il vostro scanner, allora potete
saltare i punti 1 e 3, tenendo però presente il punto 2 (cliccate
File->Scan).
Impostate l'area all'interno della quale verrà
effettuato il riconoscimento con Recognition-> Area of
Recognition.
Approfittatene per togliere dall'area del ricoscimento eventuali
intestazioni, piè di pagina e numeri di pagina, in modo da avere un
riconoscimento pulito.
e poi:
Cliccate Recognition->Automatic Markup.
Apparirà una cosa del genere:
Le aree che Cuneiform ha evidenziato in blu, sono quelle in cui
verrà effettuato il riconoscimento.
Portate il cursore del mouse vicino al bordo blu e delimitate bene l'area.
Fatelo con attenzione, altrimenti il riconoscimento finale
sarà meno accurato.
Se volete escludere qualcuna di
queste aree dal testo finale, basta cliccarci sopra con il tasto
destro del mouse e selezionare: Delete block Markup.
[Facoltativo] Se cliccate sul menu Edit in
alto, vedrete che è possibile fare varie operazioni con questi
blocchi evidenziati, tra cui numerarli. In genere, comunque, questa
operazione non serve.
Per far avvenire il riconoscimento, basta cliccare
Recognition->Recognize.
Se sul vostro sistema è presente Microsoft Word,
quest'ultimo si aprirà automaticamente, altrimenti il vostro testo
verrà salvato in formato RTF (perdendo, come detto prima, il layout).
Date una controllata al documento che avete appena
salvato aprendolo con un programma di testo, come
LibreOffice,
OpenOffice.org, MS Word, ecc., (è una
cosa che va fatta anche quando si usano programmi OCR costosi, perché
accade che il software OCR scambi una lettera con un'altra, soprattutto
se il testo di partenza è scolorito o le pagine sono ingiallite), e
passate al file successivo.
Se avete un documento di più pagine, è opportuno
incollare il file successivo dopo quello precedente, e così via, di modo da
ottenere nuovamente un documento unico.
Adesso avete un vero e proprio documento di testo.
Potete salvarlo nel formato che volete, o anche trasformarlo in PDF
(è facilissimo convertire da .doc a
.pdf, ma se state usando LibreOffice potete direttamente salvare
il testo in PDF), insomma fare tutto quello che vi pare.
Un'ultima annotazione interessante: se
per caso alla fine avete convertito questo documento in PDF,
provate di nuovo ad eseguire una scansione del testo iniziale,
convertendolo direttamente in PDF (senza passare per Cuneiform),
magari con PDF24 Creator o
simili.
Noterete che non solo non è possibile effettuare
ricerche (né altro) nel testo, ma anche che quest'ultimo PDF
occupa molto più spazio di quello che abbiamo convertito
utilizzando Cuneiform (è normale, proprio perché in quest'ultimo
caso il testo viene visto come un'unica immagine).