|
Cerca nel dizionario
|
|
|
|
| |
Il processo seguito nella lavorazione
|
Per realizzare dizionario.org è stato necessario digitalizzare le 7300 pagine dei volumi e creare una pagina web per ognuna delle 120.000 voci, ritagliando per ogni voce l'immagine corrispondente.
Il lavoro è imponente: ci siamo basati soprattutto sullo sviluppo di strumenti software che rendessero il tutto il più automatico possibile e semplificassero il lavoro di controllo manuale.
Per chi fosse interessato, i passi seguiti sono stati questi:
- Digitalizzazione delle pagine a 600 DPI, in scale di grigio, e loro salvataggio in formati con compressione loss-less. La nostra esperienza è che scendere a compromessi sulla qualità delle immagini di partenza rende la vita molto, molto più difficile in seguito.
- Ripulitura delle immagini: raddrizzamento delle immagini ruotate, eliminazione degli eventuali aloni e regolazione di contrasto e luminosità. Tramite opportuni strumenti software, è stato possibile effettuare automaticamente queste operazioni in oltre il 99.6% dei casi.
- Taglio delle colonne: ciascuna pagina viene divisa in tre colonne e i margini dell’immagine vengono puliti dagli eventuali “trucioli” che fossero restati dalle colonne circostanti.
- Un primo passaggio all’OCR, assieme ad uno studio dell’andamento delle linee di testo nella colonna permette di riconoscere il testo di ciascuna colonna e di individuare approssimativamente il punto d’inizio di ciascuna voce nella colonna stessa. In parole povere, si trattava di fare un programma che nelle colonne riconoscesse le linee rientrate che iniziassero con una parola in neretto e tutta in maiuscolo.
- L'immagine della colonna viene poi divisa in righe, su ogni riga si effettua una seconda operazione di OCR e successivamente, sincronizzando questi testi con le immagini delle righe, si può procedere al taglio delle immagini.
- Dopo gli opportuni controlli e le relative correzioni, si può procedere al taglio delle immagini finali (una immagine per ogni voce o per ogni colonna del testo) e alla conversione in un formato adatto per la pubblicazione sul web. In questa fase, particolare attenzione è stata ancora richiesta per la ripulitura delle immagini dai frammenti di voci (di lato ma anche sopra e sotto ciascuna immagine) che rendevano la lettura piuttosto fastidiosa.
In questo processo piuttosto complicato sono stati utilizzati numerosi programmi, tra cui numerosi tool software per elaborazioni particolari come il deskewing, la ripulitura delle pagine da macchie ed aloni, la pulizia dei margini delle immagini tagliate.
|
|
|
|