Warning: Undefined array key "branchmenu" in /home/dizionar/public_html/index.php on line 346

Warning: Undefined variable $list_images in /home/dizionar/public_html/index.php on line 252
Il processo seguito nella lavorazione
Il Dizionario della Lingua Italiana di Niccolò Tommaseo
     Home      Niccolò Tommaseo      Il Dizionario      Il Progetto      Libri e Bibliografia      Contatti
spacer

Il Progetto

  Il Progetto
  Come è nato
  La lavorazione
  Copyright

spacer



spacer

Cerca nel dizionario

 


spacer

 

Il processo seguito nella lavorazione

Per realizzare dizionario.org è stato necessario digitalizzare le 7300 pagine dei volumi e creare una pagina web per ognuna delle 120.000 voci, ritagliando per ogni voce l'immagine corrispondente.

Il lavoro è imponente: ci siamo basati soprattutto sullo sviluppo di strumenti software che rendessero il tutto il più automatico possibile e semplificassero il lavoro di controllo manuale.

Per chi fosse interessato, i passi seguiti sono stati questi:

  • Digitalizzazione delle pagine a 600 DPI, in scale di grigio, e loro salvataggio in formati con compressione loss-less. La nostra esperienza è che scendere a compromessi sulla qualità delle immagini di partenza rende la vita molto, molto più difficile in seguito.
  • Ripulitura delle immagini: raddrizzamento delle immagini ruotate, eliminazione degli eventuali aloni e regolazione di contrasto e luminosità. Tramite opportuni strumenti software, è stato possibile effettuare automaticamente queste operazioni in oltre il 99.6% dei casi.
  • Taglio delle colonne: ciascuna pagina viene divisa in tre colonne e i margini dell’immagine vengono puliti dagli eventuali “trucioli” che fossero restati dalle colonne circostanti.
  • Un primo passaggio all’OCR, assieme ad uno studio dell’andamento delle linee di testo nella colonna permette di riconoscere il testo di ciascuna colonna e di individuare approssimativamente il punto d’inizio di ciascuna voce nella colonna stessa. In parole povere, si trattava di fare un programma che nelle colonne riconoscesse le linee rientrate che iniziassero con una parola in neretto e tutta in maiuscolo.
  • L'immagine della colonna viene poi divisa in righe, su ogni riga si effettua una seconda operazione di OCR e successivamente, sincronizzando questi testi con le immagini delle righe, si può procedere al taglio delle immagini.
  • Dopo gli opportuni controlli e le relative correzioni, si può procedere al taglio delle immagini finali (una immagine per ogni voce o per ogni colonna del testo) e alla conversione in un formato adatto per la pubblicazione sul web. In questa fase, particolare attenzione è stata ancora richiesta per la ripulitura delle immagini dai frammenti di voci (di lato ma anche sopra e sotto ciascuna immagine) che rendevano la lettura piuttosto fastidiosa.
In questo processo piuttosto complicato sono stati utilizzati numerosi programmi, tra cui numerosi tool software per elaborazioni particolari come il deskewing, la ripulitura delle pagine da macchie ed aloni, la pulizia dei margini delle immagini tagliate.




 
spacer

Le novità sul sito

Ottobre 2007
Pubblicate le voci delle lettere A-G

Marzo 2007
Preparate tutte le voci A-C

Novembre 2006
Pubblicato un prototipo di 4.000 voci

 

spacer
spacer

Ultime parole visualizzate


 
spacer
©   F . B O N O M I   2 0 0 6 - T U T T I   I   D I R I T T I   R I S E R V A T I