PLUGIN WP: LINK TO GOOGLE
19/07/2018ALEXA: CONSIDERAZIONI
27/04/2021OCR: TESSERACT
TESSERACT, UN OCR GRATUITO MOLTO POTENTE
OCR, Optical Character Recognition (riconoscimento ottico dei caratteri) è una funzionalità storica nel mondo dell’informatica: la possibilità di inserire un foglio di carta in una macchinetta (o fotografarlo) e trovarsi il testo che contiene in un programma di videoscritturaW è stato (ed è) il sogno di molte persone.
Purtroppo le cose non sono sempre così semplici, e le funzionalità delle soluzioni OCRW presenti attualmente sul mercato non sono sempre così esaltanti come le descrivono. In realtà nella fascia alta del mercato (parliamo di decine di migliaia di euro) ci sono soluzioni efficientissime, e, seppure con qualche vincolo, si riesce addirittura ad interpretare la scrittura manuale. Le Poste ItalianeW, ad esempio, usano dei sistemi ri riconoscimento della scrittura per inoltrare le lettere in cui l’indirizzo è scritto mano.
La tecnologia dietro un OCRW è molto complessa e sofisticata; basti pensare alla somiglianza che può esserci tra un carattere ed un altro (la h ed il 4, il 4 e la A, la e e la a: i casi sono infiniti), alla differenza tra tipi di carattere (fontsW) diversi, alla diversissima qualità di stampa (si va dal faxW alla stampa laserW), alla lettura della pagina stampata (se ruotata, anche di poco, la lettura può diventare impossibile). Insomma, solo negli ultimi anni si è arrivati a prodotti efficienti a basso costo.
Sono un vecchio informatico, e da tempo seguo un progetto promettente (open sourceW con licenza GNUW) davvero efficace. Si chiama tesseract-ocrG e viene dal secolo scorso: è stato sviluppato dalla Hewlett-PackardW tra il 1985 ed il 1995; nel 2005 la stessa HP ne rilasciò la licenza in forma open source. È multipiattaforma, esistendo per *nix (tutte le piattaforme Unix likeW), OSx (Apple MacW), e WindowsW (x86 e x64).
Le pagine ufficiali di Tesseract-ocr sono a questo indirizzo: https://github.com/tesseract-ocr/tesseract/wiki , mentre il porting per Windows è scaricabile qui: https://github.com/UB-Mannheim/tesseract/wiki. Per Windows sono disponibili sia la versione a 32 che quella a 64 bit; la distribuzione è in forma di installer e basta eseguirlo.
Purtroppo il motore OCR funziona solo da riga di comando (non ha una GUI Graphical User InterfaceW, una interfaccia punta e clicca per il mouseW insomma), ma nella pagina ufficiale c’è il collegamento ad un elenco di prodotti che forniscono una interfaccia GUI a Tesseract. Alla quarta riga c’è un prodotto per Windows.
Appena avrò un po’ di tempo realizzerò una interfaccia grafica per tesseract-ocr, che rilascerò con licenza GNU. Ho già realizzato il modulo base di visualizzazione delle immagini, devo solo collegarlo a tesseract-ocr. Ecco l’anteprima della schermata di selezione delle immagini, in cui è aperto un documento TIFFW G4 multipagina (un fax, tipicamente), visualizzato con una tecnica a livelli di grigioW (scale-to-gray).
Insomma se le esigenze di OCR che si hanno sono occasionali e coinvolgono stampe di buona qualità senza particolari problemi di impaginazione, Tesseract-ocr rappresenta una possibilità interessante per trasformare una pagina stampata in un testo modificabile.
Macina qualsiasi tipo di immagine (dalle bmp alle tiff G4 multipagina), è molto veloce, multilingua, non invasivo, gratuito.
Cosa chiedere di più?