au sommaire
La reconnaissance optique de caractères, appelée aussi ROC, ou OCROCR, est aujourd'hui une sinécure pour le grand public avec l'adoption massive de systèmes de numérisations tels que les scanners. Mise au point durant les années 1930 avec notamment la « machine à lire » de Gustav Tauschek, la technique va connaître une forte expansion avec l'informatique. L'objectif de la ROC est de retranscrire de manière mécanique ou numérique des caractères typographiques ou manuscrits.
Aujourd'hui la méthode est systématiquement utilisée lors de la numérisation de médias, par exemple dans le cadre du projet GallicaGallica où deux versions sont souvent disponibles pour les documents, l'une proposant les images d'origine, et l'autre la retranscription textuelle effectuée par un logiciel spécialisé. Dans le cadre de ce portail, il eut été impossible d'effectuer une recherche sémantique dans cette bibliothèque numérique sans les retranscriptions textuelles.
A l'ère du mobile
Jusqu'alors cantonnée à du matériel lourd, la ROC est prête à la mobilité. C'est IntelIntel qui s'y colle avec comme ferfer de lance son Intel Atom, microprocesseur populaire dans le monde des netbooks. La puissance de calcul de l'Atom permet à ce lecteur d'un nouveau genre d'effectuer des reconnaissances de caractères, ce sans contraintes de ressources. Pour accomplir sa tâche, le système comprend un appareil photo numérique à 5 mégapixels autorisant une distance de 10 à 100 centimètres pour la prise de clichés, un disque dur SSDSSD de 4 gigaoctets dont 2 alloués au stockage des données de l'utilisateur. En théorie, l'Intel Reader est capable de stocker 500.000 pages de texte pur pour une autonomieautonomie annoncée de 4 heures en restitution audio du texte.
La présentation officielle de l'Intel Reader. (Anglais) © Intel
Côté mensurations l'Intel Reader s'annonce vraiment mobilemobile avec ses 16,5 x 13,6 x 3,3 centimètres pour un poids de 650 grammes. Une plateforme, la Intel Portable Capture Station (station d'aide à la capture des contenus), est prévue pour assister les déficients visuels dans la numérisation de leurs supports papiers. Cependant cette station devra rester au domicile de l'utilisateur avec son poids de 4,26 kilogrammeskilogrammes. Du côté logiciel, le lecteur accepte les formats Daisy, Niso 2002, Niso 2005 et Nimas, ainsi que les standards MP3, WAV et textes ASCIIASCII.
L'Intel Reader vise en premier lieu l'aide aux personnes handicapées. Ainsi un étudiant dyslexique pourra numériser un document pour mieux le décortiquer en mot à mot ou vocalement. Un aveugle pourra consulter les pages de son journal fraîchement reçu. De la même manière, il n'aura plus à attendre la sortie d'un roman en Braille pour pouvoir en profiter. En second lieu, Intel vise les personnes pressées qui par leur activité professionnelle doivent consulter pléthore de contenus. Dans leur cas, l'acquisition rapide du matériel permet une consultation ultérieure plus constructive.
Du haut de son prix fixé à 1.499 dollars US (1.000 euros) l'Intel Reader reste pour lors réservé aux plus fortunés. Pour un aveugle, il en coûtera 399 dollars US (268 euros) de plus pour la station de capture, soit un total de 1.898 dollars US (1.276 euros), sans compter la pochette de transport. Il reste à espérer une démocratisation de ce produit, exemple des apports de la technologie à la lutte pour l'autonomie des personnes handicapées.