(c) Gilles de Chezelles Cliquez ici pour consulter le complément internet de cet article ... | ||||||
Tout lire électroniquement | ||||||
Nos ordinateurs nous rendent de plus en plus de services et, bien que l'intelligence artificielle n’ait pas atteint les objectifs espérés ou plus exactement rêvés, aujourd'hui elle permet, entre autres, de déchiffrer à | France le nombre de villes n’est que de 36 000, ce qui, du point de vue informatique, est très faible.
De plus, et cela facile encore le traitement, la |
traitement ce qui explique que le niveau de performance et de technicité des différents outils dereconnaissance de l’écriture soit de plus en plus élevé. L’histoire de la reconnaissance de l’écriture Développée durant les années cinquante, cette technologie a été employée pour la première fois de façon « industrielle » par la poste américaine qui, dès 1965, se dota d’un système de lecture des codes postaux sur les enveloppes. La technique est assez simple dans le principe, c’est ainsi qu’une fois ce code lu, la machine imprime un code-barre sur l’enveloppe. C’est ce code-barre qui sera alors utilisé par un autre système qui effectuera alors le tri des différents courriers en fonction de leurs destinations. Bien sur , au début, le système ne permettait de traiter automatiquement qu’un faible pourcentage des correspondances. Heureusement, d’années en années, les outils de lecture, les systèmes de reconnaissance des caractères, les applications informatiques et électroniques se sont perfectionnés. Pour augmenter encore la performance globale du système, d’autres artifices ont été utilisés et c’est ainsi que, par exemple, les encres pour imprimer les codes-barre ont été rendues visibles exclusivement sous lumière artificielle. Ainsi, d’évolutions en évolutions, les centre de tris postaux possèdent aujourd’hui un taux de performance très proche du cent pour cent. A la portée de chacun d’entre nous Utilisable par chacun d’entre nous à partir d’un simple PC, la société ScanSoft a mis au point le logiciel OmniPage de reconnaissance de l’écriture. Cette application est leader de l’OCR dans le monde entier. Avec le logiciel OmniPage, chacun d’entre nous peut posséder, chez soi ou à son bureau, son propre système de reconnaissance électronique de l’écriture. Mise au point à la fin des années quatre-vingts, améliorée sans cesse depuis, cette application permet aujourd’hui de réaliser, en quelques clics, de nombreux travaux d’OCR. Ainsi, par exemple, il permet de créer un document, copie conforme de l’original scanné, que vous pouvez ensuite personnaliser comme vous le souhaitez. De même il reconnaît les mises en page, permettant ainsi de récupérer électroniquement et de façon homogène les différents éléments, textes, rubriques ou images qui composent la page que vous avez scannée. Ses capacités de traitement peuvent également être utilisées pour des usages inattendus comme, par exemple, pour « améliorer » le contenu d’un fax qui aurait été « malmené » lors de l’envoi. Les performances de l’OCR, grâce à des applications comme le logiciel OmniPage, couplée à la grande simplicité d’utilisation des scanners, font que la technologie de reconnaissance des caractères est maintenant véritablement accessible à chacun |
||||
|
||||||
l’anglais « optical character recognition »), cette technique ne peut être exécutée que par l’intermédiaire d’outils informatiques et électroniques puissants. De plus, ces applications nécessitent pour leurs exécutions un logiciel très sophistiqué de traitement des informations. A la disposition de tous Avec la démocratisation des scanners, la technologie de la reconnaissance des caractères, qui permet d’importer directement dans un éditeur de textes tout ou partie du contenu d’un document en format papier, est maintenant facilement accessible à chacun d'entre nous. C’est ainsi que, pour un faible coût, nous pouvons avoir à notre disposition des systèmes électroniques qui savent lire et interpréter informatiquement des textes dactylographiés. Certaines applications encore plus poussées permettent d’importer informatiquement aussi bien des textes dactylographiés que des textes écrit tout simplement à la main. En fait, sans même le savoir, nous avons tous été concernés, à un moment ou un autre, par cette technologie. En effet ce sont des programmes de reconnaissance automatique de l’écriture qui permettent à La Poste de trier, de façon totalement automatique, les nombreux courriers qui nous sont délivrés chaque jour. Simple pour l'homme, complexe pour la machine Pour un adulte, déchiffrer l'écriture manuscrite ne demande pas un effort important alors qu'en réalité cette tache est très complexe. Cela est principalement dû au fait que la reconnaissance des lettres, des mots et des phrases met en jeu, consciemment ou inconsciemment, de nombreuses connaissances de nature sémantique, grammaticale et culturelle. On voit bien que ce processus, tout à fait naturel pour l’homme, est très difficile à faire reproduire par une machine. En effet, la reconnaissance d'un texte manuscrit nécessite un grand nombre de connaissances dans de nombreux domaines liés aux perceptions de l’être humain. C’est pour cette raison qu’elle nécessite de faire fonctionner ensemble de nombreuses technologies informatiques et électroniques de nature très différentes. De très nombreuses utilisations Après de nombreuses années de mise au point, la reconnaissance de l'écriture manuscrite est maintenant utilisée quotidiennement pour le tri automatique du courrier, le traitement informatisé de certains dossiers administratifs, le dépouillement de formulaires d’enquêtes ainsi que, entre autres, pour le traitement automatique des chèques bancaires. Toutefois, les méthodes et les technologies employées pour réaliser ces différentes opérations sont très loin d’être identiques car les problématiques de reconnaissance diffèrent fondamentalement en fonction de la présentation des différents documents et surtout du contenu de ce qui doit être déchiffré. L’exemple de La Poste Pour distribuer toujours plus de courriers dans les meilleurs délais, La Poste dispose aujourd'hui de plusieurs dizaines de machines de tri qui utilise un système de reconnaissance de l'écriture manuscrite. Grâce à celles-ci, on peut pour retrouver puis identifier, sur chaque enveloppe, le code postal ainsi que le nom de la ville du destinataire. Ce système est très efficace car il ne faut oublier qu’en |
redondance des informations qui existent entre le nom de la ville et le code postal est largement utilisé par l'application informatique, permettant ainsi au système de traiter de façon assez fiable un très grand nombre de courriers à la minute. En final, grâce à la fiabilité de ces machines, La Poste trie, chaque jour, plusieurs dizaines de million de correspondances … Les systèmes différents. En fait, tout n’est pas aussi simple et de ce fait dans le cadre du traitement électronique de l’écriture, on peut distinguer deux types de technologies bien différentes l’une de l’autre. C’est ainsi que l’on retrouve des solutions de reconnaissance d'écriture « en ligne » comme des systèmes « hors ligne ». Avec la technique de reconnaissance « en ligne » les données sont recueillies au fur et à mesure de la production de l’écriture. Cela correspond, par exemple, au mot que l'on écrit à l’aide d’un stylet sur un organiseur électronique. Bien que l’équipement permettant l'acquisition des données en ligne est bien moins confortable et moins ergonomique que l’utilisation traditionnelle du papier et du crayon, il faut reconnaître que cette solution permet d’enregistrer et de traiter électroniquement, en temps réel, ce qui vient d’être écrit sur l’écran spécifiquement utilisé à cet usage. Dans le cas de la reconnaissance « hors ligne », la lecture s’effectue bien après que le document n’ait été écrit. En effet, dans ce cas, l'outil de base permettant le traitement du document écrit est le scanner optique dont la mission principale consiste alors à copier électroniquement le document puis à convertir les images de l’écriture en une série de données informatiques qui pourront ensuite être utilisées directement à partir d’un ordinateur. Un peu de technique Pour arriver à leur fin, les chercheurs ont été obligés d’appréhender beaucoup de domaines et, finalement, les technologies évoluant, ils n’ont retenu que quelques méthodes d'analyse. La première solution consiste à reconnaître les lettres successives qui constituent un mot. Mais séparer les lettres représentent une opération délicate et coûteuse en temps et en ressources techniques car les écritures sont variées et les lettres souvent attachés entre elles. Toutefois, une fois cette première opération réalisée, il ne reste plus qu'à reconnaître chaque lettre, ce qui |
|||||
|
||||||
reste toutefois assez problématique car certains caractères orthographiés ont parfois des formes assez similaires.
Ainsi, par exemple, le O majuscule est très peu différent du 0 (zéro). Il en est de même du Z et du 2 (deux), voire du C majuscule et du c minuscule. Ainsi, comme on peut le voir, cette méthode porte en elle-même ses propres limites, c’est la raison pour laquelle une autre méthode a été mise au point. La deuxième méthode consiste à identifier chaque mot du texte en repérant les espaces qui les séparent. Cette façon de faire est évidemment plus efficace. Toutefois elle nécessite alors que le système ait à sa disposition un lexique ainsi que des connaissances grammaticales afin de pouvoir ensuite traiter les informations que constituent les différents mots isolés. Enfin quelques autres méthodes existent et, aujourd’hui, avec la puissance informatique de plus en plus importante, les nouvelles solutions de reconnaissance de l’écriture tendent de plus en plus à utiliser, conjointement, plusieurs méthodes de |
|
|||||
Cliquez ici pour consulter le complément internet de cet article ... |
|