Le principal inconvénient de la numérisation par reconnaissance optique de caractères est le potentiel d'introduction d'erreurs dans un document numérisé. Aucun système de numérisation OCR n'est infaillible, et des documents de mauvaise qualité peuvent créer suffisamment d'erreurs pour nécessiter beaucoup de temps. consommer de la relecture. L'écriture manuscrite et les polices non latines sont particulièrement difficiles à numériser correctement.
Les scanners optiques peuvent également avoir des problèmes avec les documents qui manquent de contraste significatif entre les caractères et l'arrière-plan. Les pages sales, ou celles imprimées sur du papier de couleur, peuvent embrouiller un scanner et entraîner de gros blocs de texte non lus. Les étapes supplémentaires nécessaires pour rendre les originaux de mauvaise qualité adaptés à la numérisation OCR peuvent finir par annuler complètement les gains de temps potentiels offerts par la technologie.
Le meilleur moyen de garantir une numérisation OCR aussi précise et rapide que possible est de concevoir le document original spécifiquement pour la numérisation optique. Par exemple, de nombreux packages OCR ont du mal à différencier des caractères similaires, tels que le chiffre zéro et la lettre O. Les polices compatibles OCR font apparaître ces deux caractères aussi différents que possible pour aider l'ordinateur à lire le document.
Les documents manuscrits nécessitent un espacement régulier et clair entre les lettres pour assurer une numérisation correcte. C'est pourquoi les formulaires qui utilisent la technologie OCR exigent souvent que les utilisateurs impriment en lettres majuscules à l'intérieur d'une série de cases. Chaque boîte distincte peut ensuite être numérisée individuellement, empêchant l'ordinateur de mal lire les lettres qui se sont déroulées ensemble.