Internet

¿Qué es el reconocimiento óptico de caracteres (OCR)?

El reconocimiento óptico de caracteres (OCR) es un proceso de conversión de materiales impresos en archivos de procesamiento de texto o texto que se pueden editar y almacenar fácilmente. La tecnología ha permitido que dichos materiales se almacenen utilizando mucho menos espacio de almacenamiento que los materiales impresos. La tecnología OCR ha tenido un gran impacto en la forma en que la información se almacena, comparte y edita. Antes del reconocimiento óptico de caracteres, si alguien quisiera convertir un libro en un archivo de procesamiento de texto, cada página tendría que escribirse palabra por palabra.

La tecnología OCR requiere hardware y software. Además, los sofisticados sistemas de OCR requieren una placa de circuito adicional en la computadora para completar el proceso. Un escáner óptico escanea el texto en una página, luego divide las fuentes en una serie de puntos llamados mapa de bits. El software puede leer las fuentes más comunes y distinguir dónde comienzan y se detienen las líneas. Este mapa de bits se traduce al texto de la computadora.

Si bien el reconocimiento óptico de caracteres ha logrado grandes avances en los últimos años, aún no siempre funciona bien al reconocer la escritura a mano o las fuentes que se parecen a la escritura a mano. Existen sistemas dentro de la industria bancaria que utilizan la tecnología OCR para tratar de leer los montos de los cheques escritos a mano, junto con la capacidad de la computadora para leer los números de ruta y de cuenta.

Para dar una idea del poder de OCR, puede ayudar echar un vistazo a un ejemplo del mundo real. Imagine un departamento de policía que tiene todos sus antecedentes penales almacenados en vastos archivadores. Aunque escanear millones de páginas sería una tarea costosa y que requiere mucho tiempo, los beneficios son enormes.

Una vez que el sistema OCR ha convertido las páginas en texto legible por computadora, un detective, por ejemplo, podría buscar en todo el historial en unos segundos. Encontrar manualmente un registro en particular podría no ser demasiado difícil, pero imagine un detective tratando de buscar todos los delitos cometidos en una determinada intersección entre las 8:00 y las 8:30. Este ejemplo solo rasca la superficie del poder del texto de búsqueda, y es solo una de las razones por las que muchas empresas e instituciones están gastando millones de dólares para OCR sus datos heredados.