Skip to main content

¿Cómo elijo el mejor software de OCR?

El software OCR, o software de reconocimiento óptico de caracteres, es un software diseñado para traducir imágenes de texto en texto real que una computadora puede leer. En general, el software OCR se usa después de que una imagen ha sido escaneada en una computadora, aunque también se pueden usar otras formas de entrada. El software OCR funciona mejor en texto que ya se ha escrito, ya sea en los casos en que se perdió una copia impresa original o en hojas de escaneo escritas en una máquina de escribir. Sin embargo, un buen software también puede traducir texto escrito a mano, aunque la tasa de error en este tipo de conversión tiende a ser mucho mayor.

El término real del software OCR es un poco engañoso, ya que la mayoría del software OCR moderno no utiliza el reconocimiento óptico de caracteres, sino que en realidad usa el reconocimiento digital de caracteres. Esto se debe a que hace algunos años los campos se fusionaron efectivamente, y ambos campos adoptaron el término más atractivo de reconocimiento óptico de caracteres. El software OCR ha avanzado mucho en los últimos años, con programas modernos sustancialmente mejores que sus predecesores para identificar texto.

De hecho, el software de OCR temprano requería entrenar el programa en una fuente específica antes de que pudiera ingresarse con precisión. Del mismo modo, al ingresar la escritura a mano, el programa tendría que ser entrenado, un proceso que podría llevar mucho tiempo. Sin embargo, los métodos han mejorado, y los sistemas más inteligentes son ahora la norma. Los métodos utilizados ahora son relativamente estáticos, con solo un poco de investigación para desarrollar métodos completamente nuevos, y la mayoría de las investigaciones para perfeccionar los procedimientos existentes para hacerlos aún más precisos. Los primeros programas de OCR se usaron en una amplia gama de aplicaciones, y las grandes corporaciones lo usaron para leer impresiones de tarjetas de crédito en la década de 1950, y el Servicio Postal de los Estados Unidos lo usó para clasificar el correo desde mediados de la década de 1960.

Hace diez años, elegir una pieza de software OCR era difícil, ya que muchos programas eran bastante malos en ciertas tareas y razonablemente buenos en otras. En estos días, sin embargo, el campo se ha nivelado en gran medida. Las tasas de precisión en cualquier buen software de OCR para traducir scripts latinos que se han escrito están por encima del 99%. Sin embargo, cuando se trata de ingresar escritura a mano, o tipos de letra más complejos, el software OCR todavía tiene un rango relativamente alto.

El costo del software OCR también fluctúa ampliamente, a menudo en relación con las tasas de precisión que ofrece. Se puede encontrar una buena cantidad de software de OCR gratuito que es adecuado para ingresar material impreso, y se puede encontrar algo que es relativamente bueno para detectar la escritura, especialmente con algo de capacitación. Las suites de software más costosas, como la suite OmniPage, que cuesta alrededor de $ 100 dólares estadounidenses (USD) para la versión doméstica y alrededor de $ 450 USD para la versión profesional, cuentan con impresionantes conjuntos de características y, en general, tasas de éxito más altas.

Desafortunadamente, todavía no existe el software OCR perfecto, por lo que elegir un programa para comprar puede ser un proceso frustrante. Incluso los mejores programas probablemente tendrán dificultades con la escritura a mano, y los errores inevitablemente aparecerán, incluso a niveles bajos. Principalmente, elegir un programa para comprar se reduce a características adicionales: soporte multilingüe, escaneo de un toque e integración de conversión, conversión automática de PDF y reconocimiento de palabras completas en disciplinas especializadas como campos legales y médicos.