Internet

¿Qué es la extracción de información?

A veces conocida como recuperación de información, la extracción de información (IE) es un proceso que se utiliza con sistemas informáticos para permitir que se extraigan datos relevantes de cuerpos de datos más grandes, utilizando algún conjunto de criterios predefinidos. La idea detrás de la extracción de información es hacer posible identificar y asimilar fácilmente los datos que son relevantes para una actividad particular, sin la necesidad de revisar manualmente grandes cantidades de información para encontrar los datos exactos requeridos. El proceso es similar a las ideas de minería de conceptos o raspado web, ya que todos estos enfoques buscan recopilar información útil de un conjunto más amplio de datos disponibles.

El enfoque general para la extracción de información requiere el uso de programación que sea capaz de escanear fuentes de información que se consideran legibles por máquina. Esto puede incluir documentos impresos que se han escaneado en algún tipo de archivo electrónico, documentos preparados como hojas de cálculo o documentos de procesamiento de texto, o incluso los datos que están contenidos en campos legibles en una base de datos. Por lo general, se establecen parámetros que hacen posible que un programa de software tenga acceso a estas fuentes de datos y escanee rápidamente a través de ellos utilizando criterios específicos para priorizar y extraer ciertos tipos de información del grupo disponible. Este proceso suele ser diferente de un simple proceso de búsqueda, ya que el método requiere no coincidir palabras o frases específicas per se, sino que utiliza un proceso llamado procesamiento del lenguaje natural, que ayuda no solo a evaluar las palabras reales sino también el contexto y el significado implicado por ese contexto.

Las complejidades involucradas con la extracción de información hacen que el uso de este enfoque sea algo difícil de administrar a escala global, aunque existen herramientas de IE que funcionan muy bien solo con una cantidad limitada de datos, como las fuentes de datos asociadas con los archivos electrónicos alojados en el servidor de una corporación, o incluso un grupo de fuentes que involucra un número limitado de noticias. Con este enfoque, es posible identificar algún tipo de evento, posiblemente incluso limitar los retornos a la inclusión de un cierto número de participantes en el evento, y tener los datos ordenados según la fecha.

Al igual que con muchas formas de tecnología, las herramientas utilizadas para participar en la extracción de información se refinan continuamente. Desde principios del siglo XXI, la capacidad de establecer parámetros y hacer uso de cuerpos de datos electrónicos cada vez mayores como parte de la búsqueda de información relevante ha aumentado significativamente. Esto incluye la capacidad de manejar grandes volúmenes de datos no estructurados y usar esos parámetros para dar cierto orden o estructura a esos datos, haciéndolos aún más útiles para futuras búsquedas.