Skip to main content

¿Qué es la minería de datos estadísticos?

La minería de datos estadísticos, también conocida como conocimiento o descubrimiento de datos, es un método computarizado para recopilar y analizar información. La herramienta de minería de datos toma datos y clasifica la información para descubrir patrones o correlaciones que se pueden usar en aplicaciones importantes, como medicamentos, programación de computadoras, promoción comercial y diseño robótico. Las técnicas de minería de datos estadísticos utilizan matemáticas complejas y procesos estadísticos complicados para crear un análisis.

La minería de datos implica cinco pasos principales. La primera aplicación de minería de datos recopila datos estadísticos y coloca la información en un programa de tipo almacén. A continuación, los datos en el almacén se organizan y crean un sistema de gestión. El siguiente paso crea una forma de acceder a los datos administrados. Luego, el cuarto paso desarrolla un software para analizar los datos, también conocido como regresión de minería de datos, mientras que el paso final facilita el uso o la interpretación de los datos estadísticos de una manera práctica.

En general, las técnicas de minería de datos integran sistemas de datos analíticos y de transacciones. El software analítico clasifica a través de ambos tipos de sistemas de datos usando preguntas de usuario abiertas. Las preguntas abiertas permiten innumerables respuestas para que los programadores no influyan en los resultados de la clasificación. Los programadores crean listas de preguntas para ayudar a categorizar la información utilizando un enfoque general.

Luego, la clasificación se basa en el desarrollo de clases y grupos de datos, asociaciones encontradas en los datos e intentos de definir patrones y tendencias basados ​​en las asociaciones. Por ejemplo, Google recopila información sobre los hábitos de compra de los usuarios para ayudar a colocar publicidad en línea. Las preguntas abiertas utilizadas para clasificar estos datos del comprador se centran en las preferencias de compra o en los hábitos de visualización de los usuarios de Internet.

Los informáticos y los programadores se centran en el análisis de los datos estadísticos que se recopilan. La creación de árboles de decisión, redes neuronales artificiales, método del vecino más cercano, inducción de reglas, visualización de datos y algoritmos genéticos utilizan todos los datos extraídos estadísticamente. Estos sistemas de clasificación ayudan a interpretar las asociaciones descubiertas por los programas de datos analíticos. La minería de datos estadística involucra pequeños proyectos que se pueden hacer a pequeña escala en una computadora doméstica, pero la mayoría de los conjuntos de asociaciones de minería de datos son tan grandes y la regresión de minería de datos tan complicada que requieren una supercomputadora o una red de computadoras de alta velocidad.

La minería de datos estadísticos recopila tres tipos generales de datos, incluidos datos operativos, datos no operativos y metadatos. En una tienda de ropa, los datos operativos son datos básicos utilizados para administrar el negocio, como contabilidad, ventas y control de inventario. Los datos no operativos, que están indirectamente relacionados con el negocio, incluyen estimaciones de ventas futuras e información general sobre el mercado nacional de ropa. Los metadatos se refieren a los datos en sí. Un programa que utiliza metadatos podría clasificar a los clientes de la tienda en clasificaciones basadas en el género o la ubicación geográfica de los compradores de ropa o el color favorito de los clientes, si se recopilaron esos datos.

Una aplicación de minería de datos puede ser extremadamente sofisticada y la herramienta de minería de datos estadísticos puede tener aplicaciones prácticas generalizadas. El estudio de brotes de enfermedades es un ejemplo. Un proyecto de minería de datos de 2000 analizó el brote de la enfermedad de cryptosporidium en Ontario, Canadá para determinar las causas del aumento de los casos de enfermedad. Los resultados de la extracción de datos ayudaron a vincular el brote de bacterias con las condiciones locales del agua y la falta de un tratamiento municipal adecuado del agua. Un campo llamado "biovigilancia" utiliza la minería de datos epidemiológicos para identificar brotes de una sola enfermedad.

Los programadores y diseñadores de computadoras también emplean el estudio de probabilidad y análisis de datos estadísticos para desarrollar máquinas y programas de computadora. El motor de búsqueda de Internet de Google fue diseñado usando minería de datos estadísticos. Google continúa recopilando y utilizando la minería de datos para crear actualizaciones de programas y aplicaciones.