Skip to main content

¿Qué es la minería de datos?

La minería de datos utiliza una cantidad relativamente grande de potencia informática que opera en un gran conjunto de datos para determinar las regularidades y las conexiones entre los puntos de datos. Los algoritmos que emplean técnicas de estadística, aprendizaje automático y reconocimiento de patrones se utilizan para buscar grandes bases de datos automáticamente. La minería de datos también se conoce como Knowledge-Discovery in Databases (KDD).

Al igual que el término inteligencia artificial , la minería de datos es un término general que se puede aplicar a una serie de actividades diferentes. En el mundo corporativo, la minería de datos se usa con mayor frecuencia para determinar la dirección de las tendencias y predecir el futuro. Se emplea para construir modelos y sistemas de apoyo a las decisiones que brindan a las personas información que pueden usar. La minería de datos toma un papel de primera línea en la batalla contra el terrorismo. Supuestamente se usó para determinar el líder de los ataques del 11 de septiembre.

Los mineros de datos son estadísticos que usan técnicas con nombres como modelos cercanos , agrupación de k-medias , método de retención , validación cruzada de k-fold , el método de dejar uno afuera , etc. Las técnicas de regresión se utilizan para restar patrones irrelevantes, dejando solo información útil. El término Bayesiano se ve con frecuencia en el campo, refiriéndose a una clase de técnicas de inferencia que predicen la probabilidad de eventos futuros mediante la combinación de probabilidades anteriores y probabilidades basadas en eventos condicionales. El filtrado de spam es posiblemente una forma de minería de datos, que automáticamente trae mensajes relevantes a la superficie desde un mar caótico de intentos de phishing y lanzamientos de Viagra.

Los árboles de decisión se utilizan para filtrar montañas de datos. En un árbol de decisión, todos los datos pasan a través de un nodo de entrada, donde se enfrenta a un filtro que separa los datos en flujos dependiendo de sus características. Por ejemplo, es probable que los datos sobre el comportamiento del consumidor se filtren en función de factores demográficos. La minería de datos no se trata principalmente de gráficos sofisticados y técnicas de visualización, pero los emplea para mostrar lo que ha encontrado. Se sabe que podemos absorber más información estadística visualmente que verbalmente y este formato de presentación puede ser muy persuasivo y poderoso si se usa en el contexto correcto.

A medida que nuestra civilización se satura cada vez más de datos y los sensores se distribuyen en masa en nuestros entornos locales, descubriremos inadvertidamente cosas que podrían perderse en el primer paso. La minería de datos nos permitirá corregir estos errores y descubrir nuevas ideas basadas en datos anteriores, lo que nos dará más provecho de nuestro dinero de almacenamiento de datos.