¿Qué es la agrupación de correlación?

11. 3. 2022

Buck

La agrupación de correlaciones se realiza en bases de datos y otras fuentes de datos grandes para agrupar conjuntos de datos similares, al tiempo que alerta al usuario sobre conjuntos de datos diferentes. Esto se puede hacer perfectamente en algunos gráficos, mientras que otros experimentarán errores porque será difícil diferenciar datos similares de datos diferentes. En el caso de este último, la agrupación de correlaciones ayudará a reducir el error automáticamente. Esto se usa a menudo para la minería de datos o para buscar similitudes en datos difíciles de manejar. Los datos diferentes se eliminan comúnmente o se colocan en un clúster separado.

Cuando se utiliza una función de agrupación de correlación, busca datos según las instrucciones del usuario. El usuario le dirá al programa qué buscar y, cuando se encuentre, dónde colocar los datos. Esto normalmente se aplica a fuentes de datos muy grandes cuando sería imposible, o tomaría muchas horas, buscar a través de los datos manualmente. Puede haber una agrupación perfecta o una agrupación imperfecta.

La agrupación perfecta es el escenario ideal. Esto significa que solo hay dos tipos de datos, y uno es lo que el usuario está buscando, mientras que el otro no es necesario. Todos los datos positivos o necesarios se colocan en un grupo, mientras que los otros datos se eliminan o mueven. En este escenario, no hay confusión y todo funciona perfectamente.

Los gráficos más complejos no permiten la agrupación perfecta y, en cambio, son imperfectos. Por ejemplo, un gráfico tiene tres variables: X, Y y Z. X, Y es similar, X, Z es similar, pero Y, Z es diferente. Sin embargo, los tres grupos variables son tan similares que es imposible tener un grupo de correlación perfecto. El programa trabajará para maximizar el número de correlaciones positivas, pero esto aún requerirá una búsqueda manual por parte del usuario.

En la minería de datos, especialmente cuando se trata de grandes conjuntos de datos, la agrupación de correlaciones se usa para agrupar datos similares con datos similares. Por ejemplo, si una empresa extrae datos de un sitio web o una base de datos de gran tamaño y solo desea conocer un aspecto específico, llevaría una eternidad buscar en todos los datos para ese aspecto. Al utilizar una fórmula de agrupación, los datos se reservarán para un análisis adecuado.

La información diferente se trata basándose únicamente en las instrucciones del usuario. El usuario puede elegir enviar datos diferentes a diferentes grupos, porque la información puede ser útil para otros proyectos. Si los datos son innecesarios y solo están desperdiciando memoria, entonces se desecha la información diferente. En la agrupación imperfecta, es posible que no se deseche alguna información diferente, porque es muy similar a los datos que el usuario está buscando.