Skip to main content

¿Qué es la distribución de histograma?

  • Grover

La distribución de histograma en estadísticas se refiere a los patrones, formas y ubicaciones de barras de datos univariadas en un histograma. Cómo y dónde se distribuyen las barras se puede utilizar para analizar y sacar conclusiones sobre los datos. El análisis de distribución de histograma es importante para identificar rasgos como la normalidad de los datos, las distribuciones multimodales y los datos asimétricos.

Un histograma es una visualización de datos univariada que utiliza rectángulos proporcionales en el área a la clase o frecuencias de bin para mostrar visualmente las características de los datos. Los puntos de datos en el histograma están organizados en contenedores y la distribución del histograma en sí es una aproximación visual de la distribución de frecuencia de los datos o la función de densidad de probabilidad. La forma de la distribución puede cambiar según el número de contenedores.

El análisis de distribución de histograma a menudo se usa como una verificación cualitativa de la normalidad de los datos. Aunque existen métodos analíticos para determinar la normalidad, los histogramas pueden usarse para proporcionar una verificación rápida y de sentido común para ahorrar tiempo. Si los datos del histograma aparecen aproximadamente uniformes y centrados en la media, se supone que los datos son normales. Aunque es rápido y relativamente fácil, este tipo de verificación cualitativa es subjetiva y se deben utilizar métodos analíticos si se requiere un mayor estándar de precisión.

Determinar si un conjunto de datos exhibe asimetría es otra forma en que se puede usar el análisis de distribución de histograma. La asimetría de los datos se define como una asimetría pronunciada en los datos. El sesgo negativo, o sesgado a la izquierda, se ve en conjuntos de datos con muy pocos valores bajos. El sesgo positivo, o sesgado a la derecha, ocurre en conjuntos de datos con pocos valores altos. Observar la distribución del histograma puede revelar valores atípicos y datos asimétricos.

Además de revelar las características de los datos con un solo modo, la forma de un histograma también puede revelar características de datos multimodales. Los conjuntos de datos multimodales contienen más de un modo y se caracterizan por distribuciones de frecuencia que tienen más de un pico o máximo. Las afiliaciones políticas en una ciudad, las encuestas de opinión de aprobación y el tamaño del cuerpo de las abejas son ejemplos de conjuntos de datos que pueden ser multimodales. Observar la forma del histograma y observar los diversos picos en los datos multimodales a menudo puede proporcionar al investigador más información que los simples cálculos estadísticos univariados.

El análisis de histogramas y la distribución de datos dependen en gran medida de los tamaños de bin elegidos. En la práctica, el número de contenedores se puede estimar tomando la raíz cuadrada del número de observaciones, aunque se pueden usar otros tamaños de contenedores. Por ejemplo, un maestro puede elegir analizar las calificaciones de los exámenes eligiendo tamaños de contenedores que reflejen las calificaciones de las letras.