Skip to main content

¿Qué es un diagrama de caja?

Un diagrama de caja o diagrama de caja y bigotes es un método para organizar datos numéricos a lo largo de una sola línea numérica, que puede ser horizontal o vertical. El cuadro real, cuando el gráfico es horizontal, se encuentra ligeramente por encima de la línea numérica y se compone de tres líneas verticales, conectadas entre sí por líneas horizontales. Los límites horizontales de la caja representan el primer y tercer cuartiles (percentiles 25 y 75), separados por la línea media, que es la mediana de los datos o el percentil 50. A cada lado del diagrama de caja desde el medio de las líneas horizontales, se extienden líneas verticales, a veces llamadas bigotes. Cuando estos alcanzan números mínimos y máximos del conjunto de datos, terminan en líneas horizontales más pequeñas, aunque esto puede variar ligeramente dependiendo de la dispersión de datos.

Hay algunos elementos importantes que conforman un buen diagrama de caja, y algunos números que las personas necesitan saber cuando crean estos cuadros. El primero de ellos se llama el resumen de cinco números, a menudo abreviado como cinco números. suma. Esta es una lista del primer y tercer cuartiles, mediana y números mínimos y máximos de los datos. En algunas aplicaciones, las personas necesitarán enumerarlos cerca de la gráfica, aunque el análisis de una gráfica con una buena línea numérica también puede derivar estos números al observar las tres líneas horizontales y los bigotes finales. No es una pregunta de huevo / gallina para la persona que dibuja una trama porque los cinco números. suma. debe usarse para crear la trama.

Las personas también necesitan saber un número llamado rango intercuartil (IQR). Restar el primer cuartil del tercer cuartil deriva el IQR, y el uso de diferentes software o calculadoras científicas también puede obtener este número y el resumen de cinco números ingresando todos los datos. El IQR es importante porque las líneas que se extienden desde el cuadro generalmente solo se extienden hasta 1,5 veces el IQR. Los datos más allá de ese punto se indican mediante puntos en lugar de una línea continua. Estos puntos a menudo sugieren que los datos tienen valores atípicos.

Existe una variedad de usos para el diagrama de caja. Se pueden dibujar varios gráficos sobre una línea numérica, y podrían comparar conjuntos similares de datos diferenciados por algún factor importante. Por ejemplo, los científicos o estadísticos pueden registrar la frecuencia cardíaca de hombres y mujeres, y luego construir dos diagramas de cajas apiladas para buscar diferencias significativas en el rango y los cuartiles.

Los diagramas de caja no abordan la frecuencia de datos. La falta de una escala adicional (vertical u horizontal) omite información sobre números repetidos, el tamaño del conjunto de datos y la mayoría de los números individuales. La persona que mira un diagrama de caja comprenderá mejor el resumen de cinco números, el rango y si los datos tienen valores atípicos. El tamaño de la caja, la relación de la mediana con los cuartiles y la longitud de los bigotes pueden mostrar si los datos están sesgados, pero no pueden hablar de cosas como la media, el modo o la desviación estándar. Otros cuadros, como los histogramas, pueden ser más útiles cuando las personas quieren representar cosas como la frecuencia o obtener mejores imágenes sobre la distribución de datos.