Skip to main content

¿Qué es la regresión lineal simple?

La regresión lineal simple se aplica a las estadísticas y ayuda a describir los datos (x, y) que parecen tener una relación lineal, lo que permite cierta predicción de y si se conoce x. Estos datos a menudo se trazan en diagramas de dispersión y la fórmula para la regresión lineal crea una línea que mejor se adapta a todos los puntos, siempre que realmente tengan una correlación lineal. No se ajustará exactamente a todos los puntos, pero debería ser una línea donde la suma de los cuadrados de la diferencia entre los datos reales y los datos esperados (residuales) crea el número más bajo, que a menudo se llama la línea o línea de mínimos cuadrados. mejor ajuste. La ecuación de la línea para datos de muestra y datos de población es la siguiente: ŷ = b 0 + b 1 x e Y = B 0 + B 1 x.

Cualquier persona familiarizada con el álgebra puede notar la similitud de esta línea con y = mx + b, y de hecho los dos son relativamente idénticos, excepto que los dos términos en el lado derecho de la ecuación se cambian, de modo que B 1 es igual a la pendiente o m. La razón de esta reorganización es que se vuelve elegante y fácil agregar términos adicionales con características tales como exponentes que podrían describir diferentes formas no lineales de relación.

Las fórmulas para obtener una línea de regresión lineal simple son relativamente complejas y engorrosas, y la mayoría de las personas no dedican mucho tiempo a escribirlas porque tardan mucho tiempo en completarse. En cambio, varios programas, como para Excel® o para muchos tipos de calculadoras científicas, pueden calcular fácilmente una línea de mínimos cuadrados. La línea solo es apropiada para la predicción si existe evidencia clara de una fuerte correlación entre los conjuntos de datos (x, y). Una calculadora generará una línea, independientemente de si tiene sentido usarla.

Al mismo tiempo que se genera una ecuación de línea de regresión lineal simple, las personas deben observar el nivel de correlación. Esto significa evaluar r, el coeficiente de correlación, contra una tabla de valores para determinar si existe una correlación lineal. Además, evaluar los datos trazándolos como un diagrama de dispersión es una buena manera de tener una idea de si los datos tienen una relación lineal.

Entonces, lo que se puede hacer con una línea de regresión lineal simple, siempre que tenga una correlación lineal, es que los valores se pueden sustituir en x, para obtener un valor predicho para ŷ. Esta predicción tiene sus límites. Los datos presentes, particularmente si se trata solo de una muestra, pueden tener una correlación lineal ahora, pero no más adelante con la adición de material de muestra adicional.

Alternativamente, una muestra completa puede compartir una correlación mientras que una población entera no. Por lo tanto, la predicción es limitada, y ir más allá de los valores de datos disponibles se llama extrapolación, y no se recomienda. Además, si las personas supieran que si no existe una correlación lineal, la mejor estimación de x es la media de todos los datos de y.

Esencialmente, la regresión lineal simple es una herramienta estadística útil que se puede usar, con discreción, para predecir los valores ŷ basados ​​en el valor del hacha. Casi siempre se enseña con la idea de correlación lineal, ya que determinar la utilidad de una línea de regresión requiere el análisis de r. Afortunadamente, con muchos programas técnicos modernos, las personas pueden graficar diagramas de dispersión, agregar líneas de regresión y determinar el coeficiente de correlación r con un par de entradas.