CAPITULO 14
Regresión lineal simple
CONTENIDO
- 14.1 MODELO DE REGRESIÓN LINEAL SIMPLE
- Modelo de regresión y ecuación de regresión
- Ecuación de regresión estimada
- 14.2 MÉTODO DE MÍNIMOS CUADRADOS
- 14.3 COEFICIENTE DE DETERMINACIÓN
- Coeficiente de correlación
- 14.4 SUPUESTOS DEL MODELO
- 14.5 PRUEBA DE SIGNIFICANCIA
- Estimación de σ2
- Prueba t
- Intervalo de confianza para 1
- Prueba F
- Algunas advertencias acerca de la interpretación de las pruebas de significancia
- 14.6 USO DE LA ECUACIÓN DE REGRESIÓN ESTIMADA PARA ESTIMACIÓN Y PREDICCIÓN
- Estimación puntual
- Estimación por intervalo
- Intervalo de confianza para el valor medio de y
- Intervalo de predicción para un solo valor de y
- 14.7 SOLUCIÓN POR COMPUTADORA
- 14.8 ANÁLISIS DE RESIDUALES: CONFIRMACIÓN DE LOS SUPUESTOS DEL MODELO
- Gráfica de residuales contra x
- Gráfica de residuales contra yˆ
- Residuales estandarizados
- Gráfica de probabilidad normal
- 14.9 ANÁLISIS DE RESIDUALES: OBSERVACIONES ATÍPICAS Y OBSERVACIONES INFLUYENTES
- Detección de observaciones atípicas
- Detección de observaciones influyentes
Con frecuencia las decisiones gerenciales se basan en la relación entre dos o más variables. Por ejemplo, al analizar la relación entre el gasto en publicidad y las ventas, un gerente de marketing puede tratar de predecir las ventas correspondientes a un determinado gasto en publicidad. En otro caso, una empresa de servicios públicos establece la relación entre la temperatura diaria y la demanda de electricidad para predecir la necesidad de fl uido eléctrico considerando las temperaturas diarias que se esperan para el mes siguiente. Algunas veces los directivos se apoyan en la intuición para juzgar la relación entre dos variables. Sin embargo, cuando los da tos están disponibles, puede emplearse un procedimiento estadístico llamado análisis de regresión para obtener una ecuación que indique cuál es la relación entre las variables. En la terminología que se emplea en la regresión, la variable a predecir se llama variable dependiente, y a la variable o variables que se usan para predecir su valor se les llama variables independientes. Por ejemplo, al analizar el efecto de los gastos en publicidad sobre las ventas, como lo que busca el gerente de marketing es predecir estas últimas, las ventas serán la variable dependiente. En este capítulo se estudia el tipo más sencillo de análisis de regresión en el que interviene una variable independiente y una variable dependiente donde la relación entre estas variables se aproxima mediante una línea recta. A este tipo de análisis se le conoce como regresión lineal simple. Al análisis en el que intervienen dos o más variables independientes se le llama análisis de regresión múltiple; éste y los casos en los que la relación es curvilínea se estudian en los capítulos 15 y 16.
14.1 Modelo de regresión lineal simple: σ desconocida¶
Modelo de regresión y ecuación de regresión
(14.1)
$\beta_0$ y $\beta_1$ se conocen como parámetros del modelo, y $\varepsilon$ es una variable aleatoria denominada término del error. Este último da cuenta de la variabilidad de $y$, que no puede ser explicada por la relación lineal entre $x$ y $y$.
La población de los restaurantes Armand’s puede verse también como un conjunto de subpoblaciones, una para cada uno de los valores de x. Por ejemplo, una subpoblación está formada por todos los restaurantes Armand’s localizados cerca de los campus universitarios con 8 000 estudiantes; otra subpoblación consta de todos los restaurantes Armand’s localizados cerca de los campus universitarios con 9 000 estudiantes, y así sucesivamente. Para cada subpoblación hay una distribución de valores y. Así, hay una distribución de valores y que corresponde a los restaurantes localizados cerca de los campus con 8 000 estudiantes y hay otra para los restaurantes ubicados cerca de los campus con 9 000 estudiantes, y así sucesivamente. Cada una de estas distribuciones tiene su propia media o valor esperado. A la ecuación que describe la relación entre el valor esperado de y, que se denota E(y), y x se le llama ecuación de regresión. La siguiente es la ecuación de regresión para la regresión lineal simple.
(14.2)
La gráfica de la ecuación de regresión lineal simple es una recta; 0 es la intersección de la recta de regresión con el eje y, 1 es la pendiente y E(y) es la media o valor esperado de y para un valor dado de x. En la figura 14.1 se presentan ejemplos de posibles rectas de regresión. La de la gráfica A indica que el valor medio de y está relacionado positivamente con x, con los valores mayores de E(y) asociados a valores mayores de x. La recta de regresión de la gráfica B indica que el valor medio de y está relacionado negativamente con x, con valores menores de E(y) que corresponden a valores mayores de x. La gráfica C muestra el caso en el que el valor medio de y no está relacionado con x; es decir, el valor medio de y es el mismo para todos los valores de x.
Ecuación de regresión estimada
import numpy as np
import matplotlib.pyplot as plt
# Parámetros
beta = 2
color = '#009929' # Color verde oscuro
background_color = '#D4F8B7' # Color de fondo
# Datos x
x = np.linspace(0, 10, 100)
# Configurar estilo de los ejes
plt.rcParams['xtick.bottom'] = plt.rcParams['xtick.labelbottom'] = False
plt.rcParams['xtick.top'] = plt.rcParams['xtick.labeltop'] = False
plt.rcParams['ytick.left'] = plt.rcParams['ytick.labelleft'] = False
plt.rcParams['ytick.right'] = plt.rcParams['ytick.labelright'] = False
# Crear subgráficos con fondo coloreado
fig, axs = plt.subplots(1, 3, figsize=(12, 4), facecolor=background_color)
# Gráfico con pendiente positiva
y_positiva = beta + 0.5 * x
axs[0].plot(x, y_positiva, color=color, label='Pendiente positiva')
axs[0].set_title('Gráfica A\nRelación lineal positiva')
axs[0].legend()
# Gráfico con pendiente negativa
y_negativa = beta - 0.5 * x
axs[1].plot(x, y_negativa, color=color, label='Pendiente negativa')
axs[1].set_title('Gráfica B\nRelación lineal negativa')
axs[1].legend()
# Gráfico con pendiente horizontal
y_horizontal = np.full_like(x, beta)
axs[2].plot(x, y_horizontal, color=color, label='Pendiente horizontal')
axs[2].set_title('Gráfica C\nNo hay relación')
axs[2].legend()
plt.tight_layout()
plt.show()
--------------------------------------------------------------------------- ModuleNotFoundError Traceback (most recent call last) Cell In[3], line 1 ----> 1 import matplotlib.pyplot as plt 3 # Datos de la gráfica 4 x = [1, 2, 3, 4, 5] ModuleNotFoundError: No module named 'matplotlib'
regresión, se obtiene la ecuación de regresión estimada. La ecuación de regresión estimada de una regresión lineal simple se da a continuación.
(14.3)
A la gráfica de la ecuación de regresión lineal simple estimada se le llama recta de regresión estimada; $b_0$ es la intersección con el eje y, y $b_1$ es la pendiente. En la sección siguiente se muestra el uso del método de mínimos cuadrados para calcular los valores de $b_0$ y $b_1$ en la ecuación de regresión estimada.
En general, $\hat{y}$ es el estimador puntual de $E(y)$, el valor medio de las $y$ para un valor dado de $x$. Por tanto, para estimar la media o el valor esperado de las ventas trimestrales de todos los restaurantes situados cerca de los campus con 10,000 estudiantes, Armand’s tendrá que sustituir $x$ por 10,000 en la ecuación (14.3).
Sin embargo, en algunos casos a la cadena le interesará predecir las ventas de un determinado restaurante. Por ejemplo, suponga que desea pronosticar las ventas trimestrales del que se encuentra cerca de Talbot College, una escuela con 10,000 estudiantes. Resulta que la mejor estimación de la $y$ que corresponde a un determinado valor de $x$ es también la proporcionada por $\hat{y}$. Por tanto, para predecir las ventas trimestrales del restaurante en cuestión, Armand’s también sustituirá la $x$ de la ecuación (14.3) por 10,000.
Como el valor de $\hat{y}$ proporciona tanto una estimación puntual de $E(y)$ para un valor dado de $x$, como una estimación puntual de un solo valor de $y$ para un valor dado de $x$, a $\hat{y}$ se le llamará simplemente valor estimado de $y$. En la figura 14.2 se presenta en forma resumida el proceso de estimación en la regresión lineal simple.
(1)
x | y |
---|---|
$x_1$ | $y_1$ |
$x_2$ | $y_2$ |
. | . |
. | . |
$x_n$ | $y_n$ |
(2)
(3)
14.2 Método de mínimos cuadrados: σ desconocida¶
import matplotlib.pyplot as plt
# Coordenadas proporcionadas
coordenadas = [(2, 60), (8, 85), (6, 105), (8, 120), (12, 120),
(16, 135), (20, 155), (20, 170), (22, 130), (26, 200)]
# Separar las coordenadas en x e y
x_points, y_points = zip(*coordenadas)
# Crear la gráfica de puntos
plt.scatter(x_points, y_points, color='#009929')
# Etiquetas de los ejes
plt.xlabel('Población de estudiantes (miles)')
plt.ylabel('Ventas trimestrales (miles de bs)')
# Título de la gráfica
plt.title('Relación entre Población de Estudiantes y Ventas Trimestrales')
# Establecer el fondo de la gráfica
plt.gca().set_facecolor('#D4F8B7')
# Mostrar la gráfica
plt.show()
(14.4)
donde
- $ \hat{y}_i $: Valor estimado de las ventas trimestrales (en miles de dólares) del i-ésimo restaurante.
- $ b_0 $: Intersección de la recta de regresión estimada con el eje y.
- $ b_1 $: Pendiente de la recta de regresión estimada.
- $ x_i $: Tamaño de la población de estudiantes (en miles) del i-ésimo restaurante.
Como $y_i$ denota ventas observadas (reales) para el restaurante $i$, y $\hat{y}_i$ representa el valor estimado de las ventas en la ecuación (14.4), para cada uno de los restaurantes de la muestra habrá un valor de ventas observadas $y_i$ y un valor de ventas estimadas $\hat{y}_i$. Para que la recta de regresión estimada proporcione un buen ajuste a los datos, las diferencias entre los valores observados y estimados deben ser pequeñas.
En el método de mínimos cuadrados se usan los datos muestrales para obtener los valores de $b_0$ y $b_1$ que minimicen la suma de los cuadrados de las desviaciones (diferencias) entre los valores observados de la variable dependiente $y_i$ y los valores estimados de la variable dependiente $\hat{y}_i$. El criterio que se emplea en el método de mínimos cuadrados se basa en la expresión (14.5).
(14.5)
- $y_i$: Valor observado de la variable dependiente en la observación i-ésima.
- $\hat{y}_i$: Valor estimado de la variable dependiente en la observación i-ésima.
Se pueden usar cálculos diferenciales para demostrar (vea el apéndice 14.1) que los valores de $b_0$ y $b_1$ que minimizan la expresión (14.5) se pueden encontrar usando las ecuaciones (14.6) y (14.7).
(14.5)
(14.6)
- $x_i$: Valor de la variable independiente en la observación i-ésima.
- $y_i$: Valor de la variable dependiente en la observación i-ésima.
- $x$: Media de la variable independiente.
- $y$: Media de la variable dependiente.
- $n$: Número total de observaciones.
En la tabla 14.2 se presentan algunos cálculos necesarios para desarrollar la ecuación de regresión estimada por mínimos cuadrados en el ejemplo de Armand’s Pizza Parlors. Como la muestra es de 10 restaurantes, tenemos $n = 10$ observaciones. Dado que en las ecuaciones (14.6) y (14.7) se necesitan $x$ e $y$, se empieza por calcularlas.
$$ x = \frac{\sum_{i=1}^{n} x_i}{n} = \frac{140}{10} = 14 $$
$$ x = \frac{\sum_{i=1}^{n} y_i}{n} = \frac{1300}{10} = 130 $$
Utilizando las ecuaciones (14.6) y (14.7) y la información de la tabla 14.2, se calcula la pendiente y la intersección de la ecuación de regresión estimada para Armand’s Pizza Parlors. La pendiente $b_1$ se calcula como se muestra a continuación.
Restaurante | \(x_i\) | \(y_i\) | \(x_i - \bar{x}\) | \(y_i - \bar{y}\) | \((x_i - \bar{x})(y_i - \bar{y})\) | \((x_i - \bar{x})^2\) |
---|---|---|---|---|---|---|
1 | 2 | 58 | -12 | -72 | 864 | 144 |
2 | 6 | 105 | -8 | 25 | 200 | 64 |
3 | 8 | 88 | -6 | 42 | 252 | 36 |
4 | 8 | 118 | -6 | 12 | 72 | 36 |
5 | 12 | 117 | -2 | 13 | 26 | 4 |
6 | 16 | 137 | 2 | 7 | 14 | 4 |
7 | 20 | 157 | 6 | 27 | 162 | 36 |
8 | 20 | 169 | 6 | 39 | 234 | 36 |
9 | 22 | 149 | 8 | 19 | 152 | 64 |
10 | 26 | 202 | 12 | 72 | 864 | 144 |
totales | 140 | 1300 | 2840 | 568 | ||
$ \sum_{i=1}^{n} x_i $ | $ \sum_{i=1}^{n} y_i $ | $ \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) $ | $ \sum_{i=1}^{n} (x_i - \bar{x})^2 $ |
$$ b_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} $$ $$ b_1 = \frac{2840}{568} $$ $$=5$$
La intersección con el eje y $b_0$ se calcula como sigue. $$ b_0 = \bar{y} - b_1 \bar{x} $$ $$ b_0 = 130 - 5 \times 14 = 60 $$ Por tanto, la ecuación de regresión estimada es $$ \hat{y} = 60 + 5x $$
En la fi gura 14.4 se ilustra esta ecuación grafi cada sobre el diagrama de dispersión. La pendiente de la ecuación de regresión estimada $b_1=5$ es positiva, lo que implica que a medida que aumenta el tamaño de la población de estudiantes, las ventas se incrementan. Se concluye (con base en las ventas dadas en miles de bs y el tamaño de la población en miles) que un aumento de 1 000 en el tamaño de la población de estudiantes corresponde a un incremento de bs5 000 en las ventas esperadas; es decir, se prevé que las ventas trimestrales se incrementen bs5 por cada estudiante. Si se considera que la ecuación de regresión estimada obtenida por el método de mínimos cuadrados describe adecuadamente la relación entre x y y, parecerá razonable usar esta ecuación a efecto de pronosticar el valor de y para un valor dado de x. Por ejemplo, si se quisieran predecir las ventas trimestrales de un restaurante ubicado cerca de un campo de 16 000 estudiantes, se calcularía, como sigue.
$$ \hat{y} = 60 + 5(16)= 140 $$
De manera que las ventas trimestrales pronosticadas para este restaurante serían de bs140 000. En las secciones siguientes se verán los métodos para evaluar el uso correcto de la ecuación de regresión para hacer estimaciones y predicciones.
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
# Coordenadas proporcionadas
coordenadas = [(2, 60), (8, 85), (6, 105), (8, 120), (12, 120),
(16, 135), (20, 155), (20, 170), (22, 130), (26, 200)]
# Separar las coordenadas en x e y
x_points, y_points = zip(*coordenadas)
# Convertir a arrays de NumPy
x_points = np.array(x_points).reshape(-1, 1)
y_points = np.array(y_points)
# Crear el modelo de regresión lineal
modelo = LinearRegression().fit(x_points, y_points)
# Predecir los valores y con base en los valores x
y_pred = modelo.predict(x_points)
# Crear la gráfica de puntos
plt.scatter(x_points, y_points, color='#009929', label='Puntos')
# Dibujar la línea de regresión con el color solicitado
plt.plot(x_points, y_pred, color='#98F84A', linewidth=2, label='Regresión Lineal')
# Etiquetas de los ejes
plt.xlabel('Población de estudiantes (miles)')
plt.ylabel('Ventas trimestrales (miles de bs)')
# Título de la gráfica
plt.title('Relación entre Población de Estudiantes y Ventas Trimestrales')
# Establecer el fondo de la gráfica
plt.gca().set_facecolor('#D4F8B7')
# Etiquetas adicionales
plt.text(10, 170, 'yhat = 60 + 5x', color='black', fontsize=12)
plt.text(10, 160, 'Pendiente b_1 = 5', color='black', fontsize=12)
# Mostrar la leyenda
plt.legend()
# Mostrar la gráfica
plt.show()
14.3 coeficiente de determinacion: σ desconocida¶
A la diferencia que existe en la observación $i$-ésima entre el valor observado de la variable dependiente $y_i$, y el valor estimado de la variable dependiente $\hat{y}_i$, se le llama residual $i$-ésimo. Este representa el error que existe al usar $\hat{y}_i$ para estimar $y_i$. Por tanto, para la observación $i$-ésima, el residual es $y_i - \hat{y}_i$. La suma de los cuadrados de estos residuales o errores es la cantidad que se minimiza empleando el método de los mínimos cuadrados. Esta cantidad, también conocida como suma de cuadrados debido al error, se denota como SCE.
$SCE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$
(14.8)
El valor de la SCE es una medida del error al utilizar la ecuación de regresión estimada para calcular los valores de la variable dependiente de la muestra.
En la Tabla 14.3 se indican los procedimientos que se requieren para calcular la suma de cuadrados debido al error en el caso de Armand’s Pizza Parlors. Por ejemplo, los valores de las variables independiente y dependiente del restaurante 1 son $x_1 = 2$ y $y_1 = 58$. El valor estimado para sus ventas trimestrales obtenido con la ecuación de regresión estimada es $\hat{y}_1 = 60 + 5(2) = 70$. Por consiguiente, para el restaurante 1, el error al usar $\hat{y}_1$ para estimar $y_1$ es $y_1 - \hat{y}_1 = 58 - 70 = -12$. El error al cuadrado, $(-12)^2 = 144$, aparece en la última columna de la Tabla 14.3. Después de calcular y elevar al cuadrado los residuales de cada uno de los restaurantes de la muestra, se suman y obtenemos que SCE = 1,530. Por tanto, esta suma mide el error que existe al utilizar la ecuación de regresión estimada $\hat{y} = 60 + 5x$ para predecir las ventas.
Ahora suponga que se pide una estimación de las ventas trimestrales sin conocer el tamaño de la población de estudiantes. Sin tener conocimiento de ninguna otra variable relacionada, se emplearía la media muestral como una estimación de las ventas trimestrales de cualquiera de
Restaurante | \(x_i\) (Población de Estudiantes, miles) | \(y_i\) (Ventas Trimestrales, miles de bs) | Ventas Pronosticadas (\(\hat{y}_i = 60 + 5x\)) | Error (\(y_i - \hat{y}_i\)) | Error al Cuadrado (\((y_i - \hat{y}_i)^2\)) |
---|---|---|---|---|---|
1 | 2 | 58 | 70 | -12 | 144 |
2 | 6 | 105 | 90 | 15 | 225 |
3 | 8 | 88 | 100 | -12 | 144 |
4 | 8 | 118 | 100 | 18 | 324 |
5 | 12 | 117 | 120 | -3 | 9 |
6 | 16 | 137 | 140 | -3 | 9 |
7 | 20 | 157 | 160 | -3 | 9 |
8 | 20 | 169 | 160 | 9 | 81 |
9 | 22 | 149 | 170 | -21 | 441 |
10 | 26 | 202 | 190 | 12 | 144 |
$$SCE=1530$$
Restaurante | \(x_i\) (Población de Estudiantes, miles) | \(y_i\) (Ventas Trimestrales, miles de bs) | Desviación (\(y_i - \bar{y}\)) | Desviación al Cuadrado (\((y_i - \bar{y})^2\)) |
---|---|---|---|---|
1 | 2 | 58 | -25 | 625 |
2 | 6 | 105 | -42 | 1,764 |
3 | 8 | 88 | -12 | 144 |
4 | 8 | 118 | 13 | 169 |
5 | 12 | 117 | 0 | 0 |
6 | 16 | 137 | 7 | 49 |
7 | 20 | 157 | 27 | 729 |
8 | 20 | 169 | 39 | 1,521 |
9 | 22 | 149 | 19 | 361 |
10 | 26 | 202 | 5 | 25 |
$$STC=15730$$
En la tabla 14.2 se mostró que con base en los datos de las ventas, $y_i = 1300$. Así, el valor medio de las ventas trimestrales en la muestra de los 10 restaurantes Armand’s es $\bar{y} = \frac{1300}{10} = 130$. En la tabla 14.4 se presenta la suma de las desviaciones al cuadrado que se obtiene cuando se usa la media muestral $\bar{y} = 130$ para estimar el valor de las ventas trimestrales de cada uno de los restaurantes. Para el restaurante $i$-ésimo de la muestra, la diferencia $y_i - \bar{y}$ proporciona una medida del error que implica usar $\bar{y}$ para estimar las ventas. La correspondiente suma de cuadrados, llamada suma total de cuadrados, se denota $STC$.
$SCR = \sum_{i=1}^{n} (\hat{y}_i - y_i)^2$
(14.10)
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
# Coordenadas proporcionadas
coordenadas = [(2, 60), (8, 85), (6, 105), (8, 120), (12, 120),
(16, 135), (20, 155), (20, 170), (22, 130), (26, 200)]
# Separar las coordenadas en x e y
x_points, y_points = zip(*coordenadas)
# Convertir a arrays de NumPy
x_points = np.array(x_points).reshape(-1, 1)
y_points = np.array(y_points)
# Crear el modelo de regresión lineal
modelo = LinearRegression().fit(x_points, y_points)
# Predecir los valores y con base en los valores x
y_pred = modelo.predict(x_points)
# Crear la gráfica de puntos
plt.scatter(x_points, y_points, color='#009929', label='Puntos')
# Dibujar la línea de regresión con el color solicitado
plt.plot(x_points, y_pred, color='#98F84A', linewidth=2, label='Regresión Lineal')
# Dibujar la línea horizontal en la altura 130
plt.axhline(y=130, color='#009929', linestyle='--', label='Altura 130')
# Etiquetas de los ejes
plt.xlabel('Población de estudiantes (miles)')
plt.ylabel('Ventas trimestrales (miles de bs)')
# Título de la gráfica
plt.title('Relación entre Población de Estudiantes y Ventas Trimestrales')
# Establecer el fondo de la gráfica
plt.gca().set_facecolor('#D4F8B7')
# Etiquetas adicionales
plt.text(10, 170, 'yhat = 60 + 5x', color='black', fontsize=12)
# Mostrar la leyenda
plt.legend()
# Mostrar la gráfica
plt.show()
Por lo antes dicho, se esperaría que hubiera alguna relación entre STC, SCR y SCE. En efecto, la relación entre estas tres sumas de cuadrados constituye uno de los resultados más importantes de la estadística.
$$ STC, SCR, SCE$$
(14.11)
STC=suma total de cuadrado
SCR=suma de cuadrados debido a la regresión
SCE=suma de cuadrados debido al error
La ecuación (14.11) indica que la suma total de cuadrados puede ser dividida en dos componentes: la suma de cuadrados debido a la regresión y la suma de cuadrados debido al error. Por consiguiente, si se conocen los valores de dos de estas sumas, es fácil calcular la tercera suma de cuadrados. Por ejemplo, en el caso de Armand’s Pizza Parlors se conocen SCE 1 530 y STC 15 730; por tanto, al despejar SCR en la ecuación (14.11), se encuentra que la suma de cuadrados debido a la regresión es
$$SCR=STC-SCE=15730-1530=14200$$
Ahora se verá cómo se usan estas tres sumas de cuadrados, $STC$, $SCR$ y $SCE$, para obtener una medida de la bondad de ajuste de la ecuación de regresión estimada. Esta ecuación se ajustaría perfectamente a los datos si cada uno de los valores de la variable dependiente $y_i$ se encontrara sobre la recta de regresión. En este caso, para todas las observaciones se tendría que $y_i - \hat{y}_i$ sería igual a 0, con lo que $SCE = 0$. Como $STC = SCR + SCE$, vemos que para que haya un ajuste perfecto, $SCR$ debe ser igual a $STC$, y el cociente $\frac{SCR}{STC}$ debe ser igual a 1. Cuando los ajustes son malos, se tendrán valores altos para $SCE$. Si en la ecuación (14.11) despejamos esta, tenemos que $SCE = STC - SCR$. Por lo tanto, el valor más grande de $SCE$ (y, por tanto, el ajuste más pobre) se presenta cuando $SCR = 0$ y $SCE = STC$.
El cociente $\frac{SCR}{STC}$, que puede tomar valores entre 0 y 1, se usa para evaluar la bondad de ajuste de la ecuación de regresión estimada. A este cociente se le llama coeficiente de determinación y se denota como $r^2$.
$r^2 = \frac{SCR}{STC}$
(14.12)
En el ejemplo de Armand’s Pizza Parlors, el valor del coefi ciente de determinación es $$r^2 = \frac{SCR}{STC} = \frac{14,200}{15,730} \approx 0.9027$$
Cuando se expresa el coeficiente de determinación en forma de porcentaje, $r^2$ se puede interpretar como el porcentaje de la suma total de cuadrados que se explica mediante el uso de la ecuación de regresión estimada. En el ejemplo de Armand’s Pizza Parlors se concluye que 90.27% de la suma total de cuadrados se explica utilizando la ecuación de regresión estimada $\hat{y} = 60 - 5x$ para predecir las ventas trimestrales. En otras palabras, 90.27% de la variabilidad en las ventas se explica por la relación lineal que existe entre éstas y el tamaño de la población de estudiantes. Sería satisfactorio encontrar un buen ajuste para la ecuación de regresión estimada.
En el capítulo 3 se presentó el coeficiente de correlación como una medida descriptiva de la intensidad de la relación lineal entre dos variables $x$ e $y$. Los valores del coeficiente de correlación siempre estarán entre 1 y -1. Un valor de -1 indica que las dos variables $x$ e $y$ están perfectamente relacionadas en un sentido lineal positivo. Es decir, todos los puntos de los datos se encuentran en una línea recta que tiene pendiente positiva. Un valor de 1 indica que $x$ e $y$ están perfectamente relacionadas en un sentido lineal negativo con todos los puntos de los datos en una recta con pendiente negativa. Los valores del coeficiente de correlación cercanos a 0 indican que $x$ e $y$ no están relacionadas linealmente.
En la sección 3.5 se presentó la ecuación para calcular el coeficiente de correlación muestral. Cuando se ha realizado un análisis de regresión y calculado el coeficiente de determinación $r^2$, el coeficiente de correlación muestral se puede obtener como se indica a continuación.
\[ r_{xy} = \text{signo}(b_1) \sqrt{r^2} \] \[ \text{signo}(b_1) \sqrt{r^2} \] donde: $b_1$=pendiente de la ecuación de regresión estimada\[ \hat{y} = b_0 + b_1x \]
(14.13)
El signo del coeficiente de correlación muestral es positivo si la ecuación de regresión estimada tiene pendiente positiva ($b_1 \neq 0$), y es negativo si la ecuación de regresión estimada tiene pendiente negativa ($b_1 \neq 0$).
En el ejemplo de Armand’s Pizza Parlor, el valor del coeficiente de determinación correspondiente a la ecuación de regresión estimada $\hat{y} = 60 - 5x$ es 0.9027. Como la pendiente de esta ecuación es positiva, la ecuación (14.13) indica que el coeficiente de correlación muestral es $0.9027$. Con este coeficiente $r_{xy} = 0.9027$, concluimos que existe una fuerte relación lineal positiva entre $x$ e $y$.
En el caso de una relación lineal entre dos variables, tanto el coeficiente de determinación como el coeficiente de correlación muestral proporcionan medidas de la fuerza de la relación. El primero provee una medida entre 0 y 1, mientras que el segundo proporciona una medida entre -1 y 1. Aunque el coeficiente de correlación muestral está restringido a la relación lineal entre dos variables, el coeficiente de determinación puede emplearse para relaciones no lineales y para otras en las que hay dos o más variables independientes. Por tanto, ofrece un rango de aplicación más amplio.
14.4 Supuestos del modelo: ¶
La relación entre $y$, $0$, $1x$, y el término de error $\varepsilon$ se establece inicialmente como:
$y = 0 + 1x + \varepsilon$
Luego, empleando el método de mínimos cuadrados, se obtienen los valores de $b_0$ y $b_1$, que son las estimaciones de los parámetros del modelo $0$ y $1$, respectivamente. Así se llega a la ecuación de regresión estimada:
$\hat{y} = b_0 + b_1x$
Como vimos, el valor del coeficiente de determinación ($r^2$) es una medida de la bondad de ajuste de la ecuación de regresión estimada. Sin embargo, aun cuando se obtenga un valor grande para $r^2$, la ecuación de regresión estimada no debe ser usada sino hasta que se realice un análisis para determinar si el modelo empleado es apropiado. Un paso importante para ver si el supuesto del modelo es adecuado consiste en probar la significancia de la relación. Las pruebas de significancia en el análisis de regresión están basadas en los siguientes supuestos acerca del término de error $\varepsilon$.
El término del error $\varepsilon$ es una variable aleatoria cuya media, o valor esperado, es cero; es decir, $E(\varepsilon) = 0$.
Implicación: $0$ y $1$ son constantes, por tanto, $E(0) = 0$ y $E(1) = 1$; así, para un valor dado de $x$, el valor esperado de $y$ es $$E(y) = b_0 + b_ix$$
(14.14)
La varianza de $\varepsilon$, que se denota como $\sigma^2$, es la misma para todos los valores de $x$.
- Implicación: La varianza de $y$ respecto de la recta de regresión es igual a $\sigma^2$ y es la misma para todos los valores de $x$.
Los valores de $\varepsilon$ son independientes.
- Implicación: El valor de $\varepsilon$ correspondiente a un determinado valor de $x$ no está relacionado con el valor de $\varepsilon$ para cualquier otro valor de $x$; por tanto, el valor de $y$ correspondiente a un valor particular de $x$ no está relacionado con el valor de $y$ de ningún otro valor de $x$.
El término del error $\varepsilon$ es una variable aleatoria distribuida normalmente.
- Implicación: Como $y$ es una función lineal de $\varepsilon$, también $y$ es una variable aleatoria distribuida normalmente.
En la figura 14.6 se ilustran los supuestos del modelo y sus implicaciones; observe que en esta interpretación gráfica el valor de $E(y)$ cambia con base en el valor específico de $x$ que se considere. Sin embargo, sea cual sea el valor de $x$, la distribución de probabilidad de $\varepsilon$ y, por tanto, la distribución de probabilidad de $y$, son distribuciones normales que tienen todas la misma varianza. El valor específico del error $\varepsilon$ en cualquier punto depende de si el valor real de $y$ es mayor o menor que $E(y)$.
En este punto hay que tener presente que también se hace un supuesto o se tiene una hipótesis acerca de la forma de la relación entre $x$ y $y$. Es decir, se supone que la base de la relación...
14.5 Prueba de significancia¶
Estimación de $σ^2$
Con base en el modelo de regresión y sus supuestos, podemos concluir que $\sigma^2$, la varianza de $\varepsilon$, representa también la varianza de los valores de $y$ respecto de la recta de regresión. Recuerde que a las desviaciones de los valores de $y$ respecto de la recta de regresión estimada se les conoce como residuales. Por tanto, SCE, la suma de los cuadrados de los residuales, es una medida de la variabilidad de las observaciones reales respecto de la línea de regresión estimada.
El error cuadrado medio (ECM) proporciona una estimación de $\sigma^2$; esta estimación es de SCE dividida entre sus grados de libertad. Como $yˆi = \beta_0 + \beta_1x_i$, SCE se puede expresar como
$$SCE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1x_i)^2$$
Cada suma de cuadrados está asociada con un número llamado grados de libertad. Los expertos en estadística han demostrado que la SCE tiene $n - 2$ grados de libertad, porque para calcularla es necesario estimar dos parámetros ($\beta_0$ y $\beta_1$). El error cuadrado medio se calcula al dividir SCE entre $n - 2$. El ECM proporciona un estimador insesgado de $\sigma^2$. Como el valor del ECM provee un estimado de $\sigma^2$, se emplea también la notación $s^2$.
$s^2=MCE = \frac{SCE}{n - 2}$
(14.15)
En la sección 14.3 se encontró que en el ejemplo de Armand’s Pizza Parlors, SCE 1 530; por tanto, $$ s^2 = \frac{1,530}{8} = 191.25 $$ proporciona un estimador insesgado de $σ^2$. Para estimar σ se calcula la raíz cuadrada de $s^2$. Al valor que se obtiene, s, se le conocecomo error estándar de estimación.
$$ s = \sqrt{\frac{SCE}{n - 2}} $$
(14.16)
En el ejemplo de Armand's Pizza Parlors, si la desviación estándar estimada $s$ es igual a la raíz cuadrada del Error Cuadrado Medio (ECM), entonces:
$$s = \sqrt{191.25} \approx 13.829 $$
El error estándar de estimación se utiliza en el siguiente análisis acerca de las pruebas de significancia de la relación entre $x$ e $y$.
Prueba t
El modelo de regresión lineal simple se expresa como $y = \beta_0 + \beta_1x + \varepsilon$. Si $x$ e $y$ están relacionadas linealmente, entonces $\beta_1 \neq 0$. El objetivo de la prueba $t$ es determinar si se puede concluir que $\beta_1 \neq 0$. Para probar la hipótesis siguiente acerca del parámetro $\beta_1$, se emplearán los siguientes datos muestrales.
$$ H_0: \beta_1 = 0 $$ $$ H_a: \beta_1 \neq 0 $$
Si $H_0$ es rechazada, se concluirá que $\beta_1 \neq 0$, indicando que entre las dos variables existe una relación estadísticamente significativa. Si $H_0$ no es rechazada, habrá evidencia insuficiente para concluir que esta relación significativa existe. La base para esta prueba de hipótesis la proporcionan las propiedades de la distribución de muestreo de $\hat{\beta}_1$, el estimador de $\beta_1$ obtenido mediante el método de mínimos cuadrados.
Primero, considere qué ocurriría si para el mismo estudio de regresión se usara una muestra aleatoria diferente. Suponga, por ejemplo, que Armand's Pizza Parlors usa los registros de ventas de una muestra diferente de 10 restaurantes. El análisis de regresión de esta otra muestra dará como resultado una ecuación de regresión parecida a la ecuación de regresión anterior $y = 60 - 5x$. Sin embargo, no puede esperarse que se obtenga exactamente la misma ecuación (una ecuación en la que exactamente la intersección con el eje $y$ sea 60 y la pendiente sea 5). Los estimadores $\hat{\beta}_0$ y $\hat{\beta}_1$, obtenidos por el método de mínimos cuadrados, son estadísticos muestrales que tienen su propia distribución de muestreo. A continuación, se presentan las propiedades de la distribución de muestreo de $\hat{\beta}_1$.
Valor esperado: $$E(\beta_1) = \beta_1 $$
Desviación estándar: $$ \sigma_{{\beta}_1} = \frac{\sigma}{\sqrt{\sum (x_i - \bar{x})^2}} $$
Forma de distribución: Normal
(14.17)
Observe que el valor esperado de ${\beta}_1$ es igual a $\beta_1$, por lo que ${\beta}_1$ es un estimador insesgado de $\beta_1$.
Como no se conoce el valor de $\sigma$, se obtiene una estimación de $\sigma_{\hat{\beta}_1}$, que se denota $\hat{\sigma}_{\hat{\beta}_1}$, estimando $\sigma$ mediante $s$ en la ecuación (14.17). De esta manera, obtenemos el estimador siguiente de $\sigma_{\hat{\beta}_1}$.
$ {s}_{\hat{\beta}_1} = \frac{s}{\sqrt{\sum (x_i - \bar{x})^2}} $
(14.18)
En el ejemplo de Armand’s Pizza Parlors, $s = 13.829$. Por tanto, dado que $\sum (x_i - \bar{x})^2 = 568$, como se aprecia en la tabla 14.2, tenemos
$$ \hat{\sigma}_{\hat{\beta}_1} = \frac{s}{\sqrt{\sum (x_i - \bar{x})^2}} = \frac{13.829}{\sqrt{568}} \approx 0.5803 $$
que es la desviación estándar estimada de $\hat{\beta}_1$.
La prueba t para determinar si la relación es significativa se basa en el hecho de que el estadístico de prueba
$$t = \frac{\hat{\beta}_1 - 1}{\hat{\sigma}_{\hat{\beta}_1}} $$
sigue una distribución t con $n - 2$ grados de libertad. Si la hipótesis nula es verdadera, entonces $\beta_1 = 0$ y $t = \frac{\hat{\beta}_1}{\hat{\sigma}_{\hat{\beta}_1}}$.
Ahora se realizará esta prueba de significancia con los datos de Armand’s Pizza Parlors empleando como nivel de significancia $\alpha = 0.01$. El estadístico de prueba es
$$ t = \frac{{\beta}_1}{\hat{\sigma}_{{s}_1}} = \frac{5}{0.5803} \approx 8.62 $$
En las tablas de la distribución t encontramos que para $n - 2 = 10 - 2 = 8$ grados de libertad, $t = 3.355$ proporciona un área de $0.005$ en la cola superior. Por tanto, el área en la cola superior de la distribución t correspondiente al estadístico de prueba $t = 8.62$ debe ser menor de $0.005$. Como ésta es una prueba de dos colas, este valor se duplica y concluimos que el valor-p asociado con $t = 8.62$ debe ser menor a $2 \times 0.005 = 0.01$. Empleando Excel o Minitab se encuentra el valor-p $= 0.000$. Dado que el valor-p es menor que $\alpha = 0.01$, $H_0$ es rechazada y concluimos que $\beta_1$ no es igual a cero. Esto es suficiente evidencia para asegurar que existe una relación significativa entre la población de estudiantes y las ventas trimestrales.
Hipótesis Nula ($H_0$): $b_1 = 0$
Hipótesis Alternativa ($H_a$): $b_1 \neq 0$
Estadístico de Prueba $t$: $$ t = \frac{b_1}{s_{b_1}} $$ REGLA DE RECHAZO
Método del valor-p:¶
Rechazar $H_0$ si el valor-p $ \leq \alpha $
Método del valor crítico:¶
Rechazar $H_0$ si $t \leq -t_{\alpha/2}$ o si $t \geq t_{\alpha/2}$
Donde $t_{\alpha/2}$ se toma de la distribución t con $n - 2$ grados de libertad.
(14.19)
INTERVALO DE CONFIANZA PARA $\beta_1$
$$ \text{Intervalo de Confianza} = \beta_1 \pm t_{\alpha/2} \cdot \text{sb}_1 $$
El estimador puntual es $b_1$ y el margen de error es $t_{\alpha/2}\text{sb}_1$. El coeficiente de confianza para este intervalo es $1 - \alpha$, donde $t_{\alpha/2}$ es el valor crítico de la distribución t con $n - 2$ grados de libertad.
Supongamos, por ejemplo, que en el caso de Armand’s Pizza Parlors se desea obtener una estimación de $b_1$ mediante un intervalo de 99% de confianza. Según la tabla 2 del apéndice B, el valor crítico $t_{0.005}$ correspondiente a $\alpha = 0.01$ y $n - 2 = 8$ grados de libertad es $3.355$. Por lo tanto, la estimación mediante un intervalo de 99% de confianza de $b_1$ es:
$$ b_1 \pm t_{\alpha/2}\text{sb}_1 = 5 \pm 3.355 \times 0.5803 = 5+-1.95 $$
- Hipótesis nula ($H_0$): $b_1 = 0$
- Hipótesis alternativa ($H_a$): $b_1 \neq 0$
Al utilizar la prueba t de significancia con $\alpha = 0.01$, se puede utilizar este intervalo de 99% de confianza como alternativa para llegar a la conclusión de la prueba de hipótesis con los datos de Armand’s. Como $0$, que es el valor hipotético de $b_1$, no está comprendido en el intervalo de confianza (3.05 a 6.95), se rechaza $H_0: b_1 = 0$, y se concluye que entre el tamaño de la población de estudiantes y las ventas trimestrales sí existe una relación estadísticamente significativa. En general, se puede utilizar un intervalo de confianza para probar cualquier hipótesis de dos colas acerca de $b_1$. Si el valor hipotético de $b_1$ está contenido en el intervalo de confianza, $H_0$ no es rechazada. De lo contrario, es rechazada.
PRUEBA $F$
La prueba F, basada en la distribución de probabilidad F, también puede utilizarse para determinar la significancia global de la regresión. Cuando hay una única variable independiente, la prueba F y la prueba t conducen a la misma conclusión. Es decir, si la prueba t indica que $b_1 \neq 0$ y, por lo tanto, existe una relación significativa, la prueba F también indicará la existencia de esta relación.
La lógica detrás del uso de la prueba F radica en el desarrollo de dos estimaciones independientes de $\sigma^2$. ECM proporciona una estimación de $\sigma^2$, y si la hipótesis nula $H_0: \beta_1 = 0$ es verdadera, la suma de cuadrados debida a la regresión, SCR, dividida entre sus grados de libertad proporciona otra estimación independiente de $\sigma^2$. A esta estimación se le conoce como el cuadrado medio debido a la regresión (CMR).
En general, el CMR se calcula como:
$$ CMR = \frac{SCR}{\text{grados de libertad de la regresión}} $$
En los modelos considerados en este contexto, el número de grados de libertad de la regresión es siempre igual al número de variables independientes en el modelo.
(14.20)
En este capítulo se consideran modelos de regresión con una sola variable independiente. En este caso, el Cuadrado Medio de la Regresión (CMR) es igual a la Suma de Cuadrados de la Regresión (SCR) porque el número de variables independientes es 1. En el ejemplo de Armand’s Pizza Parlors, CMR es igual a SCR, que es 14,200.
Si la hipótesis nula ($H_0: β1 = 0$) es verdadera, tanto CMR como ECM son dos estimaciones independientes de σ^2. La distribución de muestreo de CMR/ECM sigue una distribución F, donde el número de grados de libertad en el numerador es 1 y en el denominador es n - 2.
Por lo tanto, si β1 = 0, el valor de CMR/ECM deberá ser cercano a 1. Pero si la hipótesis nula es falsa (β1 ≠ 0), CMR sobreestimará σ^2 y el valor de CMR/ECM se inflará. Valores grandes de CMR/ECM conducirán al rechazo de H0, sugiriendo que la relación entre x e y es estadísticamente significativa.
En el ejemplo de Armand’s Pizza Parlors, el estadístico de prueba para la prueba F es
$$ F = \frac{CMR}{ECM} = \frac{14,200}{191.25} \approx 74.25 $$
En la tabla de la distribución F (tabla 4 del apéndice B), con 1 grado de libertad en el numerador y n - 2 grados de libertad en el denominador (en este caso, 8 grados de libertad), se observa que el valor crítico es $ F_{0.01} = 11.26 $, proporcionando un área de 0.01 en la cola superior.
El estadístico de prueba F, calculado como $\frac{CMR}{ECM} \approx 74.25$, comparado con el valor crítico de la distribución F, sugiere que el valor-p asociado a este estadístico es $0.000$. Dado que el valor-p es menor que el nivel de significancia $ \alpha = 0.01 $, rechazamos la hipótesis nula (H0: $ \beta_1 = 0 $).
En resumen, la prueba F proporciona evidencia suficiente para concluir que hay una relación significativa entre el tamaño de la población de estudiantes y las ventas trimestrales en Armand’s Pizza Parlors.
$$H0: β₁ = 0$$
$$Ha: β₁ ≠ 0$$
ESTADÍSTICO DE PRUEBA $$F=CMR/EMC$$
(14.21)
Método del valor-p: Rechazar H0 si el $valor-p < α$
Método del valor crítico: Rechazar H0 si $F > Fα$
Donde Fα es un valor de distribución F con 1 grado de libertad en el numerador y $n ≥ 2$ grados de libertad en el denominador.
En el capítulo 13 vimos que el análisis de varianza (ANOVA) y la tabla de ANOVA pueden utilizarse para proporcionar una visión resumida de los cálculos que se emplean en el análisis de varianza. Una tabla de ANOVA similar se emplea para resumir los cálculos de la prueba F de significancia para la regresión. En la tabla 14.5 se presenta la forma general de una tabla de ANOVA para la regresión lineal simple, y en la 14.6 la tabla de ANOVA con los cálculos para la prueba F del ejemplo de Armand’s Pizza Parlors. Regresión, error y total son las etiquetas de las tres fuentes de variación, y SCR, SCE y STC son las sumas de cuadrados correspondientes que aparecen en la columna 2. En la columna 3 se indican los grados de libertad 1 para SCR, n ≥ 2 para SCE y n ≥ 1 para STC. Los valores de CMR y ECM aparecen en la columna 4, mientras que la 5 contiene el valor de F CMR/ECM, y la 6 el valor-p que corresponde al valor de F de la columna 5. Casi todos los resultados proporcionados por computadora para el análisis de regresión incluyen un resumen de la tabla ANOVA de la prueba F de significancia.
Fuente de Variación | Suma de Cuadrados | Grados de Libertad | Media | F | Valor-p |
---|---|---|---|---|---|
Regresión | SCR | 1 | CMR=(SRC/1) | F=(CMR/ECM) | Valor-pCMR/ECM |
Error | SCE | n - 2 | ECM=(SCE/(n-2)) | ||
Total | STC | n - 1 |
Algunas advertencias acerca de la interpretación de las pruebas de significancia
Cuando la hipótesis nula H0: β₁ = 0 es rechazada, determinar que la relación que existe entre x e y es significativa no permite concluir que existe una relación de causa y efecto entre x e y. Solo puede concluirse que existe esta relación cuando el analista pueda dar justificaciones teóricas de que, en efecto, la relación es causal.
En el ejemplo de Armand’s Pizza Parlors, concluimos que existe una relación significativa entre el tamaño de la población de estudiantes x y las ventas trimestrales y; aún más, la ecuación de regresión estimada ŷ = 60 - 5x proporciona una estimación de la relación obtenida por el método de mínimos cuadrados. Sin embargo, por el solo hecho de que se haya encontrado que hay una relación estadísticamente significativa entre x e y, no podemos concluir que cambios en la población de estudiantes x causen cambios en las ventas trimestrales y. Lo apropiado de concluir que hay una relación de causa y efecto se deja a las justificaciones teóricas de soporte y al buen juicio de los analistas. Los gerentes de Armand’s creían que el aumento en la población de estudiantes probablemente fuera una causa del aumento de las ventas trimestrales. Por tanto, el resultado de la prueba de significancia les permite concluir que hay una relación de causa y efecto.
Además, el hecho de que se pueda rechazar H0: β₁ = 0 y demostrar que hay significancia estadística no permite concluir que la relación entre x e y sea lineal. Lo único que se puede establecer es que x e y están relacionadas y que la relación lineal explica una porción significativa de la variabilidad de y sobre el rango de los valores de x observados en la muestra. En la figura 14.7 se ilustra esta situación. La prueba de significancia lleva al rechazo de la hipótesis nula H0: β₁ = 0 y a la conclusión de que x e y están significativamente relacionadas, pero en la figura se observa que la verdadera relación entre x e y no es lineal. Aunque la aproximación.
TABLA 14.6 Tabla ANOVA para el ejemplo de Armand’s Pizza Parlors
Fuente de Variación | Suma de Cuadrados | Grados de Libertad | Media | F | Valor-p |
---|---|---|---|---|---|
Regresión | 14200 | 1 | $(14200/1)=14200$ | $(14200/191.25)=74.25$ | 0 |
Error | 1530 | 8 | $(1530/8)=191.25$ | ||
Total | 15730 | 9 |
FIGURA 14.7 Ejemplo de una aproximación lineal para una relación no lineal
import numpy as np
import matplotlib.pyplot as plt
# Función no lineal cuadrática
def funcion_no_lineal(x):
return 2 * x**2 + 3 * x + 5 + np.random.normal(0, 5, size=x.shape)
# Generar datos no lineales
np.random.seed(42)
x_data = np.linspace(-5, 5, 100)
y_data = funcion_no_lineal(x_data)
# Aproximación lineal usando polyfit
grado_aproximacion = 1 # Grado 1 para la aproximación lineal
coeficientes_aproximacion = np.polyfit(x_data, y_data, grado_aproximacion)
# Calcular valores aproximados
y_aproximado = np.polyval(coeficientes_aproximacion, x_data)
# Graficar resultados
plt.figure(figsize=(10, 6))
# Datos no lineales
plt.scatter(x_data, y_data, label='Datos no lineales', color='#009929')
# Aproximación lineal
plt.plot(x_data, y_aproximado, label=f'Aproximación lineal (grado {grado_aproximacion})', color='#009929')
plt.title('Aproximación Lineal para una Relación No Lineal')
plt.xlabel('X')
plt.ylabel('Y')
plt.legend()
plt.grid(True)
plt.gca().set_facecolor('#D4F8B7') # Color de fondo
plt.show()
La aproximación lineal proporcionada por $ \hat{y} = b_0 + b_1x $ es buena en el rango de los valores de $ x $ observados en la muestra, pero se vuelve deficiente para valores de $ x $ fuera de ese rango.
Dada una relación significativa, la ecuación de regresión estimada se puede usar con confianza para predicciones correspondientes a valores de $ x $ dentro del rango de los valores de $ x $ observados en la muestra. En el ejemplo de Armand’s Pizza Parlors, este rango corresponde a los valores de $ x $ entre 2 y 26. A menos que haya otras razones que indiquen que el modelo es válido más allá de este rango, las predicciones fuera del rango de la variable independiente deben realizarse con cuidado.
En el ejemplo de Armand’s Pizza Parlors, como se ha encontrado que la relación de regresión es significativa al nivel de significancia de 0.01, se puede tener confianza de usarla para predecir las ventas de restaurantes en los que la población de estudiantes correspondiente esté en el intervalo de 2,000 a 26,000.
14.6 Uso de la ecuación de regresión estimada para estimación y predicción¶
Estimación puntual
En el ejemplo de Armand’s Pizza Parlors, la ecuación de regresión estimada $ \hat{y} = 60 + 5x $ proporciona una estimación de la relación entre el tamaño de la población de estudiantes $ x $ y las ventas trimestrales $ y $. Con la ecuación de regresión estimada, se puede obtener una estimación puntual del valor medio de $ y $ correspondiente a un determinado valor de $ x $, o se puede predecir el valor individual de $ y $ que corresponde a un valor determinado de $ x $. Por ejemplo, supongamos que los gerentes de Armand’s desean una estimación puntual de la media de las ventas trimestrales de todos los restaurantes que se encuentren cerca de campus universitarios con 10,000 estudiantes. Usando la ecuación de regresión estimada $ \hat{y} = 60 + 5x $, con $ x = 10 $ (o 10,000 estudiantes), obtenemos $ \hat{y} = 60 + 5(10) = 110 $. Por lo tanto, una estimación puntual de la media de las ventas trimestrales de todos los restaurantes de este ejemplo con 10,000 estudiantes es $110,000.
Ahora supongamos que los gerentes de Armand’s desean predecir las ventas de un determinado restaurante ubicado cerca de Talbot College, una escuela con 10,000 alumnos. En este caso, lo que interesa no es la media correspondiente a todos los restaurantes que están cerca de campus con 10,000 estudiantes, sino únicamente predecir las ventas trimestrales de uno en específico. En realidad, la estimación puntual de un solo valor de $ y $ es igual a la estimación puntual de la media de los valores de $ y $. Así, la predicción de las ventas trimestrales de este restaurante en particular será $ \hat{y} = 60 + 5(10) = 110 $ o $110,000.
estimacion por intervalo
Las estimaciones puntuales no proporcionan información alguna acerca de la precisión de una estimación. Para eso es necesario obtener estimaciones por intervalo que son muy parecidas a las estudiadas en los capítulos 8, 10 y 11. El primer tipo de estimación por intervalo, el intervalo de confianza es una estimación del valor medio de las y que corresponden a un valor dado de x. El segundo tipo, el intervalo de predicción, se usa cuando se necesita una estimación por intervalo de un solo valor de y para un valor dado de x. La estimación puntual del valor medio de y es igual a la estimación puntual de un solo valor de y. Pero las estimaciones por intervalo que se obtienen para estos dos casos son diferentes. En un intervalo de predicción el margen de error es mayor.
Intervalo de confianza para el valor medio de y
Con la ecuación de regresión estimada se obtiene una estimación puntual del valor medio de $ y $ que corresponde a un valor dado de $ x $. Para desarrollar un intervalo de confianza se usa la notación siguiente.
- $ x_p $: valor particular o determinado de la variable independiente $ x $
- $ y_p $: valor de la variable dependiente $ y $ que corresponde al valor dado $ x_p $
- $ E(y_p) $: valor medio o valor esperado de la variable dependiente $ y $ que corresponde al valor dado $ x_p $
- $ \hat{y}_p $: $ b_0 + b_1x_p $, estimación puntual de $ E(y_p) $ cuando $ x = x_p $
Empleando esta notación para estimar la media de las ventas de todos los restaurantes de Armand’s que se encuentran cerca de un campus con 10,000 estudiantes, tenemos que $ x_p = 10 $, y $E(y_p) $ denota el valor medio desconocido de las ventas de todos los restaurantes para los que $ x_p = 10 $. La estimación puntual de $ E(y_p) $ está dada por $ \hat{y}_p = 60 + 5(10) = 110 $.
En general, no se puede esperar que $ \hat{y}_p $ sea exactamente igual a $ E(y_p) $. Para hacer una inferencia acerca de qué tan cerca está $ \hat{y}_p $ de la media verdadera $ E(y_p) $, es necesario estimar la varianza de $ \hat{y}_p $. La fórmula para estimar la varianza de $ \hat{y}_p $ para un $ x_p $ dado se denota como $ s^2_{\hat{y}_p} $ y es
(14.22)
$$ s_{\hat{y}_p} = s \sqrt{\frac{1}{n} \left(1 + \frac{(x_p - \bar{x})^2}{\sum (x_i - \bar{x})^2} \right)} $$
(14.23)
En los resultados calculados en la sección 14.5 para el ejemplo de Armand’s Pizza Parlors se tiene $ s = 13.829 $. Como $ x_p = 10 $, $ \bar{x} = 14 $, y $ \sum (x_i - \bar{x})^2 = 568 $, usando la ecuación (14.23) se obtiene:
$ s_{\hat{y}_p} = 13.829 \sqrt{\frac{1}{10} \left(1 + \frac{(10 - 14)^2}{568} \right)} $
$ s_{\hat{y}_p} = 13.829 \cdot \sqrt{0.1282} \approx 4.95 $
A continuación, se presenta la fórmula general para obtener un intervalo de confianza.
$\quad \hat{y}_p \pm t_{\alpha/2} s_{\hat{y}_p} $
(14.24)
donde el coeficiente de confianza es $1 - \alpha$ y $t_{\alpha/2}$ se basa en una distribución t con $n - 2$ grados de libertad.Para obtener, con la fórmula (14.24), un intervalo de 95% de confianza para la media de las ventas trimestrales de todos los restaurantes Armand’s ubicados cerca de campus con 10,000 estudiantes, se necesita el valor de t para $ \alpha/2 = 0.025 $ y $ n - 2 = 10 - 2 = 8 $ grados de libertad. En la tabla 2 del apéndice B se encuentra $ t_{0.025} = 2.306 $. Por tanto, como $ \hat{y}_p = 110 $ y el margen de error de $ t_{\alpha/2}s_{\hat{y}_p} = 2.306 \cdot 4.95 = 11.415 $, la estimación del intervalo de 95% de confianza es $$ 110 \pm 11.415 $$.
En dólares, el intervalo de 95% de confianza para la media de las ventas trimestrales de todos los restaurantes que se encuentran cerca de un campus con 10,000 estudiantes es $110,000 ± $11,415. Así, el intervalo de confianza del 95% para la media de las ventas trimestrales cuando el tamaño de la población es 10,000 es de $98,585 a $121,415.
Observe que la desviación estándar estimada de $ \hat{y}_p $ dada por la ecuación (14.23) es menor cuando $ x_p = x $ y la cantidad $ x_p - x = 0 $. En este caso, la desviación estándar estimada de $ \hat{y}_p $ se convierte en:
$ s_{\hat{y}_p} = \frac{s}{\sqrt{n}} $
Este resultado implica que se obtiene la mejor o más precisa estimación del valor medio de $ y $ cuando $ x_p = x $. De hecho, entre más alejado esté $ x_p $ de $ x $, mayor será $ x_p - x $. Como resultado, los intervalos de confianza para el valor medio de $ y $ son más amplios a medida que $ x_p $ se aleja de $ x $. En la figura 14.8 se muestra gráfic
$$ s_{\hat{y}_p} = s \sqrt{\frac{1}{n}+ \left( \frac{(x_p - \bar{x})^2}{\sum (x_i - \bar{x})^2} \right)}$$
$$s\sqrt{\frac{1}{n}}$$
Este resultado implica que se obtiene la mejor o más precisa estimación del valor medio de $ y $ cuando $ x_p = x $. De hecho, entre más alejado esté $ x_p $ de $ x $, mayor será $ x_p - x $. Como resultado, los intervalos de confianza para el valor medio de $ y $ son más amplios a medida que $ x_p $ se aleja de $ x $. En la figura 14.8 se muestra gráficamente este patrón.
Intervalo de predicción para un solo valor de y
Suponga que, en lugar del valor medio de las ventas de todos los restaurantes Armand’s que se encuentran cerca de campus con 10,000 estudiantes, se busque estimar las ventas de un solo restaurante que se encuentra cerca de Talbot College, una escuela de 10,000 alumnos. Como ya se indicó, la estimación puntual de $ y_p $, el valor de $ y $ que corresponde a un valor dado $ x_p $, se obtiene
mediante la ecuación de regresión estimada $ \hat{y}_p = b_0 + b_1x_p $. En el caso del establecimiento de Talbot College, como $ x_p = 10 $, las ventas trimestrales pronosticadas serán $ \hat{y}_p = 60 - 5(10) = 110 $ o $110,000. Observa que este valor es el mismo que el obtenido como estimación puntual de la media de las ventas en todos los restaurantes que se encuentran cerca de campus con 10,000 estudiantes.
Para obtener un intervalo de predicción, es necesario determinar primero la varianza correspondiente al uso de $ \hat{y}_p $ como estimación de un valor individual de $ y $ cuando $ x = x_p $. Esta varianza está formada por la suma de los dos componentes siguientes:
- La varianza de los valores individuales de $ y $ respecto de la media $ E(y_p) $, para la cual una estimación está dada por $ s^2 $.
- La varianza correspondiente al uso de $ \hat{y}_p $ para estimar $ E(y_p) $, para la cual una estimación está dada por $ s^2_{\hat{y}_p} $.
La fórmula para estimar la varianza de un valor individual de $ y_p $, que se denota como $ s^2_{\text{ind}} $, es
$ s^2_{\text{ind}} = {s^2}{+ s^2_{\hat{y}_p}} $
$ s^2 = {s^2}+{s + (\frac{1}{n} \left( \frac{(x_p - \bar{x})^2}{\sum (x_i - \bar{x})^2} \right)}) $
(14.25)
$ s^2_{\text{ind}} =s^2\sqrt{(1 + \frac{1}{n} + \frac{(x_p - \bar{x})^2}{\sum{(x_i - \bar{x})^2}}})$
(14.26)
En el ejemplo de Armand’s Pizza Parlors, la desviación estándar estimada que corresponde a la predicción de las ventas de un determinado restaurante ubicado cerca de un campus con 10 000 estudiantes se calcula como sigue
$ s^2_{\text{ind}} =s^2(\sqrt{(1 + \frac{1}{10} + \frac{(10-14)^2}{568}})$
$=13.829(\sqrt{1.1282})$
=14.69
La fórmula general para un intervalo de predicción es la siguiente.
$$\hat{y}_p \pm t_{\frac{\alpha}{2}} \cdot s_{ind}$$
(14.27)
donde el coeficiente de confianza es \(1 - \alpha\) y \(t_{\frac{\alpha}{2}}\) se basa en una distribución t con \(n - 2\) grados de libertad.El intervalo de predicción de 95% de las ventas trimestrales del restaurante de Talbot College se encuentra usando $t_{0.025} = 2.306$ y $s_{ind} = 14.69$. Por tanto, con $\hat{y}_p = 110$ y un margen de error de $t_{\frac{\alpha}{2}} \cdot s_{ind} = 2.306 \cdot 14.69 = 33.875$, el intervalo de predicción de 95% es $110 \pm 33.875$.
En dólares, este intervalo de predicción es de $110,000 a $33,875 o de $76,125 a $143,875. Observa que el intervalo de predicción para un solo restaurante cerca de un campus con 10,000 estudiantes es más amplio que el intervalo de confianza para la media de las ventas de todos los restaurantes ubicados cerca de campus con 10,000 estudiantes. Esta diferencia refleja el hecho de que se puede estimar con más precisión la media de y que un solo valor de y.
Tanto las estimaciones mediante un intervalo de confianza como mediante un intervalo de predicción son más precisas cuando el valor de la variable independiente es $x_p \leq x$. En la figura 14.9 se muestra la forma general de los intervalos de confianza y de predicción que son más anchos.
14.7 Solución por computadora¶
Los datos sobre población de estudiantes y ventas de Armand’s Pizza Parlors se han ingresado en la hoja de cálculo de Minitab. A la variable independiente se le ha llamado Pop y a la variable dependiente Sales (ventas), para facilitar la interpretación de los resultados que proporciona la computadora. Usando Minitab para el ejemplo de Armand’s se obtuvieron los resultados que se muestran en la figura 14.10.2. A continuación se explica cómo interpretarlos.
Minitab muestra la ecuación de regresión estimada como Sales = 60.0 - 5.00 * Pop.
Presenta también una tabla en la que indica el valor de los coeficientes b0 y b1, la desviación estándar de cada coeficiente, el valor t obtenido al dividir cada coeficiente entre su desviación estándar y el valor-p correspondiente a la prueba t. Como el valor-p es cero (a tres posiciones decimales), los resultados muestrales indican que debe rechazarse la hipótesis nula (H0: β1 = 0). O bien, se puede comparar 8.62 (que aparece en la columna t) con el valor crítico apropiado. Este procedimiento para la prueba t se describió en la sección 14.5.
Sales = 60.0 + 5.00 Pop $Ecuación de regresión estimada$
Predictor Coef SE Coef T p
Constant 60.000 9.226 6.50 0.000
Pop 5.0000 0.5803 8.62 0.000
S = 13.8293 R-sq = 90.3% R-sq(adj) = 89.1%
Analysis of Variance
SOURCE DF SS MS F p $Tabla de ANOVA$
Regression 1 14200 14200 74.25 0.000
Residual Error 8 1530 191
Total 9 15730
Predicted Values for New Observations
New
Obs Fit SE Fit 95% C.I. 95% P.I. $Estimaciones de intervalo$
1 110.00 4.95 (98.58, 121.42) (76.13, 143.87)
Minitab muestra el error estándar de estimación, $s = 13.8293$, así como información acerca de la bondad de ajuste. Observa que “R-sq = 90.3%” es el coeficiente de determinación expresado como porcentaje. El valor “R-sq(adj) = 89.1%” se verá en el capítulo 15.
La tabla ANOVA se presenta bajo el encabezado "Analysis of Variance". Minitab usa la etiqueta "Residual Error" para la fuente de variación del error. Observa que DF son las siglas de degrees of freedom (grados de libertad) y que el CMR está dado como $14,200$ y ECM como $191$. El cociente de estos dos valores proporciona el valor F, que es $74.25$, y el correspondiente valor-p es $0.000$. Como el valor-p es cero (a tres posiciones decimales), la relación entre ventas (Sales) y población (Pop) se considera estadísticamente significativa.
La estimación de las ventas esperadas mediante un intervalo de confianza del 95% y la estimación de las ventas de un determinado restaurante cercano a un campus de 10,000 estudiantes mediante un intervalo de predicción del 95% se presentan abajo de la tabla ANOVA. El intervalo de confianza es $(98.58, 121.42)$ y el intervalo de predicción es $(76.13, 143.88)$, como se mostró en la sección 14.6.
14.8 Análisis de residuales: confirmación
de los supuestos del modelo
$$y_i - \hat{y}_i$$
(14.28)
donde:$y_i$ - valor observado de la variable dependiente
$\hat{y}_i$ - valor estimado de la variable dependiente
En otras palabras, el residual i-ésimo es el error que resulta de usar la ecuación de regresión estimada para predecir el valor de la variable dependiente. En la tabla 14.7 se calculan los residuales correspondientes a los datos del ejemplo de Armand’s Pizza Parlors. En la segunda columna de la tabla se presentan los valores observados de la variable dependiente, y en la tercera los valores estimados de la variable dependiente obtenidos con la ecuación de regresión estimada (\hat{y} = 60 - 5x). Un análisis de los residuales correspondientes, en la cuarta columna de la tabla, ayuda a determinar si los supuestos acerca del modelo de regresión son adecuados.
A continuación se revisan los supuestos de regresión en el ejemplo de Armand’s Pizza Parlors. Se supuso un modelo de regresión lineal simple:
(14.29)
TABLA 14.7 Residuales en el ejemplo de Armand’s Pizza Parlors
Población de Estudiantes (xi) | Ventas Observadas (yi) | Ventas Estimadas (\(\hat{y}\) = 60 + 5xi) | Residuales (yi - \(\hat{y}\)i) |
---|---|---|---|
2 | 58 | 70 | \( -12 \) |
6 | 105 | 90 | 15 |
8 | 88 | 100 | \( -12 \) |
8 | 118 | 100 | 18 |
12 | 117 | 120 | \( -3 \) |
16 | 137 | 140 | \( -3 \) |
20 | 157 | 160 | \( -3 \) |
20 | 169 | 160 | 9 |
22 | 149 | 170 | \( -21 \) |
26 | 202 | 190 | 12 |
Este modelo indica que se supone que las ventas trimestrales ($y$) son la función lineal del tamaño de la población de estudiantes ($x$) más un término del error ($\epsilon$). En la sección 14.4 se plantearon los siguientes supuestos para el término del error ($\epsilon$):
- $E(\epsilon) = 0$.
- La varianza de $\epsilon$, que se denota $\sigma^2$, es la misma para todos los valores de $x$.
- Los valores de $\epsilon$ son independientes.
- El término del error $\epsilon$ tiene una distribución normal.
Estos supuestos constituyen la base teórica para las pruebas t y F que se usan para determinar si la relación entre $x$ y $y$ es significativa, y para las estimaciones de los intervalos de confianza y de predicción presentadas en la sección 14.6. Si los supuestos sobre el término del error $\epsilon$ son dudosos, quizá las pruebas de hipótesis acerca de la significancia de la relación de regresión y los resultados de la estimación por intervalo no sean válidos.
Los residuales proporcionan la mejor información de $\epsilon$; por tanto, su análisis es muy importante para determinar si los supuestos planteados acerca de $\epsilon$ son apropiados. Gran parte del análisis residual se basa en examinar gráficas. En esta sección se estudiarán las siguientes gráficas de residuales:
- Una gráfica de residuales contra los valores de la variable independiente $x$.
- Una gráfica de residuales contra los valores pronosticados para la variable dependiente $\hat{y}$.
- Una gráfica de residuales estandarizada.
- Una gráfica de probabilidad normal.
Gráfica de residuales contra x
En la gráfica de residuales contra la variable independiente $x$, los valores de esta variable se representan en el eje horizontal y los valores de los residuales correspondientes se presentan en el eje vertical. Para cada residual se grafica un punto. La primera coordenada de cada punto está dada por el valor $x_i$ y la segunda, por el correspondiente valor del residual $y_i - \hat{y}_i$. En la gráfica de residuales contra $x$ obtenida con los datos de Armand’s Pizza Parlors de la tabla 14.7, las coordenadas del primer punto son (2, $-12$), que corresponden a $x_1 = 2$ y $y_1 - \hat{y}_1 = -12$; las coordenadas del segundo punto son (6, 15), que corresponden a $x_2 = 6$ y $y_2 - \hat{y}_2 = 15$, y así sucesivamente. En la figura 14.11 se muestra la gráfica de residuales obtenida.
Antes de interpretar los resultados se considerarán algunas formas generales que pueden adoptar las gráficas de residuales. En la figura 14.12 se muestran tres ejemplos. Si el supuesto de que la varianza de $\epsilon$ es el mismo para todos los valores de $x$ y el modelo de regresión empleado representa adecuadamente la relación entre las variables, el aspecto general de la gráfica de residuales será el de una banda horizontal de puntos como en A. Pero si la varianza de $\epsilon$ no es la misma para todos los valores $x$ (por ejemplo, si la variabilidad respecto de la línea de regresión es mayor para valores de $x$ mayores) el aspecto de la gráfica puede ser como en B. En este caso se viola el supuesto de que $\epsilon$ tiene una varianza constante. En C se muestra otra forma que puede tomar la gráfica de residuales. En este caso, se concluye que el modelo de regresión empleado no representa adecuadamente la relación entre las variables, y deberá considerarse un modelo de regresión curvilíneo o múltiple.
Regresando a la gráfica de los residuales del ejemplo de Armand’s Pizza Parlors de la figura 14.11, estos residuales parecen tener una forma que se aproxima a la de la banda horizontal de la gráfica A de la figura 14.12. Por tanto, concluimos que esta gráfica no muestra evidencias de que los supuestos formulados para el modelo de regresión de Armand’s puedan ser dudosos. Concluimos que el modelo de regresión lineal simple empleado es válido.
FIGURA 14.11 Gráfica de residuales contra la variable independiente x para Armand’s
Pizza Parlor
import matplotlib.pyplot as plt
# Datos
poblacion_estudiantes = [2, 6, 8, 8, 12, 16, 20, 20, 22, 26]
ventas_observadas = [58, 105, 88, 118, 117, 137, 157, 169, 149, 202]
ventas_estimadas = [70, 90, 100, 100, 120, 140, 160, 160, 170, 190]
residuales = [-12, 15, -12, 18, -3, -3, -3, 9, -21, 12]
# Gráfica de residuales contra la variable independiente x
plt.scatter(poblacion_estudiantes, residuales, color='#009929', label='Residuales')
plt.axhline(0, color='#009929', linestyle='--', linewidth=1) # Línea base en y=0
plt.xlabel('Población de Estudiantes (x)')
plt.ylabel('Residuales')
plt.title('Gráfica de Residuales contra la Variable Independiente x\n(Armand’s Pizza Parlors)')
plt.legend()
# Configuración del color de fondo
ax = plt.gca()
ax.set_facecolor('#D4F8B7')
plt.grid(True)
plt.show()
Para la adecuada interpretación de las gráfi cas de residuales, la experiencia y el criterio son muy importantes. Es raro que estas gráfi cas tengan exactamente la forma de uno de los patrones mostrados en la fi gura 14.12. Sin embargo, los analistas que realizan frecuentemente estudios de regresión y gráfi cas de residuales se vuelven expertos en reconocer las diferencias entre las formas razonables y las que indican que se puede dudar de los supuestos del modelo. Una gráfi ca de residuales proporciona una técnica para evaluar la validez de los supuestos en un modelo de regresión.
Gráfica de residuales contra $\hat{y}$
En otras gráficas de residuales, los valores pronosticados para la variable dependiente $\hat{y}$ se representan en el eje horizontal y los valores de los residuales en el eje vertical. A cada residual corresponde un punto en la gráfica. La primera coordenada de cada uno de los puntos está dada por $\hat{y}_i$ y la segunda es el valor correspondiente del residual i-ésimo, $y_i - \hat{y}_i$. Con los datos de Armand’s de la tabla 14.7, las coordenadas del primer punto son (70, $-12$), que corresponden a $\hat{y}_1 = 70$ y $y_1 - \hat{y}_1 = $-12; las coordenadas del segundo punto son (90, 15), y así sucesivamente. En la figura 14.13 se presenta esta gráfica de residuales. Observe que su forma es igual a la de la gráfica de residuales contra la variable independiente $x$. Este no es un patrón que pudiera llevar a dudar de los supuestos del modelo. En la regresión lineal simple, tanto la gráfica de residuales contra $x$ como la gráfica de residuales contra $\hat{y}$ tienen la misma forma. En el análisis de regresión múltiple, la gráfica de residuales contra $\hat{y}$ se usa más debido a que se tiene más de una variable independiente.
Residuales estandarizados
Muchas gráfi cas de residuales que se obtienen con software de computadora utilizan una versión estandarizada de los residuales. Como se demostró en el capítulo anterior, una variable aleatoria se estandariza al sustraerle su media y dividir el resultado entre su desviación estándar. Cuando se emplea el método de mínimos cuadrados, la media de los residuales es cero. Por
FIGURA 14.12 Gráfica de residuales de tres estudios de regresión
import numpy as np
import matplotlib.pyplot as plt
# Función para crear un estudio de regresión
def create_regression_study(x, true_slope, true_intercept, residual_function):
y_true = true_slope * x + true_intercept
residuals = residual_function(x)
y_observed = y_true + residuals
return y_observed, residuals
# Estudio 1: Patrón Adecuado
np.random.seed(42)
x1 = np.linspace(0, 10, 100)
residual_function1 = lambda x: np.random.normal(0, 2, len(x))
y1_observed, residuals1 = create_regression_study(x1, 2, 1, residual_function1)
# Estudio 2: Varianza No Constante
x2 = np.linspace(0, 10, 100)
residual_function2 = lambda x: np.random.normal(0, x, len(x))
y2_observed, residuals2 = create_regression_study(x2, 2, 1, residual_function2)
# Estudio 3: Forma No Adecuada
x3 = np.linspace(0, 10, 100)
residual_function3 = lambda x: 3 * np.sin(x) + np.random.normal(0, 2, len(x))
y3_observed, residuals3 = create_regression_study(x3, 2, 1, residual_function3)
# Gráfica de Residuales para los Tres Estudios
fig, axes = plt.subplots(3, 1, figsize=(8, 12))
# Configuración del color de fondo
for ax in axes:
ax.set_facecolor('#D4F8B7')
# Estudio 1
axes[0].scatter(x1, residuals1, color='#009929', label='Residuales Estudio 1')
axes[0].axhline(0, color='#009929', linestyle='--', linewidth=1)
axes[0].set_title('Estudio 1: Patrón Adecuado')
# Estudio 2
axes[1].scatter(x2, residuals2, color='#009929', label='Residuales Estudio 2')
axes[1].axhline(0, color='#009929', linestyle='--', linewidth=1)
axes[1].set_title('Estudio 2: Varianza No Constante')
# Estudio 3
axes[2].scatter(x3, residuals3, color='#009929', label='Residuales Estudio 3')
axes[2].axhline(0, color='#009929', linestyle='--', linewidth=1)
axes[2].set_title('Estudio 3: Forma No Adecuada')
plt.xlabel('Variable Independiente (x)')
plt.ylabel('Residuales')
plt.tight_layout()
plt.show()
FIGURA 14.13 Gráfica de residuales contra los valores pronosticados de yˆ para Armand’s Pizza Parlors
import matplotlib.pyplot as plt
# Datos
poblacion_estudiantes = [2, 6, 8, 8, 12, 16, 20, 20, 22, 26]
ventas_observadas = [58, 105, 88, 118, 117, 137, 157, 169, 149, 202]
ventas_estimadas = [70, 90, 100, 100, 120, 140, 160, 160, 170, 190]
residuales = [-12, 15, -12, 18, -3, -3, -3, 9, -21, 12]
# Gráfica de residuales contra la variable independiente x
plt.scatter(poblacion_estudiantes, residuales, color='#009929', label='Residuales')
plt.axhline(0, color='#009929', linestyle='--', linewidth=1) # Línea base en y=0
plt.xlabel('Población de Estudiantes (x)')
plt.ylabel('Residuales')
plt.title('Gráfica de Residuales contra la Variable Independiente x\n(Armand’s Pizza Parlors)')
plt.legend()
# Configuración del color de fondo
ax = plt.gca()
ax.set_facecolor('#D4F8B7')
plt.grid(True)
plt.show()
Por consiguiente, para obtener el residual estandarizado, solo es necesario dividir cada residual entre su desviación estándar.
Se puede demostrar que la desviación estándar del residual i depende del error estándar de la estimación s y del valor correspondiente de la variable independiente $x_i$.
Desviación Estándar del Residual i-ésimo:
$$ \text{sy}_i = \frac{y_i - \hat{y}_i}{s \sqrt{1 - h_i}} $$
$$ \text{sy}_i = s \sqrt{1 - h_i} $$
(14.30)
$s_{(y_i - \hat{y}_i)}$=desviación estándar del residual is =error estándar de estimación
$h_i = \frac{1}{n} + \frac{(x_i - \bar{x})^2}{\sum_{i=1}^{n}(x_i - \bar{x})^2} $
(14.31)
Observa que la ecuación (14.30) indica que la desviación estándar del residual i-ésimo depende de $x_i$ debido a la presencia de $h_i$ en la fórmula. Una vez determinada la desviación estándar de cada uno de los residuales, se pueden calcular los residuales estandarizados al dividir cada residual entre sus desviaciones estándar correspondientes.
TABLA 14.8 Cálculo de los residuales estandarizados del ejemplo de Armand’s Pizza Parlors
Restaurante i | xi | xi-xpromedio | (xi-xpromedio)^2 | (xi-xpromedio)^2/sumatoria(xi-xpromedio)^2 | hi | s_(y_i-yhat_i) | Residuales Estandarizados |
---|---|---|---|---|---|---|---|
1 | 2 | 12 | 144 | 0.2535 | 0.3535 | 11.1193 | 1.0792 |
2 | 6 | 8 | 64 | 0.1127 | 0.2127 | 12.2709 | 1.2224 |
3 | 8 | 6 | 36 | 0.0634 | 0.1634 | 12.6493 | 0.9487 |
4 | 8 | 6 | 36 | 0.0634 | 0.1634 | 12.6493 | 1.4230 |
5 | 12 | 2 | 4 | 0.0070 | 0.1070 | 13.0682 | 0.2296 |
6 | 16 | 2 | 4 | 0.0070 | 0.1070 | 13.0682 | 0.2296 |
7 | 20 | 6 | 36 | 0.0634 | 0.1634 | 12.6493 | 0.2372 |
8 | 20 | 6 | 36 | 0.0634 | 0.1634 | 12.6493 | 0.7115 |
9 | 22 | 8 | 64 | 0.1127 | 0.2127 | 12.2709 | 1.7114 |
10 | 26 | 12 | 144 | 0.2535 | 0.3535 | 11.1193 | 1.0792 |
$$s_{yi} = \frac{y_i - \hat{y}_i}{s_{(y_i - \hat{y}_i)}}$$
(14.32)
En la tabla 14.8 se presentan los cálculos de los residuales estandarizados con el ejemplo de Armand’s Pizza Parlors. Recuerde que ya en cálculos previos se obtuvo $ s = 13.829 $. La figura 14.14 es la gráfica de los residuales estandarizados contra la variable independiente $ x $. Esta gráfica permite ver si es correcto el supuesto de que el término del error $ \varepsilon $ tiene distribución normal. Si este supuesto se satisface, debe parecer que la distribución de los residuales estandarizados proviene de una distribución de probabilidad normal estándar. Por tanto, al observar la gráfica de los residuales estandarizados se espera encontrar que aproximadamente el 95% de ellos esté entre 2 y $ -2 $. En la figura 14.14 vemos que en el ejemplo de Armand’s todos los residuales estandarizados se encuentran entre 2 y $ -2 $. Así, con base en los residuales estandarizados, esta gráfica no da razones para dudar del supuesto de que $ \varepsilon $ tiene una distribución normal.
Debido al esfuerzo que significa calcular los valores estimados de $ \hat{y} $, los residuales y los residuales estandarizados, la mayoría de los paquetes para estadística proporcionan, de manera opcional, estos datos como parte de los resultados de la regresión. Por tanto, las gráficas de residuales se pueden obtener con facilidad. Tratándose de problemas grandes, el software de computadora es la única opción práctica para obtener las gráficas de residuales analizadas en esta sección.
Gráfica de probabilidad normal
Otro enfoque para determinar la validez del supuesto de que el término del error tiene una distribución normal es la gráfica de probabilidad normal. Para mostrar cómo se elabora, se presenta el concepto de puntos normales. Suponga que se toman aleatoriamente 10 valores de una distribución de probabilidad normal donde la media es cero y la desviación estándar es uno, y este proceso de muestreo se repite una y otra vez con los 10 valores de cada muestra ordenados de menor a mayor. Por ahora,
FIGURA 14.14 Gráfica de residuales estandarizados contra la variable independiente x, obtenida con los datos de Armand’s Pizza Parlors.
import matplotlib.pyplot as plt
# Datos
poblacion_estudiantes = [2, 6, 8, 8, 12, 16, 20, 20, 22, 26]
ventas_observadas = [58, 105, 88, 118, 117, 137, 157, 169, 149, 202]
ventas_estimadas = [70, 90, 100, 100, 120, 140, 160, 160, 170, 190]
residuales = [-12, 15, -12, 18, -3, -3, -3, 9, -21, 12]
# Gráfica de residuales contra la variable independiente x
plt.scatter(poblacion_estudiantes, residuales, color='#009929', label='Residuales')
plt.axhline(0, color='#009929', linestyle='--', linewidth=1) # Línea base en y=0
plt.xlabel('Población de Estudiantes (x)')
plt.ylabel('Residuales')
plt.title('Gráfica de Residuales')
plt.legend()
# Configuración del color de fondo
ax = plt.gca()
ax.set_facecolor('#D4F8B7')
plt.grid(True)
plt.show()
Considerando únicamente el valor menor de cada muestra, la variable aleatoria que representa el valor menor de estos diversos muestreos se le conoce como estadístico de primer orden.
Los expertos en estadística han demostrado que, en muestras de tamaño 10 tomadas de una distribución de probabilidad normal estándar, el valor esperado del estadístico de primer orden es 1.55. A este valor esperado se le conoce como punto normal. En el caso de una muestra de tamaño $ n = 10 $, hay 10 estadísticos de orden y 10 puntos normales (vea la tabla 14.9). En general, un conjunto de datos que conste de $ n $ observaciones tendrá $ n $ estadísticos de orden y por tanto $ n $ puntos normales.
A continuación vemos el uso de estos 10 puntos normales para determinar si los residuales estandarizados de Armand’s Pizza Parlors aparentemente provienen de una distribución de probabilidad normal estándar. Para empezar, se ordenan los 10 residuales estandarizados de la tabla 14.8. En la tabla 14.10 se presentan juntos los 10 puntos normales y los residuales estandarizados ordenados. Si se satisface el supuesto de normalidad, el menor residual estandarizado deberá tener un valor parecido al del menor punto normal, el siguiente residual deberá tener un valor similar al del siguiente punto normal, y así sucesivamente. En el caso en que los residuales estandarizados se encuentren distribuidos de una manera aproximadamente normal, en una gráfica en la que los puntos normales correspondan al eje horizontal y los residuales estandarizados al eje vertical, los puntos estarán situados cerca de una línea recta de 45 grados que pase por el origen. A esta gráfica se le conoce como gráfica de probabilidad normal.
La figura 14.15 ilustra la gráfica de probabilidad normal del ejemplo de Armand’s Pizza Parlors. Para determinar si el patrón observado se desvía lo suficiente de la recta como para concluir que los residuales estandarizados no provienen de una distribución de probabilidad normal, habrá que emplear el propio criterio. En la figura, todos los puntos se agrupan cerca de esta recta. Se concluye, por tanto, que el supuesto de que los términos del error tienen una distribución de probabilidad normal es razonable. En general, entre más cerca de la recta a 45° se agrupen los puntos, más fuerte es la evidencia a favor del supuesto de normalidad. Cualquier curvatura sustancial en la gráfica es evidencia de que los residuales no provienen de una distribución normal. Tanto los puntos normales como la correspondiente gráfica de probabilidad normal pueden obtenerse fácilmente empleando software como Minitab.
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import norm
# Datos de los residuales estandarizados
residuales_estandarizados = [1.0792, 1.2224, 0.9487, 1.4230, 0.2296, 0.2296, 0.2372, 0.7115, 1.7114, 1.0792]
# Ordenar los residuales estandarizados
residuales_estandarizados.sort()
# Crear puntos normales teóricos
puntos_normales = norm.ppf(np.linspace(0, 1, len(residuales_estandarizados)))
# Graficar
plt.figure(figsize=(8, 6))
plt.scatter(puntos_normales, residuales_estandarizados, color='#009929', label='Residuales Estandarizados')
plt.plot([-2, 2], [-2, 2], linestyle='--', color='#009929', label='Línea de 45 grados')
# Configuración de la gráfica
plt.title('Gráfica de Probabilidad Normal - Armand’s Pizza Parlors')
plt.xlabel('Puntos Normales Teóricos')
plt.ylabel('Residuales Estandarizados')
plt.legend()
plt.grid(True, linestyle='--', alpha=0.6)
plt.axhline(0, color='black',linewidth=0.5)
plt.axvline(0, color='black',linewidth=0.5)
# Mostrar la gráfica
plt.show()
14.9 Análisis de residuales: observaciones atípicas
y observaciones influyentes
Detección de observaciones atípicas
La figura 14.16 es un diagrama de dispersión de un conjunto de datos que contiene una observación atípica, un dato (una observación) que no sigue la tendencia del resto de los datos. Las observaciones atípicas representan observaciones sospechosas que requieren un análisis cuidadoso. Pueden consistir en datos erróneos; si es así, deben corregirse. También puede tratarse de una violación a los supuestos del modelo; en ese caso, habrá que considerar otro modelo. Por último, pueden ser simplemente valores inusuales que se presentan por casualidad. En este caso, esos valores deberán conservarse.
Para ilustrar el proceso de detección de las observaciones atípicas, considere el conjunto de datos de la tabla 14.11; la figura 14.17 muestra el diagrama de dispersión respectivo. Con excepción de la observación 4 (x4 3, y4 75), estos datos parecen seguir un patrón que indica una relación lineal negativa. De hecho, dado el patrón del resto de los datos, se esperaría que y4 fuera mucho más pequeño, por lo que a esta observación se le considera atípica. En el caso de la regresión lineal simple, las observaciones atípicas pueden detectarse mediante un simple examen del diagrama de dispersión.
Para detectar observaciones atípicas también se usan los residuales estandarizados. Si una observación se aleja mucho del patrón del resto de los datos (por ejemplo, la observación atípica de la figura 14.16), el valor absoluto del correspondiente residual estandarizado será grande.
Mucho del software identifi ca de manera automática las observaciones cuyos residuales tienen un valor absoluto grande. En la fi gura 14.18 se presentan los resultados de Minitab para el análisis de regresión de los datos de la tabla 14.11. En la penúltima fi la se lee que el residual estandarizado de la observación 4 es 2.67. Minitab proporciona una lista de todas las observaciones cuyo residual estandarizado sea menor a 2 o mayor a 2 en la sección Unusual Observations de la pantalla; en tales casos la observación aparece en una fi la aparte con una R al lado del residual estandarizado, como se observa en la fi gura 14.18. Si los errores están distribuidos normalmente, sólo 5% de los residuales estandarizados se encontrará fuera de estos límites. Para decidir qué hacer con una observación atípica, primero hay que verifi car si es correcta. Puede ser que se trate de un error incurrido al anotar los datos o al ingresarlos a la computadora. Suponga, por ejemplo, que al verifi car la observación atípica de la fi gura 14.17, se encuentra que hubo un error; el valor correcto de la observación 4 es x4 3, y4 30. En la fi - gura 14.19 se presenta el resultado que proporciona Minitab una vez corregido el valor de y4.
FIGURA 14.18 Resultado de Minitab para el análisis de regresión de un conjunto de datos con una observación atípica
y = 65.0 - 7.33 x
Predictor Coef SE Coef T p
Constant 64.958 9.258 7.02 0.000
X -7.331 2.608 -2.81 0.023
S = 12.6704 R-sq = 49.7% R-sq(adj) = 43.4%
Analysis of Variance
SOURCE DF SS MS F p
Regression 1 1268.2 1268.2 7.90 0.023
Residual Error 8 1284.3 160.5
Total 9 2552.5
Unusual Observations
Obs x y Fit SE Fit Residual St Resid
4 3.00 75.00 42.97 4.04 32.03 2.67R
R denotes an observation with a large standardized residual.
FIGURA 14.19 Resultados de Minitab para un conjunto de datos con una observación atípica ya corregida
Y = 59.2 - 6.95 X
Predictor Coef SE Coef T p
Constant 59.237 3.835 15.45 0.000
X -6.949 1.080 -6.43 0.000
S = 5.24808 R-sq = 83.8% R-sq(adj) = 81.8%
Analysis of Variance
SOURCE DF SS MS F p
Regression 1 1139.7 1139.7 41.38 0.000
Residual Error 8 220.3 27.5
Total 9 1360.0
residual.
Se observa que el dato incorrecto afecta de forma significativa la bondad de ajuste. Con el dato correcto, el valor de R-sq aumenta de 49.7% a 83.8%, y el de b0 disminuye de 64.958 a 59.237. La pendiente de la recta cambia de 7.331 a 6.949. La identificación de los datos atípicos permite corregir errores y mejora los resultados de la regresión.
Detección de observaciones influyentes
A veces una o más observaciones tienen una influencia significativa sobre los resultados. En la figura 14.20 se muestra un ejemplo de una observación influyente en una regresión lineal simple. La recta de regresión estimada tiene pendiente negativa, pero si la observación influyente se elimina del conjunto de datos, la pendiente cambia a positiva y la intersección con el eje y es menor. Es claro que esta sola observación tiene mucha más influencia sobre la recta de regresión estimada que cualquiera otra; el efecto de la eliminación de cualquiera de las otras observaciones sobre la ecuación de regresión estimada es muy pequeño.
Cuando solo se tiene una variable independiente, las observaciones influyentes pueden identificarse mediante un diagrama de dispersión. Una observación de este tipo puede ser atípica (cuyo valor de y se desvía sustancialmente de la tendencia general), puede ser un valor de x muy alejado de la media (por ejemplo, vea la figura 14.20) o tratarse de la combinación de estos dos factores (un valor de y algo fuera de la tendencia y un valor de x un poco extremo).
Las observaciones influyentes deben examinarse con cuidado, dado el gran efecto que tienen sobre la ecuación de regresión estimada. Lo primero que hay que hacer es verificar que no se haya cometido algún error al recolectar los datos. Si se cometió, se corrige y se obtiene una nueva ecuación de regresión estimada. Si la observación es válida, podemos considerarnos afortunados. Tal dato, cuando es correcto, contribuye a una mejor comprensión del modelo adecuado y conduce a una mejor ecuación de regresión estimada. En la figura 14.20, la presencia de la observación influyente, si es correcta, llevará a tratar de obtener datos con valores x intermedios que permitan comprender mejor la relación entre x y y.
Las observaciones en las que la variable independiente toma valores extremos se denominan puntos (datos, observaciones) de gran influencia. La observación influyente de la figura 14.20 es un punto de gran influencia. La influencia de una observación depende de qué tan lejos está el valor de la variable independiente de su media. En el caso de una sola variable independiente, la influencia de la observación i, que se denota hi, se calcula mediante la ecuación (14.33).
$$h_i = \frac{1}{n} + \frac{(x_i - \bar{x})^2}{\sum_{i=1}^{n}(x_i - \bar{x})^2}$$
(14.33)
Con base en esta fórmula, es claro que entre más alejada se encuentre $x_i$ de su media $\bar{x}$, mayor será la influencia de la observación $i$.
Mucho del software para estadística identifica automáticamente los puntos de gran influencia como parte de los resultados de regresión estándar. Para ilustrar cómo Minitab identifica los puntos de gran influencia, se considerará el conjunto de datos de la tabla 14.12.
FIGURA 14.21 Diagrama de dispersión del conjunto de datos con un punto de gran influencia
import matplotlib.pyplot as plt
# Datos de ejemplo
x = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
y = [2, 3, 5, 8, 11, 15, 20, 25, 30, 35]
# Índice del punto de gran influencia
indice_punto_influencia = 4
# Configuración del gráfico
plt.figure(figsize=(8, 6))
plt.scatter(x, y, color='#009929', label='Datos')
# Destacar el punto de gran influencia
plt.scatter(x[indice_punto_influencia], y[indice_punto_influencia], color='red', label='Punto de Gran Influencia')
# Configuración adicional
plt.title('Diagrama de Dispersión con Punto de Gran Influencia')
plt.xlabel('Variable Independiente')
plt.ylabel('Variable Dependiente')
plt.legend()
plt.grid(True)
# Configuración del color de fondo
plt.gca().set_facecolor('#D4F8B7')
# Mostrar el gráfico
plt.show()
Al revisar la figura 14.21, que es el diagrama de dispersión del conjunto de datos presentado en la tabla 14.12, vemos que la observación 7 (x 70, y 100) tiene un valor extremo de x. Por tanto, es de esperarse que sea identificado como un punto de gran influencia. La influencia de esta observación se calcula usando la ecuación (14.33) como sigue.
$$ h_7 = \frac{1}{n} \left( \frac{(x_7 - \bar{x})^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2} \right) = \frac{1}{7} \left( \frac{(70 - 24.286)^2}{2621.43} \right) \approx 0.94 $$
En el caso de la regresión lineal simple, Minitab identifica como observaciones de gran influencia aquellas para las que $ h_i > 6/n $ o $ 0.99 $, lo que sea menor. En el conjunto de datos de la tabla 14.12, $ 6/n = 6/7 \approx 0.86 $. Como $ h_7 = 0.94 > 0.86 $, Minitab identificará la observación 7 como una observación cuyo valor de x tiene una gran influencia. En la figura 14.22 se presenta el resultado que proporciona Minitab para el análisis de regresión de este conjunto de datos. A la 7 (x 70, y 100) la identifica como una observación de gran influencia y la presenta en una fila especial en la parte inferior de los resultados con una X en el margen derecho.
Las observaciones influyentes debido a la interacción de una observación de gran influencia y de residuales grandes suelen ser difíciles de detectar. Existen procedimientos de diagnóstico que toman en cuenta ambos aspectos para determinar si una observación es influyente. En el capítulo 15 se estudiará uno de estos procedimientos, el estadístico D de Cook.
FIGURA 14.22 Resultado de Minitab para el conjunto de datos con una observación de gran influencia
y = 127 - 0.425 x
Predictor Coef SE Coef T p
Constant 127.466 2.961 43.04 0.000
X -0.42507 0.09537 -4.46 0.007
S = 4.88282 R-sq = 79.9% R-sq(adj) = 75.9%
Analysis of Variance
SOURCE DF SS MS F p
Regression 1 473.65 473.65 19.87 0.007
Residual Error 5 119.21 23.84
Total 6 592.86
Unusual Observations
Obs x y Fit SE Fit Residual St Resid
7 70.0 100.00 97.71 4.73 2.29 1.91 X
X denotes an observation whose X value gives it large influence.
import numpy as np
import matplotlib.pyplot as plt
# Función para crear un estudio de regresión
def create_regression_study(x, true_slope, true_intercept, residual_function):
y_true = true_slope * x + true_intercept
residuals = residual_function(x)
y_observed = y_true + residuals
return y_observed, residuals
# Estudio 1: Patrón Adecuado
np.random.seed(42)
x1 = np.linspace(0, 10, 100)
residual_function1 = lambda x: np.random.normal(0, 2, len(x))
y1_observed, residuals1 = create_regression_study(x1, 2, 1, residual_function1)
# Estudio 2: Varianza No Constante
x2 = np.linspace(0, 10, 100)
residual_function2 = lambda x: np.random.normal(0, x, len(x))
y2_observed, residuals2 = create_regression_study(x2, 2, 1, residual_function2)
# Estudio 3: Forma No Adecuada
x3 = np.linspace(0, 10, 100)
residual_function3 = lambda x: 3 * np.sin(x) + np.random.normal(0, 2, len(x))
y3_observed, residuals3 = create_regression_study(x3, 2, 1, residual_function3)
# Gráfica de Residuales para los Tres Estudios
fig, axes = plt.subplots(3, 1, figsize=(8, 12))
# Configuración del color de fondo
for ax in axes:
ax.set_facecolor('#D4F8B7')
# Estudio 1
axes[0].scatter(x1, residuals1, color='#009929', label='Residuales Estudio 1')
axes[0].axhline(0, color='#009929', linestyle='--', linewidth=1)
axes[0].set_title('Estudio 1: Patrón Adecuado')
# Estudio 2
axes[1].scatter(x2, residuals2, color='#009929', label='Residuales Estudio 2')
axes[1].axhline(0, color='#009929', linestyle='--', linewidth=1)
axes[1].set_title('Estudio 2: Varianza No Constante')
# Estudio 3
axes[2].scatter(x3, residuals3, color='#009929', label='Residuales Estudio 3')
axes[2].axhline(0, color='#009929', linestyle='--', linewidth=1)
axes[2].set_title('Estudio 3: Forma No Adecuada')
plt.xlabel('Variable Independiente (x)')
plt.ylabel('Residuales')
plt.tight_layout()
plt.show()
import matplotlib.pyplot as plt
# Datos
poblacion_estudiantes = [2, 6, 8, 8, 12, 16, 20, 20, 22, 26]
ventas_observadas = [58, 105, 88, 118, 117, 137, 157, 169, 149, 202]
ventas_estimadas = [70, 90, 100, 100, 120, 140, 160, 160, 170, 190]
residuales = [-12, 15, -12, 18, -3, -3, -3, 9, -21, 12]
# Gráfica de residuales contra la variable independiente x
plt.scatter(poblacion_estudiantes, residuales, color='#009929', label='Residuales')
plt.axhline(0, color='#009929', linestyle='--', linewidth=1) # Línea base en y=0
plt.xlabel('Población de Estudiantes (x)')
plt.ylabel('Residuales')
plt.title('Gráfica de Residuales contra la Variable Independiente x\n(Armand’s Pizza Parlors)')
plt.legend()
# Configuración del color de fondo
ax = plt.gca()
ax.set_facecolor('#D4F8B7')
plt.grid(True)
plt.show()
$SCE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$
(14.8)
$$y_i - \hat{y}_i$$
(14.28)
donde:$y_i$ - valor observado de la variable dependiente
$\hat{y}_i$ - valor estimado de la variable dependiente