¶
10.1. INFERENCIAS ACERCA DE LA DIFERENCIA ENTRE DOS MEDIAS POBLACIONALES: (\( \sigma_1\) Y \(\sigma_2\) CONOCIDAS)
- Estimación por intervalo para: \(\mu_1 - \mu_2\)
- Pruebas de hipótesis acerca de \(\mu_1 - \mu_2\)
- Consejo práctico
10.2 INFERENCIAS ACERCA DE LA DIFERENCIA ENTRE DOS MEDIAS POBLACIONALES:\( \sigma_1\) y \(\sigma_2\) DESCONOCIDAS
- Estimación por intervalo para: \(\mu_1 - \mu_2\)
- Pruebas de hipótesis acerca de \(\mu_1 - \mu_2\)
- Consejo práctico
10.3 INFERENCIAS ACERCA DE LA DIFERENCIA ENTRE DOS MEDIAS POBLACIONALES: MUESTRAS PAREADAS
10.4 INFERENCIAS ACERCA DE LA DIFERENCIA ENTRE DOS PROPORCIONES POBLACIONALES
- Estimación por intervalo para: \(p_1 - p_2\)
- Pruebas de hipótesis acerca de \(p_1 - p_2\)
10.1 Inferencias acerca de la diferencia entre dos medias poblacionales: $\sigma_1$ y $\sigma_2$ conocidas¶
- Sean $\sigma_1$ y $\sigma_2$ las medias poblacionales a estudiar.
- La inferencia se realiza sobre la diferencia de las medias $\mu_1 - \mu_2$.
- Se toma un tamaño de muestra para cada población (muestra aleatoria simple e independiente) $n_1$ y $n_2$ respectivamente.
- Suponga que $\sigma_1$ y $\sigma_2$ son conocidas.
Las medias poblacionales son teóricas. En la práctica se calculan las medias muestrales $\bar{x_1}$ y $\bar{x_2}$.
Estimación por intervalo para $\mu_1 - \mu_2$¶
Análisis Demográfico de Clientes en Greystone Department Stores
Introducción
- Greystone Department Stores ha observado una variación en los patrones de venta entre sus tiendas en el centro de la ciudad y en un centro comercial suburbano en Buffalo, Nueva York. Se sospecha que las diferencias demográficas entre los clientes de las dos tiendas, como la edad, educación e ingreso, pueden influir en este fenómeno.
Objetivo del Estudio
- El estudio tiene como objetivo investigar si hay una diferencia significativa en las edades medias de los clientes entre las dos tiendas.
Metodología
- Se identifican dos poblaciones de clientes basadas en su ubicación de compra.
- La estimación puntual de la diferencia entre las medias poblacionales se obtiene a través de la diferencia entre las medias muestrales, $ \bar{X}_1 - \bar{X}_2 $.
- El error estándar del estimador puntual, que indica la variabilidad en la distribución de muestreo del estimador, se calcula como $ \sigma_{\bar{X}_1 - \bar{X}_2} = \sqrt{\frac{\sigma^2_1}{n_1} + \frac{\sigma^2_2}{n_2}} $.
- Se asume una distribución normal de la diferencia entre las medias muestrales, especialmente si las poblaciones tienen una distribución normal o los tamaños de muestra son grandes.
Conclusión Esperada
- La investigación proporcionará una estimación de la diferencia entre las medias de edad de los clientes, lo que podría permitir ajustar las estrategias de marketing y mejorar la selección de productos para cada tienda según su clientela.
Estimación por Intervalo para Greystone Department Stores
Resumen de Datos
- Tienda del centro de la ciudad: $n_1 = 36$, $\bar{x}_1 = 40$ años
- Tienda suburbana: $n_2 = 49$, $\bar{x}_2 = 35$ años
- Desviaciones estándar conocidas: $\sigma_1 = 9$ años, $\sigma_2 = 10$ años
Estimación Puntual
- La diferencia entre las medias muestrales es $\bar{x}_1 - \bar{x}_2 = 5$ años.
Error Estándar y Margen de Error
- Con un 95% de confianza y $z_{\alpha/2} = z_{0.025} = 1.96$, el error estándar y el margen de error se calculan como:
$$ \bar{x}_1 - \bar{x}_2 \pm z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}} = 40 - 35 \pm 1.96 \sqrt{\frac{9^2}{36} + \frac{10^2}{49}} $$
- Esto resulta en un margen de error de $4.06$ y un intervalo de confianza al 95% para la diferencia entre las medias poblacionales de:
$$ 5 \pm 4.06 $$
- Lo que nos da un intervalo de $0.94$ a $9.06$ años.
Pruebas de hipótesis acerca de $\mu_1 - \mu_2$¶
Ahora se verán las pruebas de hipótesis acerca de la diferencia entre dos medias poblacionales. $D_0$ denota la diferencia hipotética entre $\mu_1$ y $\mu_2$. Las tres formas que puede adoptar una prueba de hipótesis son las siguientes:
El estudio se centra en comparar la calidad educativa entre dos centros utilizando un examen estandarizado. Se define la media de las puntuaciones del centro A como $\mu_1$ y del centro B como $\mu_2$. La hipótesis nula planteada es $\mu_1 - \mu_2 = 0$, indicando que no hay diferencia en la calidad de educación entre los centros. Un rechazo de esta hipótesis implicaría una diferencia significativa en la calidad educativa, llevando a una investigación más profunda sobre las causas de esta discrepancia.
En un estudio con exámenes estandarizados, se ha encontrado consistentemente una desviación estándar de aproximadamente 10 puntos. Se asume que las desviaciones estándar poblacionales son $\sigma_1 = \sigma_2 = 10$. Con un nivel de significancia $\alpha = 0.05$, se recolectaron muestras de 30 estudiantes del centro A y 40 del centro B, con medias muestrales de $\bar{x}_1 = 82$ y $\bar{x}_2 = 78$. La pregunta clave es si hay una diferencia estadísticamente significativa entre las medias poblacionales de los dos centros, lo cual se determinará usando la ecuación (10.5).
Resultados de la Prueba de Hipótesis¶
En el análisis de la calidad educativa entre dos centros, se empleó una prueba de hipótesis de dos colas con un nivel de significancia de 0.05. El estadístico de prueba calculado fue $z = 1.66$. Utilizando la distribución normal estándar, se obtuvo un valor-p de 0.0970, que es mayor que $\alpha$, indicando que no hay suficiente evidencia para rechazar la hipótesis nula. Por lo tanto, no se observa una diferencia estadísticamente significativa en la calidad de los centros de enseñanza.
Se puede concluir que, tanto por el método del valor-p como por el método del valor crítico, los datos no muestran diferencias significativas en la calidad educativa entre los dos centros analizados.
Referencia: Para los cálculos del estadístico de prueba y la interpretación de resultados, véase la ecuación (10.5) y las reglas de rechazo para pruebas de una cola presentadas en el capítulo 9.
Consejo Práctico¶
Para estimaciones por intervalo y pruebas de hipótesis, se recomienda que las muestras aleatorias sean de tamaño $n_1 \geq 30$ y $n_2 \geq 30$. En situaciones donde el tamaño de la muestra es menor a 30, es crucial asegurarse de que las distribuciones de las poblaciones sean aproximadamente normales para proceder con el análisis.
Ejercicios¶
Muestra 1 | Muestra 2 |
---|---|
$n_1 = 50 $ | $n_2 = 35 $ |
$\bar{x}_1 = 13,6 $ | $\bar{x}_2 = 11,6 $ |
$s_1 = 2,2 $ | $s_2 = 3,0 $ |
a) ¿Cuál es la estimación puntual de la diferencia entre las dos medias poblacionales?
# Datos de las muestras
n1, x_bar1, s1 = 50, 13.6, 2.2
n2, x_bar2, s2 = 35, 11.6, 3.0
# Estimación puntual de la diferencia de medias
point_estimate = x_bar1 - x_bar2
print(f"Estimación puntual (a): {point_estimate}")
Estimación puntual (a): 2.0
b) Proporcione un intervalo de 90% de confianza para la diferencia entre las dos medias poblacionales.
from scipy import stats
import numpy as np
# Datos proporcionados
n1 = 50 # Tamaño de la muestra 1
x1 = 13.6 # Media muestral 1
s1 = 2.2 # Desviación estándar muestral 1
n2 = 35 # Tamaño de la muestra 2
x2 = 11.6 # Media muestral 2
s2 = 3.0 # Desviación estándar muestral 2
z = 0.90 # z al 90%
def calcular_intervalo_confianza(n1, x1, s1, n2, x2, s2, confianza):
# Estimación puntual de la diferencia entre las medias poblacionales
estimacion_puntual = x1 - x2
# Valor z para el intervalo de confianza dado
z_value = stats.norm.ppf(1 - (1 - confianza) / 2)
# Cálculo del margen de error con el valor z
error_margin = z_value * np.sqrt((s1**2 / n1) + (s2**2 / n2))
# Intervalo de confianza con el valor z
intervalo_confianza = (estimacion_puntual - error_margin, estimacion_puntual + error_margin)
print("Z: ",z_value)
print("Margen error Z: ",error_margin)
print("Intervalo confianza: ",intervalo_confianza)
calcular_intervalo_confianza(n1,x1,s1,n2,x2,s2,z)
Z: 1.6448536269514722 Margen error Z: 0.978574361132911 Intervalo confianza: (1.021425638867089, 2.978574361132911)
c) Proporcione un intervalo de 95% de confianza para la diferencia entre las dos medias poblacionales.
# Datos proporcionados
n1 = 50 # Tamaño de la muestra 1
x1 = 13.6 # Media muestral 1
s1 = 2.2 # Desviación estándar muestral 1
n2 = 35 # Tamaño de la muestra 2
x2 = 11.6 # Media muestral 2
s2 = 3.0 # Desviación estándar muestral 2
z = 0.95 # z al 95%
calcular_intervalo_confianza(n1,x1,s1,n2,x2,s2,z)
Z: 1.959963984540054 Margen error Z: 1.1660432713210558 Intervalo confianza: (0.8339567286789442, 3.1660432713210556)
$$\textbf{H}_0: \mu_1 - \mu_2 \leq 0$$
$$\textbf{H}_a: \mu_1 - \mu_2 > 0$$
Los resultados siguientes se obtuvieron de dos muestras independientes tomadas de dos poblaciones.
Muestra 1 | Muestra 2 |
---|---|
$n_1 = 40 $ | $n_2 = 50 $ |
$\bar{x}_1 = 25,2 $ | $\bar{x}_2 = 22,8 $ |
$s_1 = 5,2 $ | $s_2 = 6,0 $ |
Pregunta 1: ¿Cuál es el valor del estadístico de prueba?
import numpy as np
# Datos de las muestras
x_bar1 = 25.2 # Media de la muestra 1
x_bar2 = 22.8 # Media de la muestra 2
sigma1 = 5.2 # Desviación estándar poblacional 1
sigma2 = 6.0 # Desviación estándar poblacional 2
n1 = 40 # Tamaño de la muestra 1
n2 = 50 # Tamaño de la muestra 2
D0 = 0 # Diferencia en las medias bajo la hipótesis nula
# Cálculo del estadístico z
z_score = (x_bar1 - x_bar2 - D0) / np.sqrt(sigma1**2 / n1 + sigma2**2 / n2)
z_score
2.0312741071965967
Pregunta 2: ¿Cuál es el valor-p?
from scipy import stats
# Grados de libertad
df = n1 + n2 - 2
# Cálculo del valor-p usando la distribución t con los grados de libertad calculados
p_value = stats.t.sf(z_score, df)
p_value
0.022622177547503456
Pregunta 3: Si α=0.05, ¿cuál es la conclusión de la prueba de hipótesis?
# Nivel de significancia
alpha = 0.05
# Conclusión de la prueba de hipótesis
conclusion = "Rechazamos la hipótesis nula" if p_value < alpha else "No rechazamos la hipótesis nula"
conclusion
'Rechazamos la hipótesis nula'
$$\textbf{H}_0: \mu_1 - \mu_2 \leq 0$$
$$\textbf{H}_a: \mu_1 - \mu_2 > 0$$
Los resultados siguientes se obtuvieron de dos muestras independientes tomadas de dos poblaciones.
Muestra 1 | Muestra 2 |
---|---|
$n_1 = 80 $ | $n_2 = 70 $ |
$\bar{x}_1 = 104 $ | $\bar{x}_2 = 106 $ |
$s_1 = 8,4 $ | $s_2 = 7,6 $ |
Pregunta 1: ¿Cuál es el valor del estadístico de prueba?
import numpy as np
# Datos de las muestras
x_bar1 = 104 # Media de la muestra 1
x_bar2 = 106 # Media de la muestra 2
sigma1 = 8.4 # Desviación estándar poblacional 1
sigma2 = 7.6 # Desviación estándar poblacional 2
n1 = 80 # Tamaño de la muestra 1
n2 = 70 # Tamaño de la muestra 2
D0 = 0 # Diferencia en las medias bajo la hipótesis nula
# Cálculo del estadístico z
z_score = (x_bar1 - x_bar2 - D0) / np.sqrt(sigma1**2 / n1 + sigma2**2 / n2)
z_score
-1.5307175553672936
Pregunta 2: ¿Cuál es el valor-p?
from scipy import stats
# Grados de libertad
df = n1 + n2 - 2
# Cálculo del valor-p usando la distribución t con los grados de libertad calculados
p_value = stats.t.sf(z_score, df)
p_value
0.9360130639817974
Pregunta 3: Si α=0.05, ¿cuál es la conclusión de la prueba de hipótesis?
# Nivel de significancia
alpha = 0.05
# Conclusión de la prueba de hipótesis
conclusion = "Rechazamos la hipótesis nula" if p_value < alpha else "No rechazamos la hipótesis nula"
conclusion
'No rechazamos la hipótesis nula'
Ejercicio 4.
Condé Nast Traveler realiza una encuesta anual en la que los lectores califican su crucero favorito. Los navíos se califican en una escala de 100 puntos, donde los valores más altos indican un mejor servicio. Una muestra de 37 cruceros que transportan menos de 500 pasajeros resultó con una calificación promedio de 85.36 y una muestra de 44 navíos que transportan 500 o más pasajeros recibió una calificación promedio de 81.40 (Condé Nast Traveler, febrero de 2008). Suponga que la desviación estándar poblacional es 4.55 para los cruceros que transportan a menos de 500 pasajeros y 3.97 para los que transportan a 500 o más pasajeros.
a) ¿Cuál es la estimación puntual de la diferencia entre la calificación media poblacional de los navíos que transportan menos de 500 pasajeros y la calificación media poblacional de los que transportan 500 o más personas?
# Calificaciones medias de las muestras
x_bar1 = 85.36 # Media de la muestra de cruceros con menos de 500 pasajeros
x_bar2 = 81.40 # Media de la muestra de cruceros con 500 o más pasajeros
# Diferencia de medias
diferencia_medias = x_bar1 - x_bar2
diferencia_medias
3.9599999999999937
b) ¿Cuál es el margen de error con 95% de confianza?
from scipy.stats import norm
import numpy as np
# Desviaciones estándar poblacionales
sigma1 = 4.55 # Cruceros con menos de 500 pasajeros
sigma2 = 3.97 # Cruceros con 500 o más pasajeros
# Tamaños de muestra
n1 = 37 # Cruceros con menos de 500 pasajeros
n2 = 44 # Cruceros con 500 o más pasajeros
# Z-score para 95% de confianza
z_score = norm.ppf(0.975) # Dos colas
# Margen de error
margen_error = z_score * np.sqrt(sigma1**2 / n1 + sigma2**2 / n2)
margen_error
1.8776100003862883
c) ¿Cuál es la estimación por intervalo de 95% de confianza para la diferencia entre las calificaciones medias poblacionales de ambos tamaños de cruceros?
# Intervalo de confianza
intervalo_confianza = (diferencia_medias - margen_error, diferencia_medias + margen_error)
intervalo_confianza
(2.0823899996137056, 5.837610000386282)
10.2 Inferencias acerca de la diferencia entre dos medias poblacionales: $\sigma_1$ y $\sigma_2$ desconocidas¶
Cuando enfrentamos el desafío de comparar dos grupos sin conocer su variabilidad, la estadística ofrece una solución práctica. Usamos las desviaciones estándar de muestras pequeñas para estimar la dispersión real de los grupos. Para análisis más precisos, recurrimos a la distribución t, que es especialmente diseñada para trabajar con información incompleta. Este enfoque nos permite realizar comparaciones y pruebas de hipótesis con confianza, incluso con datos limitados.
Estimación por Intervalo $\mu_1 - \mu_2$¶
Clearwater National Bank lleva a cabo un estudio para detectar diferencias en los saldos de cuentas de cheques entre dos sucursales, utilizando muestras donde las desviaciones estándar poblacionales son desconocidas:
- Una muestra aleatoria simple de 28 cuentas de la sucursal Cherry Grove.
- Una muestra aleatoria simple e independiente de 22 cuentas de la sucursal Beechmont.
El objetivo es calcular el margen de error y proporcionar una estimación por intervalo para la diferencia entre las medias poblacionales de los saldos de las cuentas.
Cherry Grove | Beechmont | |
---|---|---|
Tamaño de la muestra | \( n_1 = 28 \) | \( n_2 = 22 \) |
Media muestral | \( \bar{x}_1 = \$1025 \) | \( \bar{x}_2 = \$910 \) |
Desviación estándar muestral | \( s_1 = \$150 \) | \( s_2 = \$125 \) |
Estimación de Diferencia de Saldos entre Sucursales
El banco busca calcular la diferencia entre los saldos promedio de las cuentas de Cherry Grove y Beechmont. Se utilizará un margen de error y una estimación por intervalo para determinar esta diferencia, aplicando la fórmula de estimación por intervalo para las medias poblacionales cuando se conocen las desviaciones estándar poblacionales.
La fórmula utilizada es:
$$ \bar{x}_1 - \bar{x}_2 \pm z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}} $$
donde $ \bar{x}_1 $ y $ \bar{x}_2 $ son las medias muestrales, $ \sigma_1^2 $ y $ \sigma_2^2 $ son las varianzas poblacionales, $ n_1 $ y $ n_2 $ son los tamaños de las muestras, y $ z_{\alpha/2} $ es el valor crítico de la distribución normal estándar.
Nota:
Cuando se estiman $ \sigma_1 $ y $ \sigma_2 $ mediante $ s_1 $ y $ s_2 $, se usa la distribución t para hacer inferencias sobre la diferencia entre dos medias poblacionales.
Cuando las desviaciones estándar poblacionales $ \sigma_1 $ y $ \sigma_2 $ son desconocidas, se utilizan las desviaciones estándar muestrales $ s_1 $ y $ s_2 $ para su estimación. En este caso, el valor crítico de la distribución normal estándar $ z_{\alpha/2} $ es reemplazado por el valor crítico de la distribución $ t_{\alpha/2} $, y la fórmula para la estimación por intervalo de la diferencia entre dos medias poblacionales se ajusta acordemente.
En esta expresión el uso de la distribución t es una aproximación, pero proporciona resultados excelentes y es relativamente fácil de usar. La única dificultad que se enfrenta al emplear la expresión (10.6) consiste en determinar los grados de libertad apropiados para $ t_{\alpha/2} $ . El software estadístico los calcula automáticamente. La fórmula que se usa es la siguiente.
Pruebas de hipótesis acerca: $\mu_1 - \mu_2$¶
Ahora se estudiarán las pruebas de hipótesis acerca de la diferencia entre las medias de dos poblaciones cuando no se conocen las desviaciones estándar poblacionales $\sigma_1$ y $\sigma_2$. Sea $D_0$ la diferencia hipotética entre $\mu_1$ y $\mu_2$. El estadístico de prueba utilizado cuando se conocen $\sigma_1$ y $\sigma_2$ es el siguiente: $$ z = \frac{(\bar{X}_1 - \bar{X}_2) - D_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} $$ El estadístico de prueba z sigue la distribución normal estándar.
Ejemplo.
En el ejemplo siguiente se muestra cómo calcular el margen de error y obtener una estimación por intervalo para la diferencia entre dos medias poblacionales cuando σ1 y σ2 no se conocen. Clearwater National Bank realiza un estudio para identifi car diferencias entre las cuentas de cheques de sus clientes en dos de sus sucursales. Toma una muestra aleatoria simple de 28 cuentas de la sucursal Cherry Grove y otra muestra aleatoria simple e independiente de 22 cuentas de cheques de la sucursal Beechmont. El saldo actual de las cuentas de cheques se registra para cada cuenta. A continuación se presenta un resumen de los saldos en estas cuentas de cheques.
Cherry Grove | Beechmont | |
---|---|---|
Tamaño de la muestra | \( n_1 = 28 \) | \( n_2 = 22 \) |
Media muestral | \( \bar{x}_1 = \$1025 \) | \( \bar{x}_2 = \$910 \) |
Desviación estándar muestral | \( s_1 = \$150 \) | \( s_2 = \$125 \) |
El banco desea estimar la diferencia entre el saldo medio en las cuentas de cheques de la población de clientes de Cherry Grove y el saldo medio en las cuentas de cheques de la población de clientes de Becchmont. Enseguida se calculará el margen de error y una estimación por intervalo para la diferencia entre estas dos medias poblacionales.
El cálculo de los grados de libertad (gl ) para $t_{\alpha/2}$
$$ gl = \frac{(s_1^2/n_1 + s_2^2/n_2)^2}{(s_1^2/n_1)^2/(n_1-1) + (s_2^2/n_2)^2/(n_2-1)}=\frac{(150^2/28 + 125^2/22)^2}{(150^2/28)^2/(28-1) + (125^2/22)^2/(22-1)}=47.8 $$
Como el resultado no es un número entero, se redondea hacia abajo a 47 para obtener un valor t mayor y una estimación por intervalo más prudente. En la tabla de la distribución t para 47 grados de libertad se encuentra que $t_{0.025}$ = 2.012. Según la expresión (10.6), el intervalo de 95% de confi anza para la diferencia entre las dos medias poblacionales se calcula como sigue.
$$\overline{x}_1 - \overline{x}_2 \pm t_{\alpha/2} \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}$$
$$ 1025 - 910 \pm 2.012 \sqrt{\frac{150^2}{28} + \frac{125^2}{22}}$$
$$115\pm 78$$
La estimación puntual de la diferencia entre las dos medias poblacionales de los saldos en las cuentas de cheques es $\$115$. El margen de error es $\$78$ y la estimación por intervalo de 95% de confi anza para la diferencia entre las dos medias poblacionales es el que va de 115 - 78 = $\$37$ a 115 + 78 = $\$193$.
Ahora se estudiarán las pruebas de hipótesis acerca de la diferencia entre las medias de dos poblaciones cuando no se conocen las desviaciones estándar poblacionales $σ_1$ y $σ_2$. Cuando no se conocen $σ_1$ y $σ_2$, se usa $s_l$ para estimar $σ_1$ y $s_2$ para estimar $σ_2$. Sea $D_0$ la diferencia hipotética entre $μ_1$ y $μ_2$.
Ahora se demostrará el uso del estadístico de prueba en el ejemplo siguiente.
Considere un nuevo software que ayuda a los analistas de sistemas a reducir el tiempo requerido para diseñar, elaborar y poner en marcha un sistema de información. Para evaluar las ventajas del nuevo programa, se toma una muestra aleatoria de 24 analistas de sistemas. A cada analista se le proporciona información sobre un sistema de información hipotético. A 12 de ellos se les pide que elaboren el sistema de información usando la tecnología actual. A los otros 12 se les capacita para usar el nuevo software y se les instruye para que lo empleen en el desarrollo del sistema de información.
En el estudio participan dos poblaciones: una de analistas de sistemas que usan la tecnología actual y otra de analistas de sistemas que aplican el nuevo software. En términos del tiempo necesario para completar el proyecto del sistema de información, las medias poblacionales son las siguientes.
$μ_1$ = media del tiempo que necesitan para completar el proyecto los analistas que emplean la tecnología actual.
$μ_2$ = media del tiempo que necesitan para completar el proyecto los analistas que emplean el nuevo software.
El investigador encargado de la evaluación del nuevo software espera demostrar que con el nuevo programa se requiere menos tiempo para completar el proyecto del sistema de información. De manera que tratará de hallar evidencias que le permitan concluir que $μ_2$ es menor que $μ_1$,
Tabla 10.1 Datos y resumen estadísticos del tiempo requerido en el estudio de la prueba de software
Tamaño de la muestral | $n_1=12$ | $n_2=12$ |
Media Muestral | $\bar{x}_1$=325 horas | $\bar{x}_2$=286 horas |
Desviacion estandar muestral | $s_1$=40 | $s_2$=44 |
caso en el que la diferencia entre las dos muestras poblacionales $μ_1$ - $μ_2$ será mayor que cero. La hipótesis de investigación $μ_1$ - $μ_2$ > 0 se establece como hipótesis alternativa. Por ende, la prueba de hipótesis será: $$ H_0: \mu_1 - \mu_2 \leq0 $$ $$ H_1: \mu_1 - \mu_2 >0 $$
Como nivel de signifi cancia se usará α = 0.05. Suponga que los resultados de los 24 analistas son los que se presentan en la tabla 10.1. Con el estadístico de prueba establecido en la ecuación (10.8) tenemos:
$$t = \frac{\overline{x}_1 - \overline{x}_2 - D_0}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}=\frac{325 - 286 - 0}{\sqrt{\frac{40^2}{12} + \frac{44^2}{12}}}=2.27$$
Con base en la ecuación (10.7) los grados de libertad son:
$$ gl = \frac{(s_1^2/n_1 + s_2^2/n_2)^2}{(s_1^2/n_1)^2/(n_1-1) + (s_2^2/n_2)^2/(n_2-1)}=\frac{(40^2/12 + 44^2/12)^2}{(40^2/12)^2/(12-1) + (44^2/12)^2/(12-1)}=21.8 $$
Al redondear hacia abajo se usará una distribución t con 21 grados de libertad. La fi la correspondiente de la tabla de distribución t =2.27.
Consejo práctico
10.2) Ejercicios¶
El departamento de zoología de la Universidad de Virginia llevó a cabo un estudio para estimar la diferencia en la cantidad de ortofósforo químico medido en dos estaciones diferentes del río James. El ortofósforo se mide en miligramos por litro. Se reunieron 15 muestras de la estación 1 y se ontuvo una media de 3.84 con una desviación estándar de 3.07 miligramos por litro, mientras que 12 muestras de la estación 2 tuvieron un contenido promedio de 1.49 con una desviación estándar 0.80 miligramos por litro. Encuentre un intervalo de confianza de 95% para la diferencia del contenido promedio real de ortofósforo en estas dos estaciones, suponga que las observaciones vienen de poblaciones normales con varianzas diferentes.
Sol.
Datos
Estación 1 | Estación 2 |
---|---|
$n_1$=15 | $n_2$=12 |
$\bar{x}_1$=3.84 | $\bar{x}_2$=1.49 |
$s_1$=3.07 | $s_2$=0.80 |
Calculando los grados de libertad $$ gl = \frac{(s_1^2/n_1 + s_2^2/n_2)^2}{(s_1^2/n_1)^2/(n_1-1) + (s_2^2/n_2)^2/(n_2-1)}=\frac{(3.07^2/15 + 0.80^2/12)^2}{(3.07^2/15)^2/(15-1) + (0.80^2/12)^2/(12-1)}=16.3 $$
al usar α=0.05, encontramos en la tabla con 16 grados de libertad que el valor de t es 2.120, por lo tanto:
$$\mu_1 - \mu_2=\overline{x}_1 - \overline{x}_2 \pm t_{\alpha/2} \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}=3.84 - 1.49 \pm 2.120 \sqrt{\frac{3.07^2}{15} + \frac{0.80^2}{12}}$$
Asi,
$0.60\leq\mu_1 - \mu_2\leq4.10$
Por ello se tiene una confianza del 95% de que el intervalo de 0.60 a 4.10 miligramos por litro contiene la diferencia de los contenidos promedios reales de ortofósforo para estos dos lugares.
Ejercicio 2
Un fabricante de monitores prueba dos diseños de microcircuitos para determinar si producen un flujo de corriente equivalente. El departamento de ingeniería ha obtenido los datos siguientes:
Diseño 1 | Diseño 2 |
---|---|
$n_1$=16 | $n_2$=10 |
$\bar{x}_1$=24.2 | $\bar{x}_2$=23.9 |
$s_1$=10 | $s_2$=40 |
con α=0.05, se desea determinar si existe alguna diferencia significativa en el flujo de corriente promedio entre los dos diseños, donde se supone que las dos poblaciones son normales, pero no es posible suponer que las varianzas desconocidas sean iguales.
Sol. $$ gl = \frac{(s_1^2/n_1 + s_2^2/n_2)^2}{(s_1^2/n_1)^2/(n_1-1) + (s_2^2/n_2)^2/(n_2-1)}=\frac{(10/16 + 40/10)^2}{(10/16)^2/(16-1) + (40/10)^2/(10-1)}=11.858 $$ Este valor se redondea al próximo menor que sería 11.
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
x = np.arange(-2.9, 2.9, 0.001)
#pintar el fondo externo del grafico
plt.figure(facecolor='#D4F8B7')
#tamaño del grafico
#plt.figure(figsize=(6,4))
#area de sombreado rango
x_filtered = x[(x >= -1.00) & (x <= 1.00)]
#pintar la linea curva del grafico
plt.plot(x, norm.pdf(x, 0, 1), linewidth = 2, color = '#000')
#pintar el area sombreada del grafico y graficar
plt.fill_between(x_filtered, norm.pdf(x_filtered, 0, 1), color='#5CCB5F', alpha=0.5, edgecolor='black')
#añadir texto al grafico
plt.text(-3.8, 0.08, ("α/2=0.025"))
plt.text(-3.8, 0.10, ("Región de rechazo"))
plt.text(3, 0, ("z"))
#bordes del grafico
ax = plt.gca()
ax.spines['top'].set_color('#009929')
ax.spines['top'].set_linewidth(2)
#ancho del borde superior
ax.spines['top'].set_bounds(-4.5, 4.5)
ax.spines['bottom'].set_color('#009929')
ax.spines['bottom'].set_linewidth(2)
#ancho del borde inferior
ax.spines['bottom'].set_bounds(-4.5, 4.5)
ax.spines['right'].set_visible(False)
ax.spines['left'].set_visible(False)
#pintar el fondo interno del grafico
ax.set_facecolor('#D4F8B7')
#linea inferior del grafico
plt.plot(x, [0]*len(x), color='black', linewidth=2)
#centrar el grafico
plt.subplots_adjust(left=0.1, right=0.9, top=0.9, bottom=0.1)
#plt.arrow(0.1, 0.1, 0.2, 0.2, width=0.05, color='black')
#flecha
plt.annotate(" ", xytext = (-2.3, 0.1), xy = (-1.7, 0.03), arrowprops = dict(facecolor = 'black', width = 0.2, headwidth = 8),
horizontalalignment = 'center')
#texto con flecha
plt.text(2.7, 0.12, ("Región de rechazo"))
plt.annotate("α/2=0.025", xytext = (3.2,0.1),
xy = (1.8, 0.03), arrowprops = dict(facecolor = 'black', width = 0.2, headwidth = 8),
horizontalalignment = 'center')
#mostrar ejes x, y
plt.text(-0.3, -0.05, ("\u03BC₁-\u03BC\u2082=0"))
plt.text(-1.5, -0.05, ("t=-2.201"))
plt.text(0.8, -0.05, ("t=2.201"))
plt.xticks([0], ['{:.2f}'.format(i) for i in []])
plt.yticks([])
plt.show()
Como 0.1395 esta entre -2.201 y 2.201, no se rechaza Ho y se concluye con un α= 0.05, que no existe diferencia significativa en el flujo de corriente promedio entre los dos diseños.
10.3 Inferencias acerca de la diferencia entre dos medias poblacionales: muestras pareadas¶
Suponga que los empleados de una empresa de manufactura utilizan dos métodos distintos para realizar una tarea de producción. Con el fin de maximizar la producción, la empresa desea identificar el método con la menor media poblacional del tiempo necesario para completar esta tarea. Sea μ1 la media poblacional del tiempo empleando el método 1, y μ2 la media poblacional del tiempo requerido para completar la tarea con el método 2. Puesto que no hay ninguna indicación de cuál es el mejor método, se empieza por suponer que con los dos se obtiene la misma media poblacional del tiempo requerido para completar la tarea. De esta manera, la hipótesis nula es H0 : μ1 - μ2 = 0. Si se rechaza esta hipótesis, se podrá concluir que las medias poblacionales de los tiempos requeridos para realizar la tarea son diferentes con los dos métodos. En tal caso se recomendará el que proporcione la menor media del tiempo para la realización de la tarea. Las hipótesis nula y alternativa se expresan como sigue.
$$ H_0 : μ_1 - μ_2 = 0 $$ $$ H_a : μ_1 - μ_2 \neq 0 $$
En la elección del procedimiento de muestreo para obtener los datos y probar las hipótesis se consideran dos diseños alternos. Uno se basa en muestras independientes y el otro en muestras pareadas (o muestras por pares)
Diseño de muestras independientes. Se toma una muestra aleatoria simple de trabajadores y cada uno de ellos usa el método 1. Se extrae una segunda muestra aleatoria simple independiente de trabajadores y cada uno usa el método 2. El procedimiento que se utiliza para probar la diferencia entre las dos medias es el presentado en la sección 10.2.
Diseño de muestras pareadas. Se toma una muestra aleatoria simple de trabajadores. Cada trabajador usa primero uno de los métodos y después el otro. A cada sujeto se le asigna en forma aleatoria el orden en que aplicará los dos métodos; algunos primero usarán el método 1 y otros el método 2. Cada trabajador proporcionará un par de valores de datos, un valor para el método 1 y otro para el método 2. de en la distribución normal estándar.
En el diseño de muestras pareadas los dos métodos se prueban bajo condiciones similares (es decir, con los mismos trabajadores); por tanto, este diseño suele conducir a errores muestrales más pequeños que el de muestras independientes. La razón principal se debe a que en el diseño de muestras pareadas se elimina la variación entre los trabajadores, ya que los mismos sujetos prueban los dos métodos.
A continuación, con el empleo del diseño de muestras pareadas se demostrará la diferencia entre las medias poblacionales para los dos métodos de producción. Se emplea una muestra aleatoria de seis trabajadores. En la tabla 10.2 se indican los tiempos que requirieron los seis sujetos para realizar la tarea. Observe que de cada trabajador se obtuvieron dos datos, uno con cada método de producción. También observe que en la última columna se proporciona, para cada sujeto de la muestra, la diferencia di entre los tiempos para completar la tarea. Lo principal en el análisis de muestras pareadas consiste en darse cuenta de que únicamente hay que considerar la columna de las diferencias. De manera que se tienen seis valores de datos (0.6, 0.2, 0.5, 0.3, 0 y 0.6) que se usarán para analizar la discrepancia entre las medias poblacionales de los dos métodos de producción.
Sea μd = la media de la diferencia en los valores de la población de trabajadores. Con esta
notación, las hipótesis nula y alternativa se expresan como sigue.
$$ H_0 : μ_d = 0 $$ $$ H_a : μ_d \neq 0 $$
Si H0 es rechazada, se concluye que las medias poblacionales difi eren en los tiempos requeridos para completar la tarea con los dos métodos. La notación d sirve para recordar que las muestras pareadas proporcionan datos que son diferencias. A continuación se calcula la media y la desviación estándar muestrales de las seis diferencias en los valores que se presentan en la tabla 10.2.
$$\overline{d} = \frac{Σd_i}{n} = \frac{1.8}{6} = 0.30$$ $$S_d = \sqrt{\frac{Σ(d_i-\overline{d})^2}{n-1}} = \sqrt{\frac{0.56}{5}} = 0.355$$
TABLA 10.2 Tiempos para completar una tarea en un diseño de muestras pareadas
Trabajador | Tiempo de realizacion con el metodo 1 (minutos) | Tiempo de realizacion con el metodo 2 (minutos) | Diferencia en los tiempos de realizacion (di) |
---|---|---|---|
1 | 6.0 | 5.4 | 0.6 |
2 | 5.0 | 5.2 | -0.2 |
3 | 7.0 | 6.5 | 0.5 |
4 | 6.2 | 5.9 | 0.3 |
5 | 6.0 | 6.0 | 0 |
6 | 6.4 | 5.8 | 0.6 |
Como la muestra es pequeña, n = 6, es preciso suponer que la población de las diferencias tiene una distribución normal. Este supuesto es necesario para usar la distribución t en la prueba de hipótesis y para calcular la estimación por intervalo. Con esta presunción, el estadístico de prueba siguiente tiene una distribución t con n - 1 grados de libertad
GRADOS DE LIBERTAD: DISTRIBUCIÓN t CON DOS MUESTRAS ALEATORIAS INDEPENDIENTES
$$ t = \frac{\overline{d} - μ_d}{S_d/\sqrt{n}} = \frac{0.30 - 0}{0.335/\sqrt{6}} = 2.20$$
Ahora se calculará el valor-p para esta prueba de dos colas. Como t = 2.20 > 0, el estadístico de prueba se encuentra en la cola superior de la distribución t. Como t 2.20, el área en la cola superior a la derecha del estadístico de prueba se identifi ca usando la tabla de distribución t con grados de libertad = n - l = 6 - l = 5. A continuación se copia la información correspondiente a la fi la de la tabla de distribución t para 5 grados de libertad
Trabajador | 0.20 0.10 0.05 0.025 0.01 0.005 |
---|---|
Valor-t(5 gl) | 0.920 1.476 2.015 2.571 3.356 4.032 |
Como se ve, el área en la cola superior está entre 0.05 y 0.025. Por tratarse de una prueba de dos colas, se duplica este valor y se concluye que el valor-p se ubica entre 0.10 y 0.05. Este valor-p es mayor que α = 0.05. Por ende, no se rechaza la hipótesis nula H0: μd = 0. Con Excel o Minitab y los datos de la tabla 10.2 se encuentra el valor-p exacto = 0.080. Además, también se puede obtener un intervalo de confi anza para estimar la diferencia entre las dos medias poblacionales usando la metodología para una sola población presentada en el capítulo 8. A continuación se presenta el cálculo para obtener un intervalo de 95% de confi anza.
$$\overline{d} \pm t_{0.025}\frac{S_d}{\sqrt{n}}$$ $$0.3 \pm 2.571(\frac{0.335}{\sqrt{6}})$$ $$0.3 \pm 0.35$$
Por tanto, el margen de error es 0.35 y el intervalo de 95% de confi anza para estimar la diferencia entre las medias poblacionales de los dos métodos de producción va de 0.05 minutos a 0.65 minutos.
10.3) Ejercicios¶
- Considere la prueba de hipotesis siguiente.
$$H_0 : μ_d \leq 0$$ $$H_a : μ_d > 0$$
Los datos siguientes provienen de muestras pareadas tomadas de dos poblaciones.
Poblacion | Poblacion | |
---|---|---|
Elemento | 1 | 2 |
1 | 21 | 20 |
2 | 28 | 26 |
3 | 18 | 18 |
4 | 20 | 20 |
5 | 26 | 24 |
(a) Calcule la diferencia en el valor de cada elemento
(b) Determine $\overline{d}$
(c) Calcule la desviación estándar $S_d$
(d) Realice una prueba de hipótesis usando α = 0.05. ¿Cuál es su conclusión?
(a) Se calcula la diferencia en el valor de cada elemento: Para cada par de elementos, se resta el segundo valor del primero:
$d_i = x_{i2} - x_{i1}$
$$d_1 = 20 - 21 = -1$$ $$d_2 = 26 - 28 = -2$$ $$d_3 = 18 - 18 = 0$$ $$d_4 = 20 - 20 = 0$$ $$d_5 = 24 - 26 = -2$$
(b) Determine $\overline{d}$:
$\overline{d} = \frac{Σ^{n}_{i=1}d_i}{n}$ $$\overline{d} = \frac{(-1)+(-2)+0+0+(-2)}{5} = -\frac{5}{5} = -1$$
(c) Calcule la desviación estándar $S_d$
Primero, se calcula las diferencias al cuadrado:
$(d_i - \overline{d})^2 $
$$( - 1 - ( 1 ) )^2 = 0$$
$$( - 2 - (- 1 ) )^2 = 1$$
$$( 0 - ( - 1 ) )^2 = 1$$
$$( 0 - ( - 1 ) )^2 = 1$$
$$(-2-(-1))^2=1$$
Luego, se calcula la varianza $S^{2}_d$:
$S^{2}_d = \frac{Σ^{n}_{i=1}(d_i-\overline{d})^2}{n-1}$
$$S^{2}_d = \frac{0+1+1+1+1}{5-1} = \frac{4}{4} = 1$$
Finalmente, la desviación estándar $S_d:$
$$S_d = \sqrt{S^{2}_d} = \sqrt{1} = 1$$
(d) Realice una prueba de hipótesis α ≤ 0.05
Para realizar una prueba de hipótesis, necesitas comparar el valor p calculado con el nivel de significancia α.
El estadístico de prueba t se calcula como:
$t = \frac{\overline{d}}{S_d/\sqrt{n}}$
Para este ejemplo, asumamos que la hipótesis alternativa es "distinto de cero". Utilizando una prueba t de dos colas y α=0.05, puedes comparar el valor p con α.
Una forma de realizar la prueba es utilizar una tabla de distribución t de Student o un software estadístico.
import scipy.stats as stats
import numpy as np
# Datos
diferencias = np.array([-1, -2, 0, 0, -2])
n = len(diferencias)
alfa = 0.05
# Calcula la media, la desviación estándar y el estadístico t
media_d = np.mean(diferencias)
desviacion_estandar_d = np.std(diferencias, ddof=1) # Usando ddof=1 para la corrección de Bessel
t_estadistico = media_d / (desviacion_estandar_d / np.sqrt(n))
# Grados de libertad
grados_libertad = n - 1
# Calcula el valor p para una prueba t de dos colas
valor_p = 2 * (1 - stats.t.cdf(np.abs(t_estadistico), df=grados_libertad))
# Imprime resultados
print(f"Estadístico t: {t_estadistico}")
print(f"Valor p: {valor_p}")
# Compara con el nivel de significancia alfa
if valor_p < alfa:
print("Se rechaza la hipótesis nula.")
else:
print("No se rechaza la hipótesis nula.")
Estadístico t: -2.23606797749979 Valor p: 0.08900934250008552 No se rechaza la hipótesis nula.
10.4 Inferencias acerca de la diferencia entre dos proporciones poblacionales¶
Siendo p1 la proporción de la población 1 y p2 la proporción de la población 2, a continuación
se considerarán inferencias acerca de la diferencia entre dos proporciones poblacionales: p1 - p2. Para determinar las inferencias acerca de estas diferencias, se seleccionan dos muestras
aleatorias independientes: una de n1 unidades de la población 1 y otra de n2 unidades de la
población 2.
Estimación por intervalo para p1 - p2¶
En el ejemplo siguiente se mostrará cómo calcular un margen de error y una estimación por intervalo para la diferencia entre dos proporciones poblacionales. Una empresa que se dedica a elaborar declaraciones de impuestos desea comparar la calidad del trabajo que se realiza en dos de sus oficinas regionales. Con muestras aleatorias de las declaraciones de impuestos elaboradas en dichas ofi cinas y verificando la exactitud de los reportes, la empresa podrá estimar la proporción de declaraciones con errores en que incurrió cada una de estas ofi cinas. Interesa conocer la diferencia entre las proporciones siguientes:
$p_1$ = Proporción de declaraciones erróneas en la población 1 (oficina 1) |
---|
$p_2$ = Proporción de declaraciones erróneas en la población 2 (oficina 2) |
$\overline{p_1}$ = Proporción muestral en una muestra aleatoria simple de la población 1 |
$\overline{p_2}$ = Proporción muestral en una muestra aleatoria simple de la población 2 |
La diferencia entre las dos proporciones poblacionales está dada por p1 - p2. La estimación puntual de p1 - p2 se indica enseguida.
Por ende, el estimador puntual de la diferencia entre dos proporciones poblacionales es la diferencia entre las proporciones muestrales de dos muestras aleatorias simples independientes. Como ocurre con otros estimadores puntuales, el estimador puntual $\overline{p_1} - \overline{p_2}$ tiene una distribución de muestreo que refleja los valores que podría asumir $\overline{p_1} - \overline{p_2}$ si se tomaran repetidamente dos muestras aleatorias simples independientes. La media de esta distribución de muestreo es $p_1 - p_2$ y el error estandar $ \overline{p_1} - \overline{p_2}$ es el siguiente.
Si los tamaños de las muestras son suficientemente grandes para que $n_1p_1,n_1(1-p_1), n_2p_2$ y $n_2(1-p_2)$ todos mayores o iguales que 5, la distribución de muestreo de $\overline{p_1} - \overline{p_2}$ puede ser aproximada por una distribución normal. Como ya se indicó antes, una estimación por intervalo está dada por una estimación puntual $\pm$ un margen de error. En el cálculo de la diferencia entre dos proporciones poblacionales, una estimación por intervalo toma la forma siguiente.
La forma general de una estimación por intervalo para la diferencia entre dos proporciones poblacionales es la siguiente.
De regreso al ejemplo de elaboración de declaraciones de impuestos, se encuentra que de las muestras aleatorias simples independientes de las dos oficinas se obtienen los datos siguientes.
Oficina 1 | Oficina 2 |
---|---|
$n_1 = 250$ | $n_2 = 300$ |
Número de declaraciones con errores = 35 | Número de declaraciones con errores = 27 |
Las proporciones muestrales en cada una de las oficinas son las siguientes.
La estimación puntual de la diferencia entre las proporciones de declaraciones con errores en las dos poblaciones es $\overline{p_1} - \overline{p_2} = 0.14 - 0.09 = 0.05$. Por tanto, se estima que la ofi cina 1 comete 0.05 o 5% más errores que la oficina 2. Ahora se puede usar la expresión (10.13) para calcular el margen de error y la estimación por intervalo para la diferencia entre las dos proporciones poblacionales. Utilizando un intervalo de 90% de confianza con $Z_{\alpha/2} - Z_{0.05} =$ 1.645, tenemos
El margen de error es 0.045 y el intervalo de 90% de confi anza va de 0.005 a 0.095.
Prueba de hipótesis acerca de p1 - p2¶
Ahora se considerarán las pruebas de hipótesis acerca de la diferencia entre las proporciones de dos poblaciones. Se analizarán pruebas que comprenden el caso en que no hay diferencia entre las dos proporciones poblacionales. En tal situación, las tres formas que adoptan las pruebas de hipótesis son las siguientes.
$$ H_0: p_1 - p_2 \geq 0\ \quad H_0: p_1 - p_2 \leq 0 \quad H_0: p_1 - p_2 = 0$$ $$ H_a: p_1 - p_2 < 0 \quad H_a: p_1 - p_2 > 0 \quad H_a: p_1 - p_2 \neq 0$$
Si se supone que H0, considerada como igualdad, es verdadera, se tiene $ p_1 - p_2 = 0$, lo cual equivale a decir que dichas proporciones poblacionales son iguales, $ p_1 = p_2$. El estadístico de prueba se basará en la distribución de muestreo del estimador puntual $ \overline{p_1} - \overline{p_2}$. En la ecuación (10.11) se mostró que el error estándar de $ \overline{p_1} - \overline{p_2}$ está dado por:
$$\sigma_{\overline{p_1}-\overline{p_2}} = \sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}$$
Si se supone que H0 es verdadera como igualdad, las proporciones poblacionales son iguales y p1 = p2 = p. En este caso, $\sigma_{\overline{p_1}-\overline{p_2}}$ se convierte en la expresión que se presenta enseguida.
Como no se conoce p, se combinan los estimadores puntuales de las dos muestras $(\overline{p_1}\ y\ \overline{p_2})$ con objeto de obtener un solo estimador puntual de p como se indica a continuación.
El estimador combinado de p es un promedio ponderado de $\overline{p_1} y \overline{p_2}$. Al sustituir $\overline{p}$ por p en la ecuación (10.14), se obtiene una estimación del error estándar de $\overline{p_1} - \overline{p_2}$. Dicha estimación se usa en el estadístico de prueba. La fórmula general del estadístico de prueba para una prueba de hipótesis acerca de la diferencia entre dos proporciones poblacionales es el estimador puntual dividido entre la estimación de $\sigma_{\overline{p_1}-\overline{p_2}}$.
Tal estadístico de prueba se aplica en situaciones de muestras grandes en las que $n_1p_1 , n_1(1 - p_1), n_2p_2\ y\ n_2(l - p_2)$, son todos mayores o iguales que 5. En el ejemplo de la empresa que se dedica a elaborar declaraciones de impuestos, suponga que ésta desea realizar una prueba de hipótesis para determinar si las proporciones de errores en las dos oficinas son diferentes. Para esto se requiere una prueba de dos colas. Las hipótesis nula y alternativa son las siguientes.
$$ H_0: p_1 - p_2 = 0$$ $$ H_a: p_1 - p_2 \neq 0$$
Si $H_0$ es rechazada, la empresa concluiría que la proporción de errores que se cometen en las dos oficinas es distinta. Como nivel de significancia se usará $\alpha = 0.10$. En los datos muestrales recabados previamente se encuentra que $\overline{p_1} = 0.14$ en la muestra de $n_1 = 250$ declaraciones de la oficina 1, y $\overline{p_2} = 0.09$ en la muestra de $n_2 = 300$ declaraciones en la muestra de la oficina 2. A continuación se calculará la estimación combinada de p.
$$\overline{p} = \frac{n_1\overline{p_1}+n_2\overline{p_2}}{n_1+n_2} = \frac{250(0.14)+300(0.09)}{250+300} = 0.1127$$
Con la estimación combinada y la diferencia entre las proporciones muestrales, se obtiene el valor del estadístico de prueba como se indica a continuación.
$$Z = \frac{(\overline{p_1}-\overline{p_2})}{\sqrt{\overline{p}(1-\overline{p})(\frac{1}{n_1}+\frac{1}{n_2})}} = \frac{(0.14 - 0.09)}{\sqrt{0.1127(1-0.1127)(\frac{1}{250}+\frac{1}{300})}} = 1.85$$
Al calcular el valor-p para esta prueba de dos colas se observa, primero, que z = 1.85 se encuentra en la cola superior de la distribución normal estándar. Considerando z = 1.85 y la tabla de distribución normal estándar, se encuentra que el área en la cola superior es 1.0000 - 0.9678 = 0.0322. Al multiplicar esta área por 2, dado que se trata de una prueba de dos colas, se tiene que el valor-p es 2(0.0322) = 0.0644. Como este valor es menor que $\alpha$ = 0.10, se rechaza $H_0$ para el nivel de significancia 0.10. La empresa concluye que las proporciones de errores de las dos oficinas difieren. La conclusión de esta prueba de hipótesis es consistente con los resultados de la estimación por intervalo calculada antes, los cuales indicaban que la diferencia entre las proporciones poblacionales de errores en las dos oficinas estaba entre 0.005 y 0.095, siendo la oficina 1 la que arrojaba una mayor tasa de errores.
10.4 Ejercicios¶
Ejercicio 28.
Considere los resultados siguientes obtenidos de muestras independientes tomadas de dos poblaciones
$$Muestra\ 1 \quad Muestra\ 2$$ $$n_1 = 400 \quad n_2 = 300$$ $$\overline{p_1} = 0.48 \quad \overline{p_2} = 0.36$$
(a) ¿Cuál es la estimación puntual de la diferencia entre las dos proporciones poblacionales?
(b) Calcule un intervalo de 90% de confianza para la diferencia entre las dos proporciones poblacionales.
(c) Proporcione un intervalo de 95% de confianza para la diferencia entre las dos proporciones poblacionales.
Para resolver esto, primero calculamos la estimación puntual de la diferencia entre las proporciones poblacionales. Esto se hace simplemente restando $\overline{p_2}$ de $\overline{p_1}$.
$$\overline{p_1} - \overline{p_2} = 0.48 - 0.36 = 0.12$$ Luego, para calcular un intervalo de confianza del 90% para la diferencia, necesitamos la desviación estándar de la diferencia. La fórmula para esto es: $$\sqrt{\frac{\overline{p_1}(1-\overline{p_1})}{n_1}+\frac{\overline{p_2}(1-\overline{p_2})}{n_2}}$$
Sustituyendo los valores dados obtenemos:
$$\sqrt{\frac{0.48(1-0.48)}{400}+\frac{0.36(1-0.36)}{300}} = 0.056$$
Para un intervalo de confianza del 90%, usamos un valor Z de 1.645 (para una prueba de dos colas). Entonces, el intervalo de confianza es:
$$(\overline{p_1}-\overline{p_2})\pm Z * \sqrt{\frac{\overline{p_1}(1-\overline{p_1})}{n_1}+\frac{\overline{p_2}(1-\overline{p_2})}{n_2}}$$
Sustituyendo los valores obtenemos el intervalo de confianza del 90% para la diferencia entre las proporciones:
$$0.12 \pm 1.645 * 0.056 = (0.02, 0.22)$$
Por lo tanto, con un 90% de confianza, la diferencia entre las dos proporciones de población está entre 0.02 y 0.22.
Para un intervalo de confianza del 95%, usamos un valor Z de 1.96 (para una prueba de dos colas). Entonces, el intervalo de confianza es:
$$(\overline{p_1}-\overline{p_2})\pm Z * \sqrt{\frac{\overline{p_1}(1-\overline{p_1})}{n_1}+\frac{\overline{p_2}(1-\overline{p_2})}{n_2}}$$
Sustituyendo los valores obtenemos el intervalo de confianza del 95% para la diferencia entre las proporciones:
$$0.12 \pm 1.96 * 0.056 = (-0.02, 0.26)$$
Por lo tanto, con un 95% de confianza, la diferencia entre las dos proporciones de población está entre -0.02 y 0.26.