Estadistica 2
Capitulo 8
Initializing search
    • Home
    • Capitulo 1
    • Capitulo 2
    • Capitulo 3
    • Capitulo 4
    • Capitulo 5
    • Capitulo 6
    • Capitulo 7
    • Capitulo 8
    • Capitulo 9
    • Capitulo 10
    • Capitulo 12
    • Capitulo 13
    • Capitulo 14
    • Home
    • Capitulo 1
    • Capitulo 2
    • Capitulo 3
    • Capitulo 4
    • Capitulo 5
    • Capitulo 6
    • Capitulo 7
    • Capitulo 8
    • Capitulo 9
    • Capitulo 10
    • Capitulo 12
    • Capitulo 13
    • Capitulo 14

    8.1 Media poblacional: $\sigma$ conocida

    Para obtener una estimación por intervalo para la media poblacional, es necesario conocer la desviación estándar poblacional $(\sigma)$ o la desviación estándar muestral (s) para calcular el margen de error. En muchos casos, la desviación estándar poblacional $(\sigma)$ es desconocida, y se utiliza la desviación estándar muestral (s) para calcular el margen de error. Sin embargo, en situaciones donde se dispone de datos históricos o en aplicaciones de control de calidad, se puede conocer la desviación estándar poblacional.

    En un ejemplo específico, Boutique Andina realiza estudios semanales seleccionando una muestra aleatoria simple de 100 clientes para conocer la cantidad que gastan en cada visita. Suponen que la desviación estándar poblacional $(\sigma)$ es conocida y tiene un valor de $\sigma = 20Bs$, basándose en datos históricos que indican una distribución normal en la población. En una semana reciente, la media muestral obtenida fue $\bar{x}=82Bs$. Esta media muestral sirve como estimación puntual de la media poblacional $(\mu)$.

    A continuación, se aborda cómo calcular un margen de error para esta estimación y cómo desarrollar una estimación por intervalo para la media poblacional.

    Margen de error y estimación por intervalo

    En el capítulo 7 se menciona que la distribución de muestreo de $\bar{x}$ sirve para calcular la probabilidad de que $\bar{x}$ esté dentro de una distancia dada de $\mu$. En el ejemplo de Boutique Andina, los datos históricos indican que la población constituida por las cantidades gastadas está distribuida normalmente y que su desviación estándar es $\sigma = 20$. De esta manera, utilizando lo aprendido en el capítulo 7, se puede concluir que la distribución de muestreo de $\bar{x}$ sigue una distribución normal con un error estándar de $\sigma_{\bar{x}}=\sigma/\sqrt{n}=20/ \sqrt{100}=2$. En la fi gura 8.1 se presenta esta distribución de muestreo. Puesto que indica cómo están distribuidos los valores de x en torno a la media poblacional $\mu$, la distribución de muestreo de $\bar{x}$ proporciona información acerca de la posible diferencia entre $\bar{x}$ y $\mu$.

    Figura 8.1 Distribución de muestreo de la media muestral de las cantidades gastadas para muestras aleatorias simples de 100 clientes

    In [12]:
    Copied!
    import numpy as np
    import matplotlib.pyplot as plt
    import scipy.stats as stats
    
    # Nivel de significancia
    alfa = 0.05
    
    # Generar datos para la distribución normal estándar (z)
    x = np.linspace(-4, 4, 1000)
    y = stats.norm.pdf(x)
    
    # Encontrar el valor crítico para el nivel de significancia alfa/2
    valor_critico = stats.norm.ppf(1 - alfa/2)
    
    # Crear el gráfico con la línea de color verde y etiqueta con el símbolo mu (μ)
    plt.figure(figsize=(9, 4))
    plt.plot(x, y, label=r'Distribución Normal Estándar ($\mu$)', color='green')  # Cambié el color a verde y añadí el símbolo mu
    
    # Sombrear el área debajo de la línea con un verde más oscuro
    plt.fill_between(x, y, color='#5CCB5F', alpha=0.3)
    
    # Etiqueta de texto 1: Distribución de muestreo de x̄
    plt.text(-4, 0.20, 'Distribución de muestreo\n   de $\\bar{x}$', ha='left')
    
    # Etiqueta de texto 2: σ/√n
    plt.text(4, 0.20, r'$\sigma_{\bar{x}}=\frac{\sigma}{\sqrt{n}}= \frac{20}{\sqrt{100}} = 2$', fontsize=12, ha='right')
    
    # Establecer el color de fondo
    plt.gca().set_facecolor('#d4f8b7')  
    
    # Mostrar el gráfico
    plt.grid(False)
    plt.show()
    
    import numpy as np import matplotlib.pyplot as plt import scipy.stats as stats # Nivel de significancia alfa = 0.05 # Generar datos para la distribución normal estándar (z) x = np.linspace(-4, 4, 1000) y = stats.norm.pdf(x) # Encontrar el valor crítico para el nivel de significancia alfa/2 valor_critico = stats.norm.ppf(1 - alfa/2) # Crear el gráfico con la línea de color verde y etiqueta con el símbolo mu (μ) plt.figure(figsize=(9, 4)) plt.plot(x, y, label=r'Distribución Normal Estándar ($\mu$)', color='green') # Cambié el color a verde y añadí el símbolo mu # Sombrear el área debajo de la línea con un verde más oscuro plt.fill_between(x, y, color='#5CCB5F', alpha=0.3) # Etiqueta de texto 1: Distribución de muestreo de x̄ plt.text(-4, 0.20, 'Distribución de muestreo\n de $\\bar{x}$', ha='left') # Etiqueta de texto 2: σ/√n plt.text(4, 0.20, r'$\sigma_{\bar{x}}=\frac{\sigma}{\sqrt{n}}= \frac{20}{\sqrt{100}} = 2$', fontsize=12, ha='right') # Establecer el color de fondo plt.gca().set_facecolor('#d4f8b7') # Mostrar el gráfico plt.grid(False) plt.show()
    No description has been provided for this image

    En la introducción de este capítulo se mencionó la fórmula general para estimar un intervalo de la media poblacional $\mu$, la cual es $\bar{x} \pm \text{margen de error}$. En el ejemplo de Boutique Andina, asumamos un margen de error de $3.92$ y calculemos una estimación por intervalo para $\mu$ usando $\bar{x} \pm 3.92$. Para comprender cómo se interpreta esta estimación por intervalo, consideremos los valores de $x$ que podrían obtenerse si se tomaran tres muestras aleatorias simples diferentes, cada una de $100$ clientes de Boutique Andina.

    La primera media muestral podría dar el valor $\bar{x}_1$. En este caso, el intervalo obtenido al restar $3.92$ de $\bar{x}_1$ y sumar $3.92$ a $\bar{x}_1$ abarca la media poblacional $\mu$. Ahora, al razonar sobre la segunda media muestral con el valor $\bar{x}_2$, observamos que el intervalo obtenido también comprende $\mu$. Sin embargo, en el caso de la tercera media muestral con el valor $\bar{x}_3$, el intervalo obtenido no abarca $\mu$. Esto se debe a que $\bar{x}_3$ cae en la cola superior de la distribución de muestreo y dista más de $3.92$ de $\mu$. Al restar y sumar $3.92$ a $\bar{x}_3$, obtenemos un intervalo que no incluye $\mu$.

    Figura 8.3 Intervalos obtenidos a partir de algunas medias muestrales localizadas en $\bar{x}_1$, $\bar{x}_2$ y $\bar{x}_3$

    In [3]:
    Copied!
    import numpy as np
    import matplotlib.pyplot as plt
    import scipy.stats as stats
    
    # Nivel de significancia
    alfa = 0.05
    
    # Generar datos para la distribución normal estándar (z)
    x = np.linspace(-4, 4, 1000)
    y = stats.norm.pdf(x)
    
    # Encontrar el valor crítico para el nivel de significancia alfa/2
    valor_critico = stats.norm.ppf(1 - alfa/2)
    
    # Crear el gráfico con la línea de color verde y etiqueta con el símbolo mu (μ)
    plt.figure(figsize=(9, 4))
    plt.plot(x, y, label=r'Distribución Normal Estándar ($\mu$)', color='green')  # Cambié el color a verde y añadí el símbolo mu
    
    # Sombrear el área debajo de la línea con un verde más oscuro
    plt.fill_between(x, y, where=(x > -valor_critico) & (x < valor_critico), color='#5CCB5F', alpha=0.3)
    
    # Agregar líneas verticales en ambos lados
    plt.axvline(-valor_critico, color='black', linestyle='-', linewidth=1, ymax=0.2)
    plt.axvline(valor_critico, color='black', linestyle='-', linewidth=1, ymax=0.2)
    plt.axvline(0, color='black', linestyle='--', linewidth=1, ymax=0.55)
    
    # Etiqueta de texto 1: Distribución de muestreo de x̄
    plt.text(-4, 0.20, 'Distribución de muestreo\n   de $\\bar{x}$', ha='left')
    
    # Etiqueta de texto 2: σ/√n
    plt.text(4, 0.20, r'$\sigma_{\bar{x}} = 2$', fontsize=12, ha='right')
    
    # Etiqueta de texto 1: Distribución de muestreo de x̄
    plt.text(0, 0.25, '$95\%$ de todos los\n   valores de $\\bar{x}$', ha='center')
    
    # Establecer el color de fondo
    plt.gca().set_facecolor('#d4f8b7')  
    
    # Mostrar el gráfico
    plt.grid(False)
    plt.show()
    
    import numpy as np import matplotlib.pyplot as plt import scipy.stats as stats # Nivel de significancia alfa = 0.05 # Generar datos para la distribución normal estándar (z) x = np.linspace(-4, 4, 1000) y = stats.norm.pdf(x) # Encontrar el valor crítico para el nivel de significancia alfa/2 valor_critico = stats.norm.ppf(1 - alfa/2) # Crear el gráfico con la línea de color verde y etiqueta con el símbolo mu (μ) plt.figure(figsize=(9, 4)) plt.plot(x, y, label=r'Distribución Normal Estándar ($\mu$)', color='green') # Cambié el color a verde y añadí el símbolo mu # Sombrear el área debajo de la línea con un verde más oscuro plt.fill_between(x, y, where=(x > -valor_critico) & (x < valor_critico), color='#5CCB5F', alpha=0.3) # Agregar líneas verticales en ambos lados plt.axvline(-valor_critico, color='black', linestyle='-', linewidth=1, ymax=0.2) plt.axvline(valor_critico, color='black', linestyle='-', linewidth=1, ymax=0.2) plt.axvline(0, color='black', linestyle='--', linewidth=1, ymax=0.55) # Etiqueta de texto 1: Distribución de muestreo de x̄ plt.text(-4, 0.20, 'Distribución de muestreo\n de $\\bar{x}$', ha='left') # Etiqueta de texto 2: σ/√n plt.text(4, 0.20, r'$\sigma_{\bar{x}} = 2$', fontsize=12, ha='right') # Etiqueta de texto 1: Distribución de muestreo de x̄ plt.text(0, 0.25, '$95\%$ de todos los\n valores de $\\bar{x}$', ha='center') # Establecer el color de fondo plt.gca().set_facecolor('#d4f8b7') # Mostrar el gráfico plt.grid(False) plt.show()
    No description has been provided for this image

    Cualquier media muestral $\bar{x}$ que se encuentre dentro de la región sombreada en la figura 8.3 generará un intervalo que contiene la media poblacional $\mu$. Dado que el $95\%$ de todas las posibles medias muestrales se ubican en la región sombreada más oscura, el $95\%$ de todos los intervalos construidos restando $3.92$ de $\bar{x}$ y sumando $3.92$ a $\bar{x}$ abarcarán la media poblacional $\mu$.

    En la última semana, el equipo encargado de asegurar la calidad de Boutique Andina encuestó a $100$ clientes y obtuvo una media muestral $\bar{x}$ de $82$. Utilizando $\bar{x} \pm 3.92$ para construir la estimación por intervalo, se obtiene $82 \pm 3.92$. Por lo tanto, la estimación por intervalo de $\mu$ basada en los datos de la última semana va de $78.08$ a $85.92$. Dado que el $95\%$ de todos los intervalos construidos usando $\bar{x} \pm 3.92$ contendrán la media poblacional, se tiene un $95\%$ de confianza de que el intervalo de $78.08$ a $85.92$ contiene $\mu$. Este intervalo tiene un nivel de confianza del $95\%$. Al valor $0.95$ se le conoce como coeficiente de confianza, y al intervalo de $78.08$ a $85.92$ como intervalo de confianza del $95\%$.

    Como el margen de error está dado por $z_{\alpha/2}(\sigma\sqrt{n})$, la fórmula general de una estimación por intervalo de la media poblacional con σ conocida es la siguiente. En el ejemplo de Boutique Andina, mediante la expresión (8.1) se construye un intervalo de confianza de $95\%$

    ESTIMACIÓN POR INTERVALO DE LA MEDIA POBLACIONAL: σ CONOCIDA

    $$ \begin{equation} \bar{x} \pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \tag{8.1} \end{equation} $$

    donde $1-\alpha$ es el coeficiente de confianza y $z_{\alpha/2}$ es el valor de $z$ que proporciona un área $\alpha/2$ en la cola superior de la distribución de probabilidad normal estándar.

    Con un coeficiente de confianza $(1 - \alpha) = 0.95$, por lo tanto, $\alpha = 0.05$. En la tabla de distribución normal estándar se observa que un área de $\alpha/2 = 0.05/2 = 0.025$ en la cola superior corresponde a $z_{0.025} = 1.96$. En el ejemplo de Boutique Andina, donde la media muestral es $\bar{x} = 82$, la desviación estándar es $\sigma = 20$, y el tamaño de la muestra es $n = 100$, se obtiene

    $$ \begin{equation} 82 \pm 1.96\frac{20}{\sqrt{100}} \end{equation} $$ $$ \begin{equation} 82 \pm 3.92 \end{equation} $$

    Por tanto, al emplear la expresión (8.1), el margen de error es 3.92 y el intervalo de confianza de $95\%$ va de $82-3.92=78.08$ a $82+3.92=85.92.$ Aunque a menudo se usa un nivel de confi anza de $95\%$, también suelen utilizarse otros niveles, como $90$ y $99\%$. En la tabla 8.1 se muestran los valores de $z_{\alpha/2}$ correspondientes a los niveles de confianza más utilizados. A partir de estos valores y de la expresión (8.1), el intervalo de confianza de $90\%$ en el ejemplo de Boutique Andina es

    $$ \begin{equation} 82 \pm 1.645\frac{20}{\sqrt{100}} \end{equation} $$ $$ \begin{equation} 82 \pm 3.29 \end{equation} $$

    Tabla 8.1 Valores de $z_{\alpha/2}$ para los niveles de confianza más utilizados

    Nivel de confianza $\alpha$ $\alpha/2$ $z_{\alpha/2}$
    90% 0.10 0.05 1.645
    95% 0.05 0.025 1.960
    99% 0.01 0.005 2.576

    Por tanto, para $90\%$ de confianza, el margen de error es $3.29$ y el intervalo de confianza es $82-3.29=78.71$ a $82+3.29=85.29$. De manera similar, el intervalo de $99\%$ es

    $$ \begin{equation} 82 \pm 2.576\frac{20}{\sqrt{100}} \end{equation} $$ $$ \begin{equation} 82 \pm 5.15 \end{equation} $$

    Entonces, para 99% de confi anza el margen de error es $5.15$ y el intervalo de confi anza es $82-5.15=76.85$ a $82+5.15=87.15$.

    Al comparar los resultados para los niveles de $90$, $95$ y $99\%$, es claro que para tener mayor grado de confi anza, el margen de error, y con esto la amplitud del intervalo de confianza, debe ser mayor.

    Consejo práctico

    Si la población sigue una distribución normal, la expresión (8.1) proporciona intervalos de confianza exactos, garantizando que el $95\%$ de ellos contendrán la media poblacional al usarla repetidamente. En situaciones no normales, la aproximación del intervalo de confianza depende de la distribución y del tamaño de la muestra. En general, un tamaño de muestra $\geq 30$ es adecuado, aunque tamaños hasta 15 pueden ser aceptables si la población es simétrica. Para tamaños menores, se debe usar la expresión (8.1) solo con la suposición de aproximada normalidad.

    NOTAS Y COMENTARIOS

    1. En este método de estimación por intervalo, se asume que la desviación estándar poblacional $\sigma$ es conocida. Esta asunción implica tener datos históricos o información previa que permita obtener una estimación precisa de σ antes de tomar la muestra utilizada para estimar la media poblacional. Aunque no implica certeza absoluta sobre σ, garantiza que la estimación de la desviación estándar se realiza antes de la toma de la muestra, evitando utilizar la misma muestra para estimar tanto la media como la desviación estándar poblacionales.
    2. La expresión (8.1) para la estimación por intervalo incluye el tamaño de la muestra $n$ en el denominador. Por lo tanto, si el tamaño de muestra actual resulta en un intervalo demasiado amplio para ser práctico, se sugiere aumentar el tamaño de la muestra. Con un tamaño de muestra mayor, se logra un margen de error menor, un intervalo más estrecho y una mayor precisión en la estimación. Cómo determinar el tamaño necesario de la muestra para alcanzar una precisión específica se aborda en la sección 8.3.

    8.2Media poblacional: $\sigma$ desconocida

    William Sealy Gosset, es el creador de la distribución t. Gosset, que estudió matemáticas en Oxford, trabajaba para Guinness Brewery en Dublín, Irlanda. Desarrolló la distribución t cuando trabajaba sobre materiales a pequeña escala y con experimentos de temperatura
    Se usa la misma muestra para calcular $𝜇$ y $\sigma$. Cuando se utiliza s para estimar $\sigma$, el margen de error y la estimación por intervalo de la media poblacional se basan en una distribución de probabilidad conocida como distribucion t. Aunque el desarrollo matemático de esta última parte del supuesto de que la población muestreada tiene una distribución normal.
    La distribucion *t* depende del parámetro conocido como grados de libertad. Para un grado de libertad es única, como lo es para dos grados o tres grados de libertad, etc. A medida que este número aumenta, la diferencia entre la distribución t y la distribución normal estándar se reduce. La siguiente figura (figura 8.4) muestra las distribuciones t para 10 y 20 grados de libertad y su relación con la distribución de probabilidad normal estándar.

    Figura 8.4 Comparación de la distribución normal estándar con las distribuciones t para 10 y 20 grados de libertad

    In [13]:
    Copied!
    import numpy as np
    import matplotlib.pyplot as plt
    from scipy.stats import t, norm
    
    # Generar datos para las distribuciones t y normal estándar
    x = np.linspace(-6, 6, 80)
    y_t_10 = t.pdf(x, df=10)
    y_t_20 = t.pdf(x, df=20)
    y_normal = norm.pdf(x)
    
    # Crear el gráfico
    plt.figure(figsize=(10, 8))
    plt.plot(x, y_t_10, label='t-distribución 10 grados de libertad', linewidth=2, color='black')
    plt.plot(x, y_t_20, label='t-distribución 20 grados de libertad', linewidth=2, color='green')
    plt.plot(x, y_normal, label='Distribución normal estándar', linestyle='dashed', linewidth=2, color='green')
    
    # Configurar el gráfico
    plt.title('Comparación de Distribuciones t y Normal Estándar')
    plt.grid(False)
    plt.ylim(-0.01, 0.43)
    
    # Añadir etiquetas directamente sobre las líneas
    plt.text(1.3, 0.20, 't-distribución 10 grados de libertad', fontsize=9, color='black')
    plt.text(-5, 0.20, 't-distribución 20 grados de libertad', fontsize=9, color='black')
    plt.text(-1, 0.40, 'Distribución normal', fontsize=9, color='green')
    
    # Establecer el color de fondo
    plt.gca().set_facecolor('#d4f8b7')  
    
    # Pintar el fondo externo del gráfico
    plt.gcf().patch.set_facecolor('#D4F8B7')
    
    # Mostrar el gráfico
    plt.ylabel('Densidad de Probabilidad', fontsize=12)
    plt.legend()
    plt.show()
    
    import numpy as np import matplotlib.pyplot as plt from scipy.stats import t, norm # Generar datos para las distribuciones t y normal estándar x = np.linspace(-6, 6, 80) y_t_10 = t.pdf(x, df=10) y_t_20 = t.pdf(x, df=20) y_normal = norm.pdf(x) # Crear el gráfico plt.figure(figsize=(10, 8)) plt.plot(x, y_t_10, label='t-distribución 10 grados de libertad', linewidth=2, color='black') plt.plot(x, y_t_20, label='t-distribución 20 grados de libertad', linewidth=2, color='green') plt.plot(x, y_normal, label='Distribución normal estándar', linestyle='dashed', linewidth=2, color='green') # Configurar el gráfico plt.title('Comparación de Distribuciones t y Normal Estándar') plt.grid(False) plt.ylim(-0.01, 0.43) # Añadir etiquetas directamente sobre las líneas plt.text(1.3, 0.20, 't-distribución 10 grados de libertad', fontsize=9, color='black') plt.text(-5, 0.20, 't-distribución 20 grados de libertad', fontsize=9, color='black') plt.text(-1, 0.40, 'Distribución normal', fontsize=9, color='green') # Establecer el color de fondo plt.gca().set_facecolor('#d4f8b7') # Pintar el fondo externo del gráfico plt.gcf().patch.set_facecolor('#D4F8B7') # Mostrar el gráfico plt.ylabel('Densidad de Probabilidad', fontsize=12) plt.legend() plt.show()
    No description has been provided for this image

    Como se observa una distribución t con más grados de libertad exhibe menos variabilidad y un mayor parecido con la distribución normal estándar. Note también que la media de toda distribución t es cero.

    Para denotar el área en la cola superior de la distribución t, se le coloca un subíndice. Por ejemplo, así como se usó $z_{0.025}$ para el valor de z, también se usará $t_{0.025}$ para el valor de t que deja en la cola superior de la distribución t. En general, se manejará la notación $t_{\frac{α}{2}}$ para representar el valor de t que deja un área de $\frac{α}{2}$ en la cola superior de la distribución t (figura 8.5).

    Figura 8.5 Distribución t con un área o probabilidad α/2 en la cola superior

    In [14]:
    Copied!
    import numpy as np
    import matplotlib.pyplot as plt
    import scipy.stats as stats
    
    # Parámetros de la distribución t
    grados_libertad = 10
    alfa = 0.05  # Nivel de significancia
    
    # Generar datos para la distribución t
    x = np.linspace(-4, 4, 1000)
    y = stats.t.pdf(x, df=grados_libertad)
    
    # Encontrar el valor crítico para el nivel de significancia alfa/2
    valor_critico = stats.t.ppf(1 - alfa/2, df=grados_libertad)
    
    # Crear el gráfico
    plt.figure(figsize=(8, 6))
    
    # Plotear la línea
    plt.plot(x, y, color='#5CCB5f', label=f'Distribución t con {grados_libertad} grados de libertad')
    
    # Resaltar el área en la cola superior con fondo verde
    x_fill = np.linspace(valor_critico, 4, 100)
    y_fill = stats.t.pdf(x_fill, df=grados_libertad)
    plt.fill_between(x_fill, y_fill, color='green', alpha=0.3, label=f'Área de probabilidad {alfa/2} en la cola superior', edgecolor='black')
    
    # Calcular la altura del área resaltada
    altura_area_resaltada = np.max(y_fill)
    
    # Marcar el valor crítico en el eje x y ajustar la línea a la altura del área resaltada
    plt.axvline(valor_critico, ymax=altura_area_resaltada, color='green', linestyle='-', label=f'Valor crítico: {valor_critico:.2f}')
    
    # Añadir etiquetas y leyenda
    plt.title('Distribución t con Área de Probabilidad en la Cola Superior')
    plt.xlabel('X')
    plt.ylabel('Densidad de Probabilidad')
    plt.legend()
    
    # Establecer el color de fondo
    plt.gca().set_facecolor('#d4f8b7')  
    
    # Pintar el fondo externo del gráfico
    plt.gcf().set_facecolor('#D4F8B7')
    
    # Mostrar el gráfico
    plt.grid(False)
    plt.show()
    
    import numpy as np import matplotlib.pyplot as plt import scipy.stats as stats # Parámetros de la distribución t grados_libertad = 10 alfa = 0.05 # Nivel de significancia # Generar datos para la distribución t x = np.linspace(-4, 4, 1000) y = stats.t.pdf(x, df=grados_libertad) # Encontrar el valor crítico para el nivel de significancia alfa/2 valor_critico = stats.t.ppf(1 - alfa/2, df=grados_libertad) # Crear el gráfico plt.figure(figsize=(8, 6)) # Plotear la línea plt.plot(x, y, color='#5CCB5f', label=f'Distribución t con {grados_libertad} grados de libertad') # Resaltar el área en la cola superior con fondo verde x_fill = np.linspace(valor_critico, 4, 100) y_fill = stats.t.pdf(x_fill, df=grados_libertad) plt.fill_between(x_fill, y_fill, color='green', alpha=0.3, label=f'Área de probabilidad {alfa/2} en la cola superior', edgecolor='black') # Calcular la altura del área resaltada altura_area_resaltada = np.max(y_fill) # Marcar el valor crítico en el eje x y ajustar la línea a la altura del área resaltada plt.axvline(valor_critico, ymax=altura_area_resaltada, color='green', linestyle='-', label=f'Valor crítico: {valor_critico:.2f}') # Añadir etiquetas y leyenda plt.title('Distribución t con Área de Probabilidad en la Cola Superior') plt.xlabel('X') plt.ylabel('Densidad de Probabilidad') plt.legend() # Establecer el color de fondo plt.gca().set_facecolor('#d4f8b7') # Pintar el fondo externo del gráfico plt.gcf().set_facecolor('#D4F8B7') # Mostrar el gráfico plt.grid(False) plt.show()
    No description has been provided for this image

    En la tabla 8.2 se muestra una parte de la distribucion t. Cada fila corresponde a una distribución t distinta con los grados de libertad que se indican. Por ejemplo, en la distribución t con 9 grados de libertad, $t_{0.025}=2.262$ . De manera similar, en la distribución t con 60 grados de libertad, $t_{0.025}=2.000$ . A medida que estos grados aumentan, $t_{0.025}$ se aproxima a $z_{0.025}=1.96$ El valor z de la distribución normal estándar se encuentra en la fila correspondiente a infinitos grados de libertad (etiquetado como ∞ ) de la tabla de distribuciones t. Si los grados de libertad son más de 100, se puede usar la fila correspondiente a infinitos grados para aproximar el verdadero valor de t; en otras palabras, para más de 100 grados de libertad, el valor z normal estándar proporciona una buena aproximación del valor t

    TABLA 8.2 Valores seleccionados de la tabla de distribución t*

    Grados de libertad Área en la cola superior
    0.20 0.10 0.05 0.025 0.01 0.005
    1 1.376 3.078 6.314 12.706 31.821 63.656
    2 1.061 1.886 2.920 4.303 6.965 9.925
    3 0.978 1.638 2.353 3.182 4.541 5.841
    4 0.941 1.533 2.132 2.776 3.747 4.604
    5 0.920 1.476 2.015 2.571 3.365 4.032
    6 0.906 1.440 1.943 2.447 3.143 3.707
    7 0.896 1.415 1.895 2.365 2.998 3.499
    8 0.889 1.397 1.860 2.306 2.896 3.355
    9 0.883 1.383 1.833 2.262 2.821 3.250
    … … … … … … …
    60 0.848 1.296 1.671 2.000 2.390 2.660
    61 0.848 1.296 1.670 2.000 2.389 2.659
    62 0.847 1.295 1.670 1.999 2.388 2.657
    63 0.847 1.295 1.669 1.998 2.387 2.656
    64 0.847 1.295 1.669 1.998 2.386 2.655
    65 0.847 1.295 1.669 1.997 2.385 2.654
    66 0.847 1.295 1.668 1.997 2.384 2.652
    67 0.847 1.294 1.668 1.996 2.383 2.651
    68 0.847 1.294 1.668 1.995 2.382 2.650
    69 0.847 1.294 1.667 1.995 2.382 2.649
    … … … … … … …
    90 0.846 1.291 1.662 1.987 2.368 2.632
    91 0.846 1.291 1.662 1.986 2.368 2.631
    92 0.846 1.291 1.662 1.986 2.368 2.630
    93 0.846 1.291 1.661 1.986 2.367 2.630
    94 0.845 1.291 1.661 1.986 2.367 2.629
    95 0.845 1.291 1.661 1.985 2.366 2.629
    96 0.845 1.290 1.661 1.985 2.366 2.628
    97 0.845 1.290 1.661 1.985 2.365 2.627
    98 0.845 1.290 1.661 1.984 2.365 2.627
    99 0.845 1.290 1.660 1.984 2.364 2.626
    100 0.845 1.290 1.660 1.984 2.364 2.626
    ∞ 0.842 1.282 1.645 1.960 2.326 2.576

    Margen de error y estimación por intervalo
    ¶

    Para calcular una estimación por intervalo de $𝜇$ cuando no se conoce $σ$, se usa la desviación estándar muestral s para estimar $σ$, y $z_{\frac{α}{2}}$ se sustituye por el valor $t_{\frac{α}{2}}$ de la distribución t. El margen de error está dado, entonces, por $t_{\frac{α}{2}}$ $\frac{s}{\sqrt{n}}$. Con este margen, la expresión general para una estimación por intervalo de la media poblacional cuando σ no se conoce es la siguiente.

    ESTIMACIÓN POR INTERVALO DE LA MEDIA POBLACIONAL: σ DESCONOCIDA

    $$ \bar{x} \pm t_{α/2} \frac{s}{\sqrt{n}}\tag{8.2}$$

    Donde:

    s es la desviación estándar muestral.

    ($1-\alpha$) es el coeficiente de confianza y $t_{α/2}$ es el valor de t que proporciona un área ${α/2}$ en la cola superior de la distribución t con $n - 1$ grados de libertad.

    El número de grados de libertad (n-1) para el valor de t en la expresión (8.2) se debe al uso de s como estimación de la desviación estándar poblacional $σ$. La expresión para calcular la desviación estándar muestral es

    $$ s=\sqrt{\frac{Σ(x_{i}-\bar{x})^2}{n-1}}$$

    Los grados de libertad se refieren al número de valores independientes en el cálculo de $Σ(x_{i}-\bar{x})^2$ es decir $x_{1}-\bar{x},x_{2}-\bar{x},⋯,x_{n}-\bar{x}$ Se había indicado que en cualquier conjunto de datos $Σ(x_{i}-\bar{x})^2=0$. Por tanto, únicamente n -1 de los valores $x_{i}-\bar{x}$ son independientes; si (n-1) valores se conocen, el restante puede determinarse con la condicion que $x_{i}-\bar{x}$ sume $0$

    Para ilustrar la estimación por intervalo en el caso de $σ$ desconocida, se considerará un estudio realizado para estimar la media del adeudo en las tarjetas de crédito en la población de familias de Boliva. En la tabla 8.3 se presentan los saldos en las tarjetas de crédito de una muestra de n = 70 familias.

    Tabla 8.3 Saldos en las tarjetas de crédito de una muestra de 70 familias

    9430 14661 7159 9071 9691 11032
    7535 12195 8137 3603 11448 6525
    4078 10544 9467 16804 8279 5239
    5604 13659 12595 13479 5649 6195
    5179 7061 7917 14044 11298 12584
    4416 6245 11346 6817 4353 15415
    10676 13021 12806 6845 3467 15917
    1627 9719 4972 10493 6191 12591
    10112 2200 11356 615 12851 9743
    6567 10746 7117 13627 5337 10324
    13627 12744 9465 12557 8372
    18719 5742 19263 6232

    En esta ocasión no se cuenta con una estimación previa de la desviación estándar poblacional $σ$. Por tanto, deberán utilizarse los datos muestrales para estimar tanto la media como la desviación estándar poblacionales. Con los datos de la tabla 8.3 calculamos la media muestral $\bar{x}=9 312$ Bs. y la desviación estándar muestral $s=4 007$ Bs. Con 95% de confianza y n-1 = 69 grados de libertad podemos usar la tabla 8.2 para obtener el valor apropiado de $t_{0.025}$ El valor de t que se necesita está en la fila que indica 69 grados de libertad y en la columna correspondiente a 0.025 en la cola superior. El valor que se encuentra en $t_{0.025} =1.995$.

    Con la expresión (8.2) para calcular la estimación por intervalo de la media poblacional de los saldos en las tarjetas de crédito tenemos:

    $$9312±1.995\frac{4007}{\sqrt{70}}$$

    $$9312±995$$

    La estimación puntual de la media poblacional es 9312 Bs , el margen de error es 955 Bs y el intervalo de confianza de 95% va de $9312-955=8 357$ Bs a $9 312 + 955 = 10 267 $ Bs

    En consecuencia,se tiene 95% de confianza de que la media de los saldos en las tarjetas de crédito de la población de todas las familias está entre 8357 Bs y 10 267 Bs.

    Consejo Práctico
    ¶

    • Si la población tiene una distribución normal, el intervalo de confianza suministrado en la expresión (8.2) es exacto y se puede usar con cualquier tamaño de muestra.
    • Si la población no sigue una distribución normal, el intervalo de confianza en la expresión (8.2) será aproximado. En este caso la calidad de la aproximación depende tanto de la distribución de la población como del tamaño de la muestra.

    En la mayoría de las aplicaciones, un tamaño de muestra $n\geq30$ es suficiente al usar la expresión (8.2) para obtener una estimación por intervalo de la media poblacional. Sin embargo,si la distribución de la población es muy sesgada o si hay observaciones atípicas, se recomienda un tamaño de muestra de 50 o más. Si la población no tiene una distribución normal pero es más o menos simétrica, con un tamaño de muestra de 15 puede esperarse una buena aproximación al intervalo de confianza. Con muestras más pequeñas la expresión (8.2) sólo debe usarse si el analista cree, o está dispuesto a suponer, que la distribución de la población es por lo menos aproximadamente normal.

    Uso de una muestra pequeña
    ¶

    En el ejemplo siguiente se desarrolla una estimación por intervalo para una media poblacional manejando una muestra pequeña. Como ya se indicó, conocer la distribución de la población es importante para decidir si mediante una estimación por intervalo se obtendrán resultados aceptables. Wiltech considera un nuevo programa asistido por computadora destinado a capacitar a los empleados de mantenimiento para reparar las máquinas. Con objeto de evaluar este programa, el director de manufactura solicita una estimación de la media poblacional del tiempo requerido para que los empleados de mantenimiento completen la capacitación asistida por computadora. Considere una muestra de 20 individuos que siguen el programa de capacitación. En la tabla 8.4 se muestran los datos del tiempo, en días, que necesitó cada uno para completar el programa.


    Figura 8.6 Intervalo de confianza para el estudio de los saldos en las tarjetas de crédito
    <
    Variable N Media Desviación Estándar Error Estándar de la Media Intervalo de za
    NewBalance 70 9,312 4,007 479 (8,357, 10,267

    TABLA 8.4 Duración de la capacitación, en días, para la muestra de 20 empleados de Wiltech

    52 59 54 42
    44 50 42 48
    55 54 60 55
    44 62 62 57
    45 46 43 56

    En la figura 8.7 aparece un histograma de los datos. Con base en éste, ¿qué se puede decir de la distribución de la población?
    Figura 8.7 Histograma sobre la duración de la capacitación en la muestra de Wiltech

    In [15]:
    Copied!
    import matplotlib.pyplot as plt
    
    # Datos proporcionados
    duraciones = [40, 45, 50, 55, 60, 65]
    frecuencias = [5, 3, 4, 5, 3]
    
    # Crear figura
    fig, ax = plt.subplots()
    
    # Crear histograma con color personalizado
    ax.bar(duraciones[:-1], frecuencias, width=5, edgecolor='black', color='#5ccb5f')
    
    # Configurar etiquetas y título
    ax.set_xlabel('Duración de capacitación (días)')
    ax.set_ylabel('Frecuencia')
    ax.set_title('Histograma de Duración de Capacitación')
    
    # Ajustar el color de fondo
    ax.set_facecolor("#d4f8b7")
    # Pintar el fondo externo del gráfico
    fig.patch.set_facecolor('#D4F8B7')
    
    # Agregar borde externo
    for spine in ax.spines.values():
        spine.set_edgecolor('#009929')
    
    # Mostrar el histograma
    plt.show()
    
    import matplotlib.pyplot as plt # Datos proporcionados duraciones = [40, 45, 50, 55, 60, 65] frecuencias = [5, 3, 4, 5, 3] # Crear figura fig, ax = plt.subplots() # Crear histograma con color personalizado ax.bar(duraciones[:-1], frecuencias, width=5, edgecolor='black', color='#5ccb5f') # Configurar etiquetas y título ax.set_xlabel('Duración de capacitación (días)') ax.set_ylabel('Frecuencia') ax.set_title('Histograma de Duración de Capacitación') # Ajustar el color de fondo ax.set_facecolor("#d4f8b7") # Pintar el fondo externo del gráfico fig.patch.set_facecolor('#D4F8B7') # Agregar borde externo for spine in ax.spines.values(): spine.set_edgecolor('#009929') # Mostrar el histograma plt.show()
    No description has been provided for this image
    • Primero, con base en los datos muestrales, no es posible concluir que la población sea normal, si bien no se tienen evidencias de sesgo o de observaciones atípicas. Por tanto, mediante los lineamientos de la subsección anterior, se concluye que una estimación por intervalo basada en la distribución t parece ser aceptable para esta muestra de 20 empleados.

    A continuación se calcula la media muestral y la desviación estándar muestral. $$\bar{x}=\frac{Σx_{i}}{n}=\frac{1030}{20}=51.5 días$$

    $$s=\sqrt{\frac{Σ(x_{i}-\bar{x})^2}{n-1}}=\sqrt{\frac{889}{20-1}}=6.84 días$$ Para dar un intervalo de confianza de 95%, se usa la tabla 8.2 con $n-1=19$ grados de libertad y se obtiene $t_{0.025}=2.093$. La expresión (8.2) suministra la estimación por intervalo de la media poblacional. $$51.5 ± 2.093(\frac{6.84}{\sqrt{20}})$$ $$51.5 ± 3.2$$ La estimación puntual de la media poblacional es 51.5 días. El margen de error es 3.2 días y el intervalo de confianza de 95% va de $51.5 - 3.2 = 48.3$ días a $51.5 + 3.2 = 54.7$ días. Usar un histograma de los datos muestrales para tener información acerca de la distribución de la población no es siempre concluyente, pero en muchos casos es la única información disponible. El histograma, junto con la opinión del analista, suele utilizarse para decidir si es adecuado usar la expresión (8.2) para obtener una estimación por intervalo.

    Resumen de los procedimientos de estimación por intervalo
    ¶

    Se presentaron dos métodos para calcular una estimación por intervalo de la media poblacional.

    • En el caso en que σ es conocida, en la expresión (8.1) se usan σ y la distribución normal estándar para calcular el margen de error y la estimación por intervalo.
    • En el caso en que $σ$ no es conocida, en la expresión (8.2) se utilizan la desviación estándar muestral s y la distribución t para calcular el margen de error y desarrollar la estimación por intervalo.

    A continuacion se presenta un resumen de los procedimientos para la estimación por intervalo de los dos casos. En la mayoría de las aplicaciones, un tamaño de muestra $n\geq30$ es adecuado. Sin embargo, si la población tiene distribución normal o aproximadamente normal
    FIGURA 8.8 Resumen de los procedimientos para la estimación por intervalo de la media poblacional

    NOTAS Y COMENTARIOS
    ¶

    1. En los casos en que conoce $σ$, el margen de error, $z_{α/2}(σ/\sqrt{n})$, es fijo y es el mismo para todas las muestras de tamaño n. Cuando σ no se conoce, el margen de error, $t_{α/2}(s/\sqrt{n})$, varía de una muestra a otra. Esta variación se debe a que la desviación estándar muestral s cambia de acuerdo con la muestra que se seleccione. Si s es grande, se obtiene un margen de error mayor, mientras que si s es pequeña, se obtiene un margen de error menor.
    2. ¿Qué sucede con las estimaciones por intervalo cuando la población es sesgada? Considere una población sesgada a la derecha en la cual los datos con valores grandes jalan la distribución hacia esa dirección. Cuando existe un sesgo así, hay una correlación positiva entre la media muestral $\bar{x}$ y la desviación estándar muestral s. Valores mayores de s tienden a corresponderse con valores mayores de $\bar{x}$ De esta manera, cuando x es mayor que la media poblacional, s tiende a ser mayor que σ. Este sesgo hace que el margen de error, $t_{α/2}(s/\sqrt{n})$ sea mayor de lo que sería si se conociera $σ$. Un intervalo de confianza con un margen de error mayor tenderá a incluir con más frecuencia la media poblacional $𝜇$ que si se usara el verdadero valor $σ$. Pero cuando $\bar{x}$ es menor que la media poblacional, la correlación entre $\bar{x}$ y s hace que el margen de error sea más pequeño. En este caso, dichos intervalos de confianza con menor margen de error incluirán la media poblacional menos veces que si se conociera y se usara σ. Por esta razón se recomienda usar tamaños de muestra más grandes cuando la distribución de la población es muy sesgada.

    Ejercicios
    ¶

    Metodos¶

    1. En la distribución t con 16 grados de libertad, encuentre el área, o la probabilidad, de cada una de las regiones siguientes. a) A la derecha de 2.120

    b) A la izquierda de 1.337

    c) A la izquierda de -1.746

    d) A la derecha de 2.583

    e) Entre -2.120 y 2.120

    f ) Entre -1.746 y 1.746

    In [ ]:
    Copied!
    from scipy.stats import t
    
    grados_libertad = 16
    
    # a) A la derecha de 2.120
    area_a = t.sf(2.120, df=grados_libertad)
    print("a) A la derecha de 2.120:", area_a)
    
    # b) A la izquierda de 1.337
    area_b = t.cdf(1.337, df=grados_libertad)
    print("b) A la izquierda de 1.337:", area_b)
    
    # c) A la izquierda de -1.746
    area_c = t.cdf(-1.746, df=grados_libertad)
    print("c) A la izquierda de -1.746:", area_c)
    
    # d) A la derecha de 2.583
    area_d = t.sf(2.583, df=grados_libertad)
    print("d) A la derecha de 2.583:", area_d)
    
    # e) Entre -2.120 y 2.120
    area_e = t.cdf(2.120, df=grados_libertad) - t.cdf(-2.120, df=grados_libertad)
    print("e) Entre -2.120 y 2.120:", area_e)
    
    # f) Entre -1.746 y 1.746
    area_f = t.cdf(1.746, df=grados_libertad) - t.cdf(-1.746, df=grados_libertad)
    print("f) Entre -1.746 y 1.746:", area_f)
    
    from scipy.stats import t grados_libertad = 16 # a) A la derecha de 2.120 area_a = t.sf(2.120, df=grados_libertad) print("a) A la derecha de 2.120:", area_a) # b) A la izquierda de 1.337 area_b = t.cdf(1.337, df=grados_libertad) print("b) A la izquierda de 1.337:", area_b) # c) A la izquierda de -1.746 area_c = t.cdf(-1.746, df=grados_libertad) print("c) A la izquierda de -1.746:", area_c) # d) A la derecha de 2.583 area_d = t.sf(2.583, df=grados_libertad) print("d) A la derecha de 2.583:", area_d) # e) Entre -2.120 y 2.120 area_e = t.cdf(2.120, df=grados_libertad) - t.cdf(-2.120, df=grados_libertad) print("e) Entre -2.120 y 2.120:", area_e) # f) Entre -1.746 y 1.746 area_f = t.cdf(1.746, df=grados_libertad) - t.cdf(-1.746, df=grados_libertad) print("f) Entre -1.746 y 1.746:", area_f)
    1. Encuentre los valores de t para las situaciones siguientes.

    a) Un área de 0.025 en la cola superior, con 12 grados de libertad.

    b) Un área de 0.05 en la cola inferior, con 50 grados de libertad.

    c) Un área de 0.01 en la cola superior, con 30 grados de libertad.

    d) Entre los que queda 90% del área, con 25 grados de libertad.

    e) Entre los que queda 95% del área, con 45 grados de libertad.

    In [16]:
    Copied!
    from scipy.stats import t
    
    # a) Un área de 0.025 en la cola superior, con 12 grados de libertad.
    t_a = round(t.ppf(1 - 0.025, df=12), 3)
    print("a) Valor de t:", t_a)
    
    # b) Un área de 0.05 en la cola inferior, con 50 grados de libertad.
    t_b = round(t.ppf(0.05, df=50), 3)
    print("b) Valor de t:", t_b)
    
    # c) Un área de 0.01 en la cola superior, con 30 grados de libertad.
    t_c = round(t.ppf(1 - 0.01, df=30), 3)
    print("c) Valor de t:", t_c)
    
    # d) Entre los que queda 90% del área, con 25 grados de libertad.
    t_d_lower = round(t.ppf(0.05, df=25), 3)
    t_d_upper = round(t.ppf(0.95, df=25), 3)
    print("d) Valores de t:", t_d_lower, t_d_upper)
    
    # e) Entre los que queda 95% del área, con 45 grados de libertad.
    t_e_lower = round(t.ppf(0.025, df=45), 3)
    t_e_upper = round(t.ppf(0.975, df=45), 3)
    print("e) Valores de t:", t_e_lower, t_e_upper)
    
    from scipy.stats import t # a) Un área de 0.025 en la cola superior, con 12 grados de libertad. t_a = round(t.ppf(1 - 0.025, df=12), 3) print("a) Valor de t:", t_a) # b) Un área de 0.05 en la cola inferior, con 50 grados de libertad. t_b = round(t.ppf(0.05, df=50), 3) print("b) Valor de t:", t_b) # c) Un área de 0.01 en la cola superior, con 30 grados de libertad. t_c = round(t.ppf(1 - 0.01, df=30), 3) print("c) Valor de t:", t_c) # d) Entre los que queda 90% del área, con 25 grados de libertad. t_d_lower = round(t.ppf(0.05, df=25), 3) t_d_upper = round(t.ppf(0.95, df=25), 3) print("d) Valores de t:", t_d_lower, t_d_upper) # e) Entre los que queda 95% del área, con 45 grados de libertad. t_e_lower = round(t.ppf(0.025, df=45), 3) t_e_upper = round(t.ppf(0.975, df=45), 3) print("e) Valores de t:", t_e_lower, t_e_upper)
    a) Valor de t: 2.179
    b) Valor de t: -1.676
    c) Valor de t: 2.457
    d) Valores de t: -1.708 1.708
    e) Valores de t: -2.014 2.014
    

    8.3Determinación del tamaño de la muestra

    En esta seccion se presenta un procedimiento para determinar el tamaño de muestra que se necesita para teer un margen de error especifico establecido antes de tomar la muestra.
    En los consejos prácticos de las dos secciones anteriores se habló del papel del tamaño de la muestra para obtener una buena aproximación a los intervalos de confi anza en los casos en que la población no tiene una distribución normal. Ahora se enfoca la atención en otro aspecto relacionado con el tamaño de la muestra, y se describe cómo elegir un tamaño sufi cientemente grande para obtener un margen de error deseado. Para explicar esto, se vuelve al caso de la sección 8.1 en el que se tenía una σ conocida. Con la expresión (8.1), el intervalo de estimación está dado por:
    $$ \bar{x} \pm t_{α/2} \frac{s}{\sqrt{n}}$$
        

    La ecuacion(8.3) proporciona una buena recomendacion del tamaño de la muestra. Sin embargo, la opinion del analista cuenta para determinar si el tamaño de muestra final debe ajustarse hacia arriba.

    La cantidad \( z_{\alpha/2} \left( \frac{\sigma}{\sqrt{n}} \right) \) es el margen de error. De manera que, como se ve, \( z_{\alpha/2} \), la desviación estándar poblacional \( \sigma \), y el tamaño de la muestra \( n \) se combinan para determinar el margen de error. Una vez que se selecciona el coeficiente de confianza \(1 - \alpha\), \( z_{\alpha/2} \) puede ser determinado. Por tanto, si se tiene el valor de \( \sigma \), es posible encontrar el tamaño de muestra \( n \) necesario para proporcionar cualquier margen de error deseado. A continuación se presenta el desarrollo de la fórmula utilizada para calcular el tamaño \( n \) de muestra deseado.

    Sea E = el margen de error deaseado:

    $$ E = z_{\alpha/2} \left( \frac{\sigma}{\sqrt{n}} \right) $$

    Al despejar \( \sqrt{n} \) tenemos

    $$ \sqrt{n} = \left( \frac{z_{\frac{\alpha}{2}} \sigma}{E} \right) $$

    Al elevar al cuadrado ambos lados de esta ecuación, se obtiene la expresión siguiente para el tamaño de la muestra.

    TAMAÑO DE LA MUESTRA PARA UNA ESTIMACIÓN POR INTERVALO DE LA MEDIA POBLACIONAL

    $$ n = \left( \frac{(z_{\frac{\alpha}{2}})^2 \sigma} {E^2}^2 \right)\tag{8,3}$$

    Este tamaño de muestra proporciona el margen de error deseado al nivel de confianza elegido. En la ecuación (8.3), \( E \) es el margen de error que el usuario está dispuesto a aceptar, y el valor \( z_{\alpha/2} \) es consecuencia directa del nivel de confianza que se utilizará para calcular la estimación por intervalo. A reserva de la decisión del usuario, el 95% de confianza es el valor más frecuentemente elegido (\( z_{0.025} \approx 1.96 \)).

    Por último, para usar la ecuación (8.3) es necesario contar con el valor de la desviación estándar poblacional \( \sigma \). Sin embargo, aun cuando este valor no se conozca, puede utilizarse la ecuación (8.3) siempre que se tenga un valor preliminar o un valor planeado de \( \sigma \). En la práctica, suele usarse alguno de los procedimientos siguientes para obtenerlo.

    El valor planeado de la desviacion estandar poblacional o debe especificarse antes de determinar el tamaño de la muestra. Aqui se ofrecen tres metodos para obtener este valor planeado de \(\sigma\)

  1. Se utiliza como valor planeado de \( \sigma \) una estimación de la desviación estándar poblacional calculada a partir de datos de estudios anteriores.
  2. Se opta por un estudio piloto seleccionando una muestra preliminar. La desviación estándar muestral obtenida de la muestra preliminar puede usarse como valor planeado de \( \sigma \).
  3. Se usa el juicio personal para “adivinar el mejor” valor de \( \sigma \). Por ejemplo, se puede empezar por estimar el mayor y el menor valor en los datos de la población. La diferencia entre ambos valores proporciona una estimación del rango de los datos. Por último, este valor dividido entre 4 suele considerarse como una aproximación burda a la desviación estándar y tomarse como un valor planeado aceptable de \( \sigma \).
  4.     
        

    Se considera el ejemplo siguiente para mostrar el uso de la ecuación (8.3) en la determinación del tamaño de la muestra. En un estudio previo para investigar el costo de la renta de automóviles en Bolivia se encontró que el costo medio de rentar un vehículo mediano era aproximadamente de 200Bs por día. Suponga que la organización que realizó dicho estudio quiere realizar otro para estimar la media poblacional del costo de las rentas por día de automóviles medianos en Bolivia.

    Al diseñar el nuevo estudio, el director del proyecto especificó que la media poblacional de las rentas por día debe estimarse con un margen de error de 2Bs y que se desea un nivel de 95% de confianza. El director del proyecto especificó un margen de error deseable de \( E = 2 \), y el nivel de confianza del 95% indica que \( z_{0.025} \approx 1.96 \). Por tanto, sólo falta el valor planeado de la desviación estándar poblacional \( \sigma \) para calcular el tamaño de muestra deseado. En este punto, un analista revisó los datos muestrales del estudio anterior y encontró que la desviación estándar muestral del costo de la renta diaria era 9.65Bs. Al utilizar 9.65Bs como valor planeado de \( \sigma \), tenemos:

    \(n = \left( \frac{(z_{\frac{\alpha}{2}})^2 \sigma} {E^2}^2 \right)\)

    \( n = \frac{(1.96)^2 \cdot (9.65)^2}{(2)^2} \approx 89.43 \)

    De esta manera, el tamaño de muestra necesario para obtener un margen de error de 2Bs debe ser de por lo menos 89.43 rentas de automóviles medianos. En casos como éste, en los que el valor de \( n \) no es un número entero, se redondea al siguiente valor entero; así que el tamaño de muestras que se aconseja es 90 rentas de automóviles medianos.

    Ahora resolvemos el ejemplo anterior con python

    In [11]:
    Copied!
    import math
    
    # Datos dados
    E = 2  # Margen de error deseado
    confianza = 0.95  # Nivel de confianza
    z = 1.96  # Valor crítico para el nivel de confianza del 95%
    sigma = 9.65  # Desviación estándar muestral
    
    # Calcular el tamaño de muestra
    n = math.ceil((z ** 2 * sigma ** 2) / E ** 2)
    
    print(f"Tamaño de muestra necesario: {n}")
    #redondeando el resultado seria 90
    
    import math # Datos dados E = 2 # Margen de error deseado confianza = 0.95 # Nivel de confianza z = 1.96 # Valor crítico para el nivel de confianza del 95% sigma = 9.65 # Desviación estándar muestral # Calcular el tamaño de muestra n = math.ceil((z ** 2 * sigma ** 2) / E ** 2) print(f"Tamaño de muestra necesario: {n}") #redondeando el resultado seria 90
    Tamaño de muestra necesario: 90
    

    $Ejercicios$
    ¶

    $Métodos$

    1. ¿Qué tan grande debe seleccionarse una muestra para tener un intervalo de confianza de 95% con un margen de error de 10? Suponga que la desviación estándar poblacional es 40.

    In [10]:
    Copied!
    import math
    
    # Datos dados
    confianza = 0.95  # Nivel de confianza
    z= 1.96  # Valor crítico para el nivel de confianza del 95%
    sigma = 40  # Desviación estándar poblacional
    E = 10  # Margen de error deseado
    
    # Calcular el tamaño de muestra
    n = math.ceil((z ** 2 * sigma ** 2) / E ** 2)
    
    print(f"Tamaño de muestra necesario: {n}")
    
    import math # Datos dados confianza = 0.95 # Nivel de confianza z= 1.96 # Valor crítico para el nivel de confianza del 95% sigma = 40 # Desviación estándar poblacional E = 10 # Margen de error deseado # Calcular el tamaño de muestra n = math.ceil((z ** 2 * sigma ** 2) / E ** 2) print(f"Tamaño de muestra necesario: {n}")
    Tamaño de muestra necesario: 62
    

    2. En un conjunto de datos se estima que el rango es 36.

    a) Valor planeado para la desviación estándar poblacional
    b) Tamaño de muestra para un margen de error de 3 en un intervalo de confianza del 95%
    c) Tamaño de muestra para un margen de error de 2 en un intervalo de confianza del 95%
    In [9]:
    Copied!
    import math
    
    # Datos dados
    rango = 36
    confianza = 0.95
    margen_error_1 = 3
    margen_error_2 = 2
    
    # a) Calcular la desviación estándar poblacional
    sigma = rango / 6
    
    # b) Calcular el tamaño de la muestra para un margen de error de 3
    z = 1.96  # para un intervalo de confianza del 95%
    n1 = math.ceil((z * sigma / margen_error_1) ** 2)
    
    # c) Calcular el tamaño de la muestra para un margen de error de 2
    n2 = math.ceil((z * sigma / margen_error_2) ** 2)
    
    # Mostrar resultados
    print(f"a) Valor planeado para la desviación estándar poblacional: {sigma}")
    print(f"b) Tamaño de muestra para margen de error 3: {n1}")
    print(f"c) Tamaño de muestra para margen de error 2: {n2}")
    
    import math # Datos dados rango = 36 confianza = 0.95 margen_error_1 = 3 margen_error_2 = 2 # a) Calcular la desviación estándar poblacional sigma = rango / 6 # b) Calcular el tamaño de la muestra para un margen de error de 3 z = 1.96 # para un intervalo de confianza del 95% n1 = math.ceil((z * sigma / margen_error_1) ** 2) # c) Calcular el tamaño de la muestra para un margen de error de 2 n2 = math.ceil((z * sigma / margen_error_2) ** 2) # Mostrar resultados print(f"a) Valor planeado para la desviación estándar poblacional: {sigma}") print(f"b) Tamaño de muestra para margen de error 3: {n1}") print(f"c) Tamaño de muestra para margen de error 2: {n2}")
    a) Valor planeado para la desviación estándar poblacional: 6.0
    b) Tamaño de muestra para margen de error 3: 16
    c) Tamaño de muestra para margen de error 2: 35
    

    $Aplicaciones$

    3. Según el informe del Ministro del 3 de febrero de 2006, el costo promedio de un galón de gasolina sin plomo en Greater Cincinnati es 2.41Bs.

    Se asume que la desviación estándar en los precios del galón de gasolina sin plomo es de 0.15Bs.

    a) Margen de error requerido: 0.07Bs
    b) Margen de error deseado: 0.05Bs
    c) Margen de error requerido: 0.03Bs
    In [6]:
    Copied!
    import math
    
    # Datos dados
    promedio = 2.41
    desviacionestandar = 0.15
    nivelconfianza = 0.95
    
    # a) Margen de error requerido: $0.07
    margenerror1 = 0.07
    z = 1.96  # para un intervalo de confianza del 95%
    n1 = math.ceil((z * desviacionestandar / margenerror1) ** 2)
    
    # b) Margen de error deseado: $0.05
    margenerror2 = 0.05
    n2 = math.ceil((z * desviacionestandar / margenerror2) ** 2)
    
    # c) Margen de error requerido: $0.03
    margenerror3 = 0.03
    n3 = math.ceil((z * desviacionestandar / margenerror3) ** 2)
    
    # Mostrar resultados
    print(f"a) Tamaño de muestra para margen de error $0.07: {n1}")
    print(f"b) Tamaño de muestra para margen de error $0.05: {n2}")
    print(f"c) Tamaño de muestra para margen de error $0.03: {n3}")
    
    import math # Datos dados promedio = 2.41 desviacionestandar = 0.15 nivelconfianza = 0.95 # a) Margen de error requerido: $0.07 margenerror1 = 0.07 z = 1.96 # para un intervalo de confianza del 95% n1 = math.ceil((z * desviacionestandar / margenerror1) ** 2) # b) Margen de error deseado: $0.05 margenerror2 = 0.05 n2 = math.ceil((z * desviacionestandar / margenerror2) ** 2) # c) Margen de error requerido: $0.03 margenerror3 = 0.03 n3 = math.ceil((z * desviacionestandar / margenerror3) ** 2) # Mostrar resultados print(f"a) Tamaño de muestra para margen de error $0.07: {n1}") print(f"b) Tamaño de muestra para margen de error $0.05: {n2}") print(f"c) Tamaño de muestra para margen de error $0.03: {n3}")
    a) Tamaño de muestra para margen de error $0.07: 18
    b) Tamaño de muestra para margen de error $0.05: 35
    c) Tamaño de muestra para margen de error $0.03: 97
    

    4. Los tiempos requeridos para transportarse al trabajo en La Paz se han consignado en el 2003 El imforme de la alcaldia .

    Supongamos que se utiliza una muestra aleatoria simple preliminar de los habitantes de San Francisco con el fin de establecer un valor planeado de 6.25 minutos para la desviación estándar poblacional.

    a) Margen de error de 2 minutos
    b) Margen de error de 1 minuto
    In [8]:
    Copied!
    import math
    
    # Datos dados
    desviacion_estandar = 6.25
    nivel_confianza = 0.95
    
    # a) Margen de error de 2 minutos
    margen_error_1 = 2
    z1 = 1.96
    n1 = math.ceil((z1 * desviacion_estandar / margen_error_1) ** 2)
    
    # b) Margen de error de 1 minuto
    margen_error_2 = 1
    z2 = 1.96
    n2 = math.ceil((z2 * desviacion_estandar / margen_error_2) ** 2)
    
    # Mostrar resultados
    print(f"a) Tamaño de muestra para margen de error de 2 minutos: {n1}")
    print(f"b) Tamaño de muestra para margen de error de 1 minuto: {n2}")
    
    import math # Datos dados desviacion_estandar = 6.25 nivel_confianza = 0.95 # a) Margen de error de 2 minutos margen_error_1 = 2 z1 = 1.96 n1 = math.ceil((z1 * desviacion_estandar / margen_error_1) ** 2) # b) Margen de error de 1 minuto margen_error_2 = 1 z2 = 1.96 n2 = math.ceil((z2 * desviacion_estandar / margen_error_2) ** 2) # Mostrar resultados print(f"a) Tamaño de muestra para margen de error de 2 minutos: {n1}") print(f"b) Tamaño de muestra para margen de error de 1 minuto: {n2}")
    a) Tamaño de muestra para margen de error de 2 minutos: 38
    b) Tamaño de muestra para margen de error de 1 minuto: 151
    

    8.4 Proporcion poblacional

    Hasta el momento conosemso la formula general para obtener una estimacion por intervalo de la proporcion poblacional P: $$ \bar{p} \pm \text{margen de error} $ $$

    La manera en que las muestras son seleccionadas influye directamente en la precisión de las estimaciones por intervalo de una proporción p. La variabilidad en estas muestras juega un papel clave al determinar cuán seguros podemos estar sobre la verdadera proporción en la población general. En el capítulo 7 se ha mencionado que la distribución de muestreo de p se aproxima mediante una distribución normal siempre que: $$ np \geq 5 \quad \text{y} \quad n(1-p) \geq 5 $$

    Figura 8.9 Aproximación normal a la distribución de muestreo de $\bar{p}$

    In [4]:
    Copied!
    import numpy as np
    import matplotlib.pyplot as plt
    import scipy.stats as stats
    
    # Nivel de significancia
    alfa = 0.05
    
    # Generar datos para la distribución normal estándar (z)
    x = np.linspace(-4, 4, 1000)
    y = stats.norm.pdf(x)
    
    # Encontrar el valor crítico para el nivel de significancia alfa/2
    valor_critico = stats.norm.ppf(1 - alfa/2)
    
    # Crear el gráfico con la línea de color verde y etiqueta con el símbolo mu (μ)
    plt.figure(figsize=(9, 4))
    plt.plot(x, y, label=r'Distribución Normal Estándar ($\mu$)', color='green')  # Cambié el color a verde y añadí el símbolo mu
    
    # Sombrear el área debajo de la línea con un verde más oscuro
    plt.fill_between(x, y, color='#5CCB5F', alpha=0.3)
    
    # Etiqueta de texto 1: Distribución de muestreo de x̄
    plt.text(-4, 0.20, 'Distribución de muestreo\n   de $\\bar{p}$', ha='left')
    
    # Etiqueta de texto 2: σ/√n
    plt.text(3, 0.20, r'$\sigma_\bar{p} = \sqrt{\frac{p(1 - p)}{n}}$', fontsize=12, ha='right')
    
    # Establecer el color de fondo
    plt.gca().set_facecolor('#d4f8b7')
    
    plt.text(-2.5, 0.04, '${α/2}$', ha='left')
    
    plt.text(2.5, 0.04, '${α/2}$', ha='left')
    
    plt.text(-1.5, 0.01, '<--$z_{α/2}$-->', ha='left')
    plt.text(0.8, 0.01, '<--$z_{α/2}$-->', ha='left')
    
    # Mostrar el gráfico
    plt.grid(False)
    plt.show()
    
    import numpy as np import matplotlib.pyplot as plt import scipy.stats as stats # Nivel de significancia alfa = 0.05 # Generar datos para la distribución normal estándar (z) x = np.linspace(-4, 4, 1000) y = stats.norm.pdf(x) # Encontrar el valor crítico para el nivel de significancia alfa/2 valor_critico = stats.norm.ppf(1 - alfa/2) # Crear el gráfico con la línea de color verde y etiqueta con el símbolo mu (μ) plt.figure(figsize=(9, 4)) plt.plot(x, y, label=r'Distribución Normal Estándar ($\mu$)', color='green') # Cambié el color a verde y añadí el símbolo mu # Sombrear el área debajo de la línea con un verde más oscuro plt.fill_between(x, y, color='#5CCB5F', alpha=0.3) # Etiqueta de texto 1: Distribución de muestreo de x̄ plt.text(-4, 0.20, 'Distribución de muestreo\n de $\\bar{p}$', ha='left') # Etiqueta de texto 2: σ/√n plt.text(3, 0.20, r'$\sigma_\bar{p} = \sqrt{\frac{p(1 - p)}{n}}$', fontsize=12, ha='right') # Establecer el color de fondo plt.gca().set_facecolor('#d4f8b7') plt.text(-2.5, 0.04, '${α/2}$', ha='left') plt.text(2.5, 0.04, '${α/2}$', ha='left') plt.text(-1.5, 0.01, '<--$z_{α/2}$-->', ha='left') plt.text(0.8, 0.01, '<--$z_{α/2}$-->', ha='left') # Mostrar el gráfico plt.grid(False) plt.show()
    No description has been provided for this image

    La media de la distribución de muestreo de \( p \) es la proporción poblacional \( p \), y el error estándar de \( p \) es:

    $$ \begin{equation} \sigma_\bar{p} = \sqrt{\frac{p(1 - p)}{n}} \tag{8.4} \end{equation} $$

    Como la distribución de muestreo de \(\bar{p}\) es una distribución normal, en la estimación por intervalo de la proporción poblacional se elige como margen de error \(z_{\alpha/2} \cdot \sigma_{\bar{p}}\). Entonces, \( 100(1-\alpha)\% \) de los intervalos que se obtengan contendrán la verdadera proporción poblacional. Sin embargo, para calcular el margen de error, no podemos usar directamente \(\sigma_{\bar{p}}\) ya que no se conoce \(p\), puesto que se trata de estimarlo. Lo que se hace es que \(p\) se sustituye por \(\bar{p}\) y de esta manera, el margen de error es dado por:

    $$ \begin{equation} \text{Margen de error} = z_{\alpha/2} \cdot \sqrt{\frac{\bar{p}(1-\bar{p})}{n}} \tag{8.5} \end{equation} $$
    ESTIMACION POR INTERVALO DE UNA PROPORCION POBLACIONAL
    $$ \begin{equation} \bar{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\bar{p}(1-\bar{p})}{n}} \tag{8.6} \end{equation} $$

    Donde:

    \(\bar{p}\) = Coeficiente de confianza.
    \(z_{\alpha/2}\) = Valor de \(z\) que deja un area \({\alpha/2}\) en la cola superior de la distribucion normal estándar.

    EJEMPLO:

    Un estudio en Bolivia encuestó a $900$ mujeres futbolistas para conocer su opinión acerca de como se les trata en los cursos de futbol, en este estudio se encontro que $396$ estaban satisfechas con la disponibilidad de horarios de salida. Por tanto la estamacion puntual de la proporcion poblacional de futbolistas satisfechas con la disponibilidad de horarios de salida es de $396/900 = 0.44$. Utilizando la expresion $\text(8.5)$ y la $\text(8.6)$ junto al nivel de confianza es de $95$%, calcular el margen de error y la estimación por intervalo para una proporción poblacional.

    $$ \begin{equation} \text{Margen de error} = z_{\alpha/2} \cdot \sqrt{\frac{\bar{p}(1-\bar{p})}{n}} \tag{8.5} \end{equation} $$

    $$ \begin{equation} \text{Margen de error} = 1.96 \cdot \sqrt{\frac{{0.44}(1-0.44)}{n}} \end{equation} $$

    $$ \begin{equation} \text{Margen de error} = 0.0324 \end{equation} $$

    Y ahora con la expresion $\text(8.6)$ y reemplazando la proporcion poblacional $0.44$ tenemos:

    $$ \begin{equation} \bar{p} \pm 0.0324 \end{equation} $$

    $$ \begin{equation} \ 0.44 \pm 0.0324 \end{equation} $$

    Empleando porcentajes, los resultados de la investigacion permiten decir que con un $95$ % de confianza que entre $40.76$ % y $47.24$ % de las mujeres futbolistas estan satisfechas con la disponibilidad de horarios de salida.

    Determinacion del tamaño de la muestra

    Al determinar el tamaño de la muestra para estimar la proporción de una población con cierta precisión, se utiliza una función similar a la empleada en la estimación de la media poblacional. La fórmula para determinar el tamaño de la muestra se asemeja a la utilizada en la estimación de la media poblacional en la formula $\text(8.3)$.

    Este margen se basa en el valor de $z_{\alpha/2}$ en la proporcion muestral de $\bar{p}$ y en el tamaño de la muestra $n$.

    NOTA: Muestras mayores, márgenes de error menores y con mejor precisión.

    Sea $E$ el margen de error deseado:

    $$ \begin{equation} \text{E} = z_{\alpha/2} \cdot \sqrt{\frac{\bar{p}(1-\bar{p})}{n}} \end{equation} $$

    Si despejamos $n$ de esta formula, obtenemos el tamaño de la muestra para obtener el margen de error deseado $E$ y esta dada por:

    $$ \begin{equation} \text{$n$} = \frac{(z_{\alpha/2})^2\bar{p}(1-\bar{p})}{E^2} \end{equation} $$

    Sin embargo, si no se conoce $\bar{p}$, no es posible usar esta fórmula para calcular el tamaño de la muestra con el que se obtendrá $E$.

    Entonces necesitaremos un valor planeado de $\bar{p}$, con $p^*$ como valor planeado de $\bar{p}$, la formula queda:

    TAMAÑO DE LA MUESTAR PARA UNA ESTIMACIÓN POR INTERVALO DE LA PROPORCIÓN POBLACIONAL
    $$ \begin{equation} \text{$n$} = \frac{(z_{\alpha/2})^2 \cdot {p^*} \cdot (1-{p^*})}{E^2} \tag{8.7} \end{equation} $$

    El valor planeado $p^*$ es determinado mediante:

    1. Se utiliza la proporción poblacional de una muestra previa de las mismas unidades o de unidades similares.
    2. Se toma un estudio piloto y se elige una muestra preliminar. La proporción muestral de esta muestra se usa como valor planeado, $p^*$.
    3. Se utiliza el criterio o una “mejor aproximación” para el valor de $p^*$.
    4. Si no es aplicable ninguna de las alternativas anteriores, se emplea como valor planeado $p^* = 0.50$.

    Volviendo al ejemplo, de mujeres futbolistas, spongamos que la empresa desea llevar a cabo otra investigación para determinar la proporcion actual en la poblacion de futbolistas que esta satisfecha con la disponibilidad de horarios de salida. ¿De qué tamaño debe ser la muestra si se desea en la estimacion de la proporcion poblacional un margen de error de $0.025$ a $95$% de confianza?

    DATOS:

    $E = 0.025$
    $z_{\alpha/2} = 1.96$
    $\bar{p} = 0.44$

    Con la ecuacion $(8.7)$ tenemos que:

    \begin{equation} \text{$n$} = \frac{(z_{\alpha/2})^2 \cdot {p^*} \cdot (1-{p^*})}{E^2} \end{equation} \begin{equation} \text{$n$} = \frac{(1.96)^2 \cdot {(0.44)} \cdot (1-{0.44})}{(0.025)^2} \end{equation} \begin{equation} \text{$n$} = 1514.5 \end{equation}

    Entonces tenemos que, el tamaño de muestra debe ser por lo menos $1514.5$ mujeres futbolistas para satisfacer el margen de error requerido. Redondeando, tenemos que se necesitan $1515$ futbolistas para obtener el margen de error deseado.

    TABLA 8.5 Valores posibles de $p^*(1-p^*)$

    $p^*$ $p^*$$(1$$- p^*$$)$
    0.10 (0.10)(0.90) = 0.09
    0.30 (0.30)(0.70) = 0.21
    0.40 (0.40)(0.60) = 0.24
    0.50 (0.50)(0.50) = 0.25 <---------- máximo valor de $p^*(1-p^*)$
    0.60 (0.60)(0.40) = 0.24
    0.70 (0.70)(0.30) = 0.21
    0.90 (0.90)(0.10) = 0.09

    Seleccionar $p^* = 0.50$ es una alternativa simple cuando no hay informacion especifica disponible. Esto se debe a que, según la ecuacion $(8.7)$, el tamaño de la muestar es proporcional a $p^*(1-p^*)$. Cuando $p^*(1-p^*)$ es grande, el tamaño de la muestra tambien lo es. Escoger $p^* = 0.50$ garantiza el tamaño de la muestra maxima posible cuando no esta seguro del valor planificado. Esto significa que, incluso si la proporcion muestral difiere del valor planificado, el margen de error sera menor de lo esperado.
    En resumen, al usar $p^* = 0.50$, aseguramos que el tamaño de la muestra sea suficiente para obtener la precision deseada, incluso en situaciones de incertidumbre sobre la proporcion real en la poblacion.

    Volviendo otra vez, al ejemplo, si se usa como valor planteado $p^* = 0.50$, el tamaño de muestra que se obtiene es:

    \begin{equation} \text{$n$} = \frac{(z_{\alpha/2})^2 \cdot {p^*} \cdot (1-{p^*})}{E^2} \end{equation} \begin{equation} \text{$n$} = \frac{(1.96)^2 \cdot {(0.50)} \cdot (1-{0.50})}{(0.025)^2} \end{equation} \begin{equation} \text{$n$} = 1536.6 \end{equation}

    Es decir, una muestra ligeramente mayor: $1537$ mujeres futbolistas.

    8.5 Un poco mas de conocimiento

    Glosario
    ¶

    • σ Conocida Este dato se usa para obtener un valor confiable de la desviación estándar poblacional antes de tomar una muestra. Este valor conocido (σ) se emplea en la estimación por intervalo para calcular el margen de error.
    • σ Desconocida Este es un caso común, para estimar la desviación estándar poblacional antes de tomar la muestra. En la estimación por intervalo se usa la desviación estándar muestral $s$ para calcular el margen de error
    • Coeficiente de confianza Nivel de confianza expresado como valor decimal.
    • Distribucion $t$ Es una familia de distribuciones utilizada para estimar por intervalo la media poblacional cuando la desviación estándar poblacional no es conocida y se estima con la desviación estándar muestral.
    • Estimación por intervalo Proporciona un rango que se cree contiene el valor del parámetro, utilizando una fórmula que combina la estimación puntual y el margen de error.
    • Grados de libertad Son un parámetro esencial. Cuando esta distribución se emplea para realizar una estimación por intervalo de la media poblacional, la distribución t asociada tiene n - 1 grados de libertad, siendo n el tamaño de la muestra aleatoria simple.
    • Margen de error Es el valor que se suma y resta de la estimación puntual.
    • Nivel de confianza Asociado con la probabilidad de que el intervalo contenga el parámetro poblacional. Por ejemplo, un nivel de confianza del 95% indica que el 95% de los intervalos estimados contendrán el parámetro.

    Fórmulas clave

    Estimación por intervalo de la media poblacional: $\sigma$ conocida
    $$ \begin{equation} \bar{x} \pm z_{α/2} \frac{\sigma}{\sqrt{n}}\tag{8.1} \end{equation} $$
    Estimación por intervalo de la media poblacional: $\sigma$ desconocida
    $$ \begin{equation} \bar{x} \pm t_{α/2} \frac{s}{\sqrt{n}}\tag{8.2} \end{equation} $$
    Tamaño de la muestra para una estimación por intervalo de la media poblacional
    $$ \begin{equation} \text{$n$} = \frac{(z_{\alpha/2})^2\sigma^2}{E^2}\tag{8.3} \end{equation} $$
    Estimación por intervalo de una proporción poblacional
    $$ \begin{equation} \bar{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\bar{p}(1-\bar{p})}{n}}\tag{8.6} \end{equation} $$
    Tamaño de la muestra para una estimación por intervalo de la proporcion poblacional
    $$ \begin{equation} \text{$n$} = \frac{(z_{\alpha/2})^2 \cdot {p^*} \cdot (1-{p^*})}{E^2}\tag{8.7} \end{equation} $$

    Estimación por intervalo con Minitab

    A continuación se describe cómo usar Minitab para obtener intervalos de confi anza de la media poblacional y la proporción poblacional

    Media poblacional: σ conocida
    ¶

    Para calcular un intervalo de confianza del 95% para estimar la media poblacional con desviación estándar conocida, sigue estos pasos:

    1. Abre Minitab y selecciona "Stat" en el menú.
    2. Elige "Basic Statistics".
    3. Selecciona "1-Sample Z".
    4. En el cuadro de diálogo "1-Sample Z":
      • Ingresa los datos de la muestra en la columna designada, por ejemplo, en C1.
      • Ingresa el valor de la desviación estándar poblacional, por ejemplo, 20.
    5. Luego, haz clic en "OK". Por defecto, Minitab empleará un nivel de confianza del 95%. Si deseas especificar otro nivel de confianza, como el 90%, sigue estos pasos adicionales:
    6. Después de seleccionar "1-Sample Z", elige "Options".
    7. En el cuadro de diálogo "1-Sample Z-Options":
      • Ingresa el nivel de confianza deseado, por ejemplo, 90, en el cuadro de "Confidence level".
    8. Finalmente, haz clic en "OK" para obtener el intervalo de confiaol> de confianza.

    Media poblacional: σ desconocida
    ¶

    Utilizando una muestra de 70 hogares con datos de saldos en tarjetas de crédito en la columna Cl de una hoja de cálculo en Minitab, se ilustra la estimación por intervalo para la media poblacional. En lugar de la desviación estándar poblacional σ, se estima utilizando la desviación estándar muestral s. Sigue estos pasos:

    1. Abre el menú "Stat".
    2. Selecciona "Basic Statistics".
    3. Escoge "1-Sample t".
    4. En el cuadro de diálogo "1-Sample t":
      • Ingresa los datos de la muestra en la columna especificada, por ejemplo, C1.
    5. Haz clic en "OK".

    Por defecto, Minitab usa un nivel de confianza del 95%. Para especificar otro nivel, como 90%, sigue estos pasos adicionales:

    1. Después de seleccionar "1-Sample t", selecciona "Options".
    2. En el cuadro de diálogo "1-Sample t-Options":
      • Ingresa el nivel de confianza deseado, por ejemplo, 90, en el campo de "Confidence level".
    3. Haz clic en "OK".

    Proporción poblacional
    ¶

    Se utiliza la información de mujeres golfistas, registradas como 'Sí' o 'No' en la disponibilidad de horarios de salida en la columna C1 de Minitab, para calcular un intervalo de confianza del 95% sobre la proporción de golfistas satisfechas con los horarios de salida. Los pasos son:

    1. Abre Minitab y selecciona 'Stat'.
    2. Escoge 'Basic Statistics'.
    3. Selecciona '1 Proportion'.
    4. Ingresa los datos de la muestra en la columna indicada (por ejemplo, C1).
    5. Selecciona 'Options' y elige 'Use test and interval based on normal distribution'. Haz clic en 'OK'.
    6. Obtendrás el intervalo de confianza predeterminado del 95%. Para cambiar el nivel de confianza, como a 90%, ingresa este valor en 'Confidence Level' dentro de 'Options' en el paso 5.

    Recuerda: Minitab asume el segundo valor en orden alfabético como la proporción de interés. Si este no es el caso, puedes definir un orden personalizado en Minitab para obtener la respuesta deseada.

    rden personalizado.
    In [17]:
    Copied!
    from IPython.display import YouTubeVideo
    youtube_video = YouTubeVideo('Sf5TvUPp-rc')
    display(youtube_video)
    
    from IPython.display import YouTubeVideo youtube_video = YouTubeVideo('Sf5TvUPp-rc') display(youtube_video)

    Estimación por intervalo usando Excel

    A continuación se describe el uso de Excel para calcular intervalos de confi anza para la media poblacional y la proporción poblacional

    Media poblacional: σ conocida
    ¶

    La estimación por intervalo se ilustra con el ejemplo de Lloyd's en la sección 8.1, asumiendo una desviación estándar poblacional conocida σ = 20. Los gastos de una muestra de 100 clientes están en la columna A de Excel. Para calcular el margen de error y la media poblacional, sigue estos pasos:

    1. Haz clic en la ficha "Data" en la cinta de opciones.
    2. En el grupo "Analysis", selecciona "Data Analysis".
    3. Elige "Descriptive Statistics" de la lista "Analysis Tools".
    4. En el cuadro de diálogo "Descriptive Statistics":
      • Ingresa "A1:A101" en el cuadro "Input Range".
      • Selecciona "Grouped by Columns".
      • Elige "Labels in First Row".
      • Selecciona "Output Range".
      • Ingresa "C1" en el cuadro "Output Range".
      • Selecciona "Summary Statistics".
      • Haz clic en "OK".
    5. El resumen estadístico aparecerá en las columnas C y D. Continúa con el cálculo del margen de error usando la función "CONFIDENCE" de Excel de la siguiente manera:
      • Selecciona la celda C16 e ingresa el título "Margin of error".
      • Elige la celda D16 e ingresa la fórmula de Excel "CONFIDENCE(0.5,20,100)".
      • Los tres parámetros de esta función son:
        • Alfa = 1 - coeficiente de confianza = 0.95 = 0.05.
        • Desviación estándar poblacional = 20.
        • Tamaño de la muestra = 100 (Nota: Aparece como Count en la celda D15).
    6. La estimación puntual de la media poblacional está en la celda D3 y el margen de error en la celda D16. Estos valores permiten calcular fácilmente el intervalo de confianza para la media poblacional.

    Media poblacional: σ desconocida
    ¶

    La estimación por intervalo se ilustra con los datos de la tabla 8.2, donde se registran los saldos en las tarjetas de crédito de 70 hogares en la columna A de Excel. Sigue estos pasos para calcular la estimación puntual y el margen de error de la media poblacional:

    1. Haz clic en la ficha "Data" en la cinta de opciones.
    2. En el grupo "Analysis", selecciona "Data Analysis".
    3. Elige "Descriptive Statistics" de la lista "Analysis Tools".
    4. En el cuadro de diálogo "Descriptive Statistics":
      • Ingresa "A1:A71" en el cuadro "Input Range".
      • Selecciona "Grouped by Columns".
      • Elige "Labels in First Row".
      • Selecciona "Output Range".
      • Ingresa "C1" en el cuadro "Output Range".
      • Selecciona "Summary Statistics".
      • Elige "Confidence Level for Mean".
      • Ingresa "95" en el cuadro "Confidence Level for Mean".
      • Haz clic en "OK".
    5. El resumen estadístico aparecerá en las columnas C y D. La estimación puntual de la media poblacional se presenta en la celda D3. El margen de error aparecerá como "Confidence Level(95.0%)" en la celda D16. Estos valores ($9,312 y $955, respectivamente) permiten estimar con facilidad el intervalo de confianza para la media poblacional.
    In [18]:
    Copied!
    from IPython.display import YouTubeVideo
    youtube_video = YouTubeVideo('WUEANlXlnfc')
    display(youtube_video)
    
    from IPython.display import YouTubeVideo youtube_video = YouTubeVideo('WUEANlXlnfc') display(youtube_video)

    Estimación por intervalo con StatTools

    En este apéndice se muestra el uso de StatTools para establecer una estimación por intervalo de una media poblacional cuando se desconoce σ, y determinar el tamaño de la muestra necesario para obtener el margen de error deseado.

    Estimación por intervalo de la media poblacional : caso de σ desconocida
    ¶

    Para estimar la desviación estándar poblacional σ utilizando la desviación estándar muestral s de los saldos en las tarjetas de crédito de la tabla 8.3, sigue estos pasos utilizando StatTools para calcular un intervalo de confianza del 95% para la media poblacional:

    1. Haz clic en la ficha "StatTools" en la cinta de opciones.
    2. En el grupo "Analyses", selecciona "Statistical Inference".
    3. Elige la opción "Confidence Interval".
    4. Selecciona "Mean/Std. Deviation".
    5. En el cuadro de diálogo "StatTools-Confidence Interval for Mean/Std. Deviation":
      • En "Analysis Type", elige "One-Sample Analysis".
      • En la sección "Variables", selecciona "NewBalance".
      • En la sección "Confidence Intervals to Calculate":
        • Elige "For the Mean".
        • Selecciona "95%" en "Confidence Level".
      • Haz clic en "OK".
    6. Aparecerán estadísticos descriptivos y el intervalo de confianza estimado.
    Made with Material for MkDocs