8.1 Media poblacional: $\sigma$ conocida

Para obtener una estimación por intervalo para la media poblacional, es necesario conocer la desviación estándar poblacional $(\sigma)$ o la desviación estándar muestral (s) para calcular el margen de error. En muchos casos, la desviación estándar poblacional $(\sigma)$ es desconocida, y se utiliza la desviación estándar muestral (s) para calcular el margen de error. Sin embargo, en situaciones donde se dispone de datos históricos o en aplicaciones de control de calidad, se puede conocer la desviación estándar poblacional.

En un ejemplo específico, Boutique Andina realiza estudios semanales seleccionando una muestra aleatoria simple de 100 clientes para conocer la cantidad que gastan en cada visita. Suponen que la desviación estándar poblacional $(\sigma)$ es conocida y tiene un valor de $\sigma = 20Bs$, basándose en datos históricos que indican una distribución normal en la población. En una semana reciente, la media muestral obtenida fue $\bar{x}=82Bs$. Esta media muestral sirve como estimación puntual de la media poblacional $(\mu)$.

A continuación, se aborda cómo calcular un margen de error para esta estimación y cómo desarrollar una estimación por intervalo para la media poblacional.

Margen de error y estimación por intervalo

En el capítulo 7 se menciona que la distribución de muestreo de $\bar{x}$ sirve para calcular la probabilidad de que $\bar{x}$ esté dentro de una distancia dada de $\mu$. En el ejemplo de Boutique Andina, los datos históricos indican que la población constituida por las cantidades gastadas está distribuida normalmente y que su desviación estándar es $\sigma = 20$. De esta manera, utilizando lo aprendido en el capítulo 7, se puede concluir que la distribución de muestreo de $\bar{x}$ sigue una distribución normal con un error estándar de $\sigma_{\bar{x}}=\sigma/\sqrt{n}=20/ \sqrt{100}=2$. En la fi gura 8.1 se presenta esta distribución de muestreo. Puesto que indica cómo están distribuidos los valores de x en torno a la media poblacional $\mu$, la distribución de muestreo de $\bar{x}$ proporciona información acerca de la posible diferencia entre $\bar{x}$ y $\mu$.

Figura 8.1 Distribución de muestreo de la media muestral de las cantidades gastadas para muestras aleatorias simples de 100 clientes

In [12]:

Copied!





import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats

# Nivel de significancia
alfa = 0.05

# Generar datos para la distribución normal estándar (z)
x = np.linspace(-4, 4, 1000)
y = stats.norm.pdf(x)

# Encontrar el valor crítico para el nivel de significancia alfa/2
valor_critico = stats.norm.ppf(1 - alfa/2)

# Crear el gráfico con la línea de color verde y etiqueta con el símbolo mu (μ)
plt.figure(figsize=(9, 4))
plt.plot(x, y, label=r'Distribución Normal Estándar ($\mu$)', color='green')  # Cambié el color a verde y añadí el símbolo mu

# Sombrear el área debajo de la línea con un verde más oscuro
plt.fill_between(x, y, color='#5CCB5F', alpha=0.3)

# Etiqueta de texto 1: Distribución de muestreo de x̄
plt.text(-4, 0.20, 'Distribución de muestreo\n   de $\\bar{x}$', ha='left')

# Etiqueta de texto 2: σ/√n
plt.text(4, 0.20, r'$\sigma_{\bar{x}}=\frac{\sigma}{\sqrt{n}}= \frac{20}{\sqrt{100}} = 2$', fontsize=12, ha='right')

# Establecer el color de fondo
plt.gca().set_facecolor('#d4f8b7')  

# Mostrar el gráfico
plt.grid(False)
plt.show()
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats

# Nivel de significancia
alfa = 0.05

# Generar datos para la distribución normal estándar (z)
x = np.linspace(-4, 4, 1000)
y = stats.norm.pdf(x)

# Encontrar el valor crítico para el nivel de significancia alfa/2
valor_critico = stats.norm.ppf(1 - alfa/2)

# Crear el gráfico con la línea de color verde y etiqueta con el símbolo mu (μ)
plt.figure(figsize=(9, 4))
plt.plot(x, y, label=r'Distribución Normal Estándar ($\mu$)', color='green')  # Cambié el color a verde y añadí el símbolo mu

# Sombrear el área debajo de la línea con un verde más oscuro
plt.fill_between(x, y, color='#5CCB5F', alpha=0.3)

# Etiqueta de texto 1: Distribución de muestreo de x̄
plt.text(-4, 0.20, 'Distribución de muestreo\n   de $\\bar{x}$', ha='left')

# Etiqueta de texto 2: σ/√n
plt.text(4, 0.20, r'$\sigma_{\bar{x}}=\frac{\sigma}{\sqrt{n}}= \frac{20}{\sqrt{100}} = 2$', fontsize=12, ha='right')

# Establecer el color de fondo
plt.gca().set_facecolor('#d4f8b7')  

# Mostrar el gráfico
plt.grid(False)
plt.show()

No description has been provided for this image

En la introducción de este capítulo se mencionó la fórmula general para estimar un intervalo de la media poblacional $\mu$, la cual es $\bar{x} \pm \text{margen de error}$. En el ejemplo de Boutique Andina, asumamos un margen de error de $3.92$ y calculemos una estimación por intervalo para $\mu$ usando $\bar{x} \pm 3.92$. Para comprender cómo se interpreta esta estimación por intervalo, consideremos los valores de $x$ que podrían obtenerse si se tomaran tres muestras aleatorias simples diferentes, cada una de $100$ clientes de Boutique Andina.

La primera media muestral podría dar el valor $\bar{x}_1$. En este caso, el intervalo obtenido al restar $3.92$ de $\bar{x}_1$ y sumar $3.92$ a $\bar{x}_1$ abarca la media poblacional $\mu$. Ahora, al razonar sobre la segunda media muestral con el valor $\bar{x}_2$, observamos que el intervalo obtenido también comprende $\mu$. Sin embargo, en el caso de la tercera media muestral con el valor $\bar{x}_3$, el intervalo obtenido no abarca $\mu$. Esto se debe a que $\bar{x}_3$ cae en la cola superior de la distribución de muestreo y dista más de $3.92$ de $\mu$. Al restar y sumar $3.92$ a $\bar{x}_3$, obtenemos un intervalo que no incluye $\mu$.

Figura 8.3 Intervalos obtenidos a partir de algunas medias muestrales localizadas en $\bar{x}_1$, $\bar{x}_2$ y $\bar{x}_3$

In [3]:

Copied!





import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats

# Nivel de significancia
alfa = 0.05

# Generar datos para la distribución normal estándar (z)
x = np.linspace(-4, 4, 1000)
y = stats.norm.pdf(x)

# Encontrar el valor crítico para el nivel de significancia alfa/2
valor_critico = stats.norm.ppf(1 - alfa/2)

# Crear el gráfico con la línea de color verde y etiqueta con el símbolo mu (μ)
plt.figure(figsize=(9, 4))
plt.plot(x, y, label=r'Distribución Normal Estándar ($\mu$)', color='green')  # Cambié el color a verde y añadí el símbolo mu

# Sombrear el área debajo de la línea con un verde más oscuro
plt.fill_between(x, y, where=(x > -valor_critico) & (x < valor_critico), color='#5CCB5F', alpha=0.3)

# Agregar líneas verticales en ambos lados
plt.axvline(-valor_critico, color='black', linestyle='-', linewidth=1, ymax=0.2)
plt.axvline(valor_critico, color='black', linestyle='-', linewidth=1, ymax=0.2)
plt.axvline(0, color='black', linestyle='--', linewidth=1, ymax=0.55)

# Etiqueta de texto 1: Distribución de muestreo de x̄
plt.text(-4, 0.20, 'Distribución de muestreo\n   de $\\bar{x}$', ha='left')

# Etiqueta de texto 2: σ/√n
plt.text(4, 0.20, r'$\sigma_{\bar{x}} = 2$', fontsize=12, ha='right')

# Etiqueta de texto 1: Distribución de muestreo de x̄
plt.text(0, 0.25, '$95\%$ de todos los\n   valores de $\\bar{x}$', ha='center')

# Establecer el color de fondo
plt.gca().set_facecolor('#d4f8b7')  

# Mostrar el gráfico
plt.grid(False)
plt.show()
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats

# Nivel de significancia
alfa = 0.05

# Generar datos para la distribución normal estándar (z)
x = np.linspace(-4, 4, 1000)
y = stats.norm.pdf(x)

# Encontrar el valor crítico para el nivel de significancia alfa/2
valor_critico = stats.norm.ppf(1 - alfa/2)

# Crear el gráfico con la línea de color verde y etiqueta con el símbolo mu (μ)
plt.figure(figsize=(9, 4))
plt.plot(x, y, label=r'Distribución Normal Estándar ($\mu$)', color='green')  # Cambié el color a verde y añadí el símbolo mu

# Sombrear el área debajo de la línea con un verde más oscuro
plt.fill_between(x, y, where=(x > -valor_critico) & (x < valor_critico), color='#5CCB5F', alpha=0.3)

# Agregar líneas verticales en ambos lados
plt.axvline(-valor_critico, color='black', linestyle='-', linewidth=1, ymax=0.2)
plt.axvline(valor_critico, color='black', linestyle='-', linewidth=1, ymax=0.2)
plt.axvline(0, color='black', linestyle='--', linewidth=1, ymax=0.55)

# Etiqueta de texto 1: Distribución de muestreo de x̄
plt.text(-4, 0.20, 'Distribución de muestreo\n   de $\\bar{x}$', ha='left')

# Etiqueta de texto 2: σ/√n
plt.text(4, 0.20, r'$\sigma_{\bar{x}} = 2$', fontsize=12, ha='right')

# Etiqueta de texto 1: Distribución de muestreo de x̄
plt.text(0, 0.25, '$95\%$ de todos los\n   valores de $\\bar{x}$', ha='center')

# Establecer el color de fondo
plt.gca().set_facecolor('#d4f8b7')  

# Mostrar el gráfico
plt.grid(False)
plt.show()

Cualquier media muestral $\bar{x}$ que se encuentre dentro de la región sombreada en la figura 8.3 generará un intervalo que contiene la media poblacional $\mu$. Dado que el $95\%$ de todas las posibles medias muestrales se ubican en la región sombreada más oscura, el $95\%$ de todos los intervalos construidos restando $3.92$ de $\bar{x}$ y sumando $3.92$ a $\bar{x}$ abarcarán la media poblacional $\mu$.

En la última semana, el equipo encargado de asegurar la calidad de Boutique Andina encuestó a $100$ clientes y obtuvo una media muestral $\bar{x}$ de $82$. Utilizando $\bar{x} \pm 3.92$ para construir la estimación por intervalo, se obtiene $82 \pm 3.92$. Por lo tanto, la estimación por intervalo de $\mu$ basada en los datos de la última semana va de $78.08$ a $85.92$. Dado que el $95\%$ de todos los intervalos construidos usando $\bar{x} \pm 3.92$ contendrán la media poblacional, se tiene un $95\%$ de confianza de que el intervalo de $78.08$ a $85.92$ contiene $\mu$. Este intervalo tiene un nivel de confianza del $95\%$. Al valor $0.95$ se le conoce como coeficiente de confianza, y al intervalo de $78.08$ a $85.92$ como intervalo de confianza del $95\%$.

Como el margen de error está dado por $z_{\alpha/2}(\sigma\sqrt{n})$, la fórmula general de una estimación por intervalo de la media poblacional con σ conocida es la siguiente. En el ejemplo de Boutique Andina, mediante la expresión (8.1) se construye un intervalo de confianza de $95\%$

ESTIMACIÓN POR INTERVALO DE LA MEDIA POBLACIONAL: σ CONOCIDA

$$ \begin{equation} \bar{x} \pm z_{\alpha/2}\frac{\sigma}{\sqrt{n}} \tag{8.1} \end{equation} $$

donde $1-\alpha$ es el coeficiente de confianza y $z_{\alpha/2}$ es el valor de $z$ que proporciona un área $\alpha/2$ en la cola superior de la distribución de probabilidad normal estándar.

Con un coeficiente de confianza $(1 - \alpha) = 0.95$, por lo tanto, $\alpha = 0.05$. En la tabla de distribución normal estándar se observa que un área de $\alpha/2 = 0.05/2 = 0.025$ en la cola superior corresponde a $z_{0.025} = 1.96$. En el ejemplo de Boutique Andina, donde la media muestral es $\bar{x} = 82$, la desviación estándar es $\sigma = 20$, y el tamaño de la muestra es $n = 100$, se obtiene

$$ \begin{equation} 82 \pm 1.96\frac{20}{\sqrt{100}} \end{equation} $$ $$ \begin{equation} 82 \pm 3.92 \end{equation} $$

Por tanto, al emplear la expresión (8.1), el margen de error es 3.92 y el intervalo de confianza de $95\%$ va de $82-3.92=78.08$ a $82+3.92=85.92.$ Aunque a menudo se usa un nivel de confi anza de $95\%$, también suelen utilizarse otros niveles, como $90$ y $99\%$. En la tabla 8.1 se muestran los valores de $z_{\alpha/2}$ correspondientes a los niveles de confianza más utilizados. A partir de estos valores y de la expresión (8.1), el intervalo de confianza de $90\%$ en el ejemplo de Boutique Andina es

$$ \begin{equation} 82 \pm 1.645\frac{20}{\sqrt{100}} \end{equation} $$ $$ \begin{equation} 82 \pm 3.29 \end{equation} $$

Tabla 8.1 Valores de $z_{\alpha/2}$ para los niveles de confianza más utilizados

Nivel de confianza	$\alpha$	$\alpha/2$	$z_{\alpha/2}$
90%	0.10	0.05	1.645
95%	0.05	0.025	1.960
99%	0.01	0.005	2.576

Por tanto, para $90\%$ de confianza, el margen de error es $3.29$ y el intervalo de confianza es $82-3.29=78.71$ a $82+3.29=85.29$. De manera similar, el intervalo de $99\%$ es

$$ \begin{equation} 82 \pm 2.576\frac{20}{\sqrt{100}} \end{equation} $$ $$ \begin{equation} 82 \pm 5.15 \end{equation} $$

Entonces, para 99% de confi anza el margen de error es $5.15$ y el intervalo de confi anza es $82-5.15=76.85$ a $82+5.15=87.15$.

Al comparar los resultados para los niveles de $90$, $95$ y $99\%$, es claro que para tener mayor grado de confi anza, el margen de error, y con esto la amplitud del intervalo de confianza, debe ser mayor.

Consejo práctico

Si la población sigue una distribución normal, la expresión (8.1) proporciona intervalos de confianza exactos, garantizando que el $95\%$ de ellos contendrán la media poblacional al usarla repetidamente. En situaciones no normales, la aproximación del intervalo de confianza depende de la distribución y del tamaño de la muestra. En general, un tamaño de muestra $\geq 30$ es adecuado, aunque tamaños hasta 15 pueden ser aceptables si la población es simétrica. Para tamaños menores, se debe usar la expresión (8.1) solo con la suposición de aproximada normalidad.

NOTAS Y COMENTARIOS

En este método de estimación por intervalo, se asume que la desviación estándar poblacional $\sigma$ es conocida. Esta asunción implica tener datos históricos o información previa que permita obtener una estimación precisa de σ antes de tomar la muestra utilizada para estimar la media poblacional. Aunque no implica certeza absoluta sobre σ, garantiza que la estimación de la desviación estándar se realiza antes de la toma de la muestra, evitando utilizar la misma muestra para estimar tanto la media como la desviación estándar poblacionales.
La expresión (8.1) para la estimación por intervalo incluye el tamaño de la muestra $n$ en el denominador. Por lo tanto, si el tamaño de muestra actual resulta en un intervalo demasiado amplio para ser práctico, se sugiere aumentar el tamaño de la muestra. Con un tamaño de muestra mayor, se logra un margen de error menor, un intervalo más estrecho y una mayor precisión en la estimación. Cómo determinar el tamaño necesario de la muestra para alcanzar una precisión específica se aborda en la sección 8.3.

8.2Media poblacional: $\sigma$ desconocida

William Sealy Gosset, es el creador de la distribución t. Gosset, que estudió matemáticas en Oxford, trabajaba para Guinness Brewery en Dublín, Irlanda. Desarrolló la distribución t cuando trabajaba sobre materiales a pequeña escala y con experimentos de temperatura

Se usa la misma muestra para calcular $𝜇$ y $\sigma$. Cuando se utiliza s para estimar $\sigma$, el margen de error y la estimación por intervalo de la media poblacional se basan en una distribución de probabilidad conocida como distribucion t. Aunque el desarrollo matemático de esta última parte del supuesto de que la población muestreada tiene una distribución normal.
La distribucion *t* depende del parámetro conocido como grados de libertad. Para un grado de libertad es única, como lo es para dos grados o tres grados de libertad, etc. A medida que este número aumenta, la diferencia entre la distribución t y la distribución normal estándar se reduce. La siguiente figura (figura 8.4) muestra las distribuciones t para 10 y 20 grados de libertad y su relación con la distribución de probabilidad normal estándar.

Figura 8.4 Comparación de la distribución normal estándar con las distribuciones t para 10 y 20 grados de libertad

In [13]:

Copied!





import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import t, norm

# Generar datos para las distribuciones t y normal estándar
x = np.linspace(-6, 6, 80)
y_t_10 = t.pdf(x, df=10)
y_t_20 = t.pdf(x, df=20)
y_normal = norm.pdf(x)

# Crear el gráfico
plt.figure(figsize=(10, 8))
plt.plot(x, y_t_10, label='t-distribución 10 grados de libertad', linewidth=2, color='black')
plt.plot(x, y_t_20, label='t-distribución 20 grados de libertad', linewidth=2, color='green')
plt.plot(x, y_normal, label='Distribución normal estándar', linestyle='dashed', linewidth=2, color='green')

# Configurar el gráfico
plt.title('Comparación de Distribuciones t y Normal Estándar')
plt.grid(False)
plt.ylim(-0.01, 0.43)

# Añadir etiquetas directamente sobre las líneas
plt.text(1.3, 0.20, 't-distribución 10 grados de libertad', fontsize=9, color='black')
plt.text(-5, 0.20, 't-distribución 20 grados de libertad', fontsize=9, color='black')
plt.text(-1, 0.40, 'Distribución normal', fontsize=9, color='green')

# Establecer el color de fondo
plt.gca().set_facecolor('#d4f8b7')  

# Pintar el fondo externo del gráfico
plt.gcf().patch.set_facecolor('#D4F8B7')

# Mostrar el gráfico
plt.ylabel('Densidad de Probabilidad', fontsize=12)
plt.legend()
plt.show()
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import t, norm

# Generar datos para las distribuciones t y normal estándar
x = np.linspace(-6, 6, 80)
y_t_10 = t.pdf(x, df=10)
y_t_20 = t.pdf(x, df=20)
y_normal = norm.pdf(x)

# Crear el gráfico
plt.figure(figsize=(10, 8))
plt.plot(x, y_t_10, label='t-distribución 10 grados de libertad', linewidth=2, color='black')
plt.plot(x, y_t_20, label='t-distribución 20 grados de libertad', linewidth=2, color='green')
plt.plot(x, y_normal, label='Distribución normal estándar', linestyle='dashed', linewidth=2, color='green')

# Configurar el gráfico
plt.title('Comparación de Distribuciones t y Normal Estándar')
plt.grid(False)
plt.ylim(-0.01, 0.43)

# Añadir etiquetas directamente sobre las líneas
plt.text(1.3, 0.20, 't-distribución 10 grados de libertad', fontsize=9, color='black')
plt.text(-5, 0.20, 't-distribución 20 grados de libertad', fontsize=9, color='black')
plt.text(-1, 0.40, 'Distribución normal', fontsize=9, color='green')

# Establecer el color de fondo
plt.gca().set_facecolor('#d4f8b7')  

# Pintar el fondo externo del gráfico
plt.gcf().patch.set_facecolor('#D4F8B7')

# Mostrar el gráfico
plt.ylabel('Densidad de Probabilidad', fontsize=12)
plt.legend()
plt.show()

Como se observa una distribución t con más grados de libertad exhibe menos variabilidad y un mayor parecido con la distribución normal estándar. Note también que la media de toda distribución t es cero.

Para denotar el área en la cola superior de la distribución t, se le coloca un subíndice. Por ejemplo, así como se usó $z_{0.025}$ para el valor de z, también se usará $t_{0.025}$ para el valor de t que deja en la cola superior de la distribución t. En general, se manejará la notación $t_{\frac{α}{2}}$ para representar el valor de t que deja un área de $\frac{α}{2}$ en la cola superior de la distribución t (figura 8.5).

Figura 8.5 Distribución t con un área o probabilidad α/2 en la cola superior

In [14]:

Copied!





import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats

# Parámetros de la distribución t
grados_libertad = 10
alfa = 0.05  # Nivel de significancia

# Generar datos para la distribución t
x = np.linspace(-4, 4, 1000)
y = stats.t.pdf(x, df=grados_libertad)

# Encontrar el valor crítico para el nivel de significancia alfa/2
valor_critico = stats.t.ppf(1 - alfa/2, df=grados_libertad)

# Crear el gráfico
plt.figure(figsize=(8, 6))

# Plotear la línea
plt.plot(x, y, color='#5CCB5f', label=f'Distribución t con {grados_libertad} grados de libertad')

# Resaltar el área en la cola superior con fondo verde
x_fill = np.linspace(valor_critico, 4, 100)
y_fill = stats.t.pdf(x_fill, df=grados_libertad)
plt.fill_between(x_fill, y_fill, color='green', alpha=0.3, label=f'Área de probabilidad {alfa/2} en la cola superior', edgecolor='black')

# Calcular la altura del área resaltada
altura_area_resaltada = np.max(y_fill)

# Marcar el valor crítico en el eje x y ajustar la línea a la altura del área resaltada
plt.axvline(valor_critico, ymax=altura_area_resaltada, color='green', linestyle='-', label=f'Valor crítico: {valor_critico:.2f}')

# Añadir etiquetas y leyenda
plt.title('Distribución t con Área de Probabilidad en la Cola Superior')
plt.xlabel('X')
plt.ylabel('Densidad de Probabilidad')
plt.legend()

# Establecer el color de fondo
plt.gca().set_facecolor('#d4f8b7')  

# Pintar el fondo externo del gráfico
plt.gcf().set_facecolor('#D4F8B7')

# Mostrar el gráfico
plt.grid(False)
plt.show()
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats

# Parámetros de la distribución t
grados_libertad = 10
alfa = 0.05  # Nivel de significancia

# Generar datos para la distribución t
x = np.linspace(-4, 4, 1000)
y = stats.t.pdf(x, df=grados_libertad)

# Encontrar el valor crítico para el nivel de significancia alfa/2
valor_critico = stats.t.ppf(1 - alfa/2, df=grados_libertad)

# Crear el gráfico
plt.figure(figsize=(8, 6))

# Plotear la línea
plt.plot(x, y, color='#5CCB5f', label=f'Distribución t con {grados_libertad} grados de libertad')

# Resaltar el área en la cola superior con fondo verde
x_fill = np.linspace(valor_critico, 4, 100)
y_fill = stats.t.pdf(x_fill, df=grados_libertad)
plt.fill_between(x_fill, y_fill, color='green', alpha=0.3, label=f'Área de probabilidad {alfa/2} en la cola superior', edgecolor='black')

# Calcular la altura del área resaltada
altura_area_resaltada = np.max(y_fill)

# Marcar el valor crítico en el eje x y ajustar la línea a la altura del área resaltada
plt.axvline(valor_critico, ymax=altura_area_resaltada, color='green', linestyle='-', label=f'Valor crítico: {valor_critico:.2f}')

# Añadir etiquetas y leyenda
plt.title('Distribución t con Área de Probabilidad en la Cola Superior')
plt.xlabel('X')
plt.ylabel('Densidad de Probabilidad')
plt.legend()

# Establecer el color de fondo
plt.gca().set_facecolor('#d4f8b7')  

# Pintar el fondo externo del gráfico
plt.gcf().set_facecolor('#D4F8B7')

# Mostrar el gráfico
plt.grid(False)
plt.show()

En la tabla 8.2 se muestra una parte de la distribucion t. Cada fila corresponde a una distribución t distinta con los grados de libertad que se indican. Por ejemplo, en la distribución t con 9 grados de libertad, $t_{0.025}=2.262$ . De manera similar, en la distribución t con 60 grados de libertad, $t_{0.025}=2.000$ . A medida que estos grados aumentan, $t_{0.025}$ se aproxima a $z_{0.025}=1.96$ El valor z de la distribución normal estándar se encuentra en la fila correspondiente a infinitos grados de libertad (etiquetado como ∞ ) de la tabla de distribuciones t. Si los grados de libertad son más de 100, se puede usar la fila correspondiente a infinitos grados para aproximar el verdadero valor de t; en otras palabras, para más de 100 grados de libertad, el valor z normal estándar proporciona una buena aproximación del valor t

TABLA 8.2 Valores seleccionados de la tabla de distribución t*

Grados de libertad	Área en la cola superior
Grados de libertad		0.20	0.10	0.05	0.025	0.01	0.005
1	1.376	3.078	6.314	12.706	31.821	63.656
2	1.061	1.886	2.920	4.303	6.965	9.925
3	0.978	1.638	2.353	3.182	4.541	5.841
4	0.941	1.533	2.132	2.776	3.747	4.604
5	0.920	1.476	2.015	2.571	3.365	4.032
6	0.906	1.440	1.943	2.447	3.143	3.707
7	0.896	1.415	1.895	2.365	2.998	3.499
8	0.889	1.397	1.860	2.306	2.896	3.355
9	0.883	1.383	1.833	2.262	2.821	3.250
…	…	…	…	…	…	…
60	0.848	1.296	1.671	2.000	2.390	2.660
61	0.848	1.296	1.670	2.000	2.389	2.659
62	0.847	1.295	1.670	1.999	2.388	2.657
63	0.847	1.295	1.669	1.998	2.387	2.656
64	0.847	1.295	1.669	1.998	2.386	2.655
65	0.847	1.295	1.669	1.997	2.385	2.654
66	0.847	1.295	1.668	1.997	2.384	2.652
67	0.847	1.294	1.668	1.996	2.383	2.651
68	0.847	1.294	1.668	1.995	2.382	2.650
69	0.847	1.294	1.667	1.995	2.382	2.649
…	…	…	…	…	…	…
90	0.846	1.291	1.662	1.987	2.368	2.632
91	0.846	1.291	1.662	1.986	2.368	2.631
92	0.846	1.291	1.662	1.986	2.368	2.630
93	0.846	1.291	1.661	1.986	2.367	2.630
94	0.845	1.291	1.661	1.986	2.367	2.629
95	0.845	1.291	1.661	1.985	2.366	2.629
96	0.845	1.290	1.661	1.985	2.366	2.628
97	0.845	1.290	1.661	1.985	2.365	2.627
98	0.845	1.290	1.661	1.984	2.365	2.627
99	0.845	1.290	1.660	1.984	2.364	2.626
100	0.845	1.290	1.660	1.984	2.364	2.626
∞	0.842	1.282	1.645	1.960	2.326	2.576

Margen de error y estimación por intervalo
¶

Para calcular una estimación por intervalo de $𝜇$ cuando no se conoce $σ$, se usa la desviación estándar muestral s para estimar $σ$, y $z_{\frac{α}{2}}$ se sustituye por el valor $t_{\frac{α}{2}}$ de la distribución t. El margen de error está dado, entonces, por $t_{\frac{α}{2}}$ $\frac{s}{\sqrt{n}}$. Con este margen, la expresión general para una estimación por intervalo de la media poblacional cuando σ no se conoce es la siguiente.

ESTIMACIÓN POR INTERVALO DE LA MEDIA POBLACIONAL: σ DESCONOCIDA

$$ \bar{x} \pm t_{α/2} \frac{s}{\sqrt{n}}\tag{8.2}$$

Donde:

s es la desviación estándar muestral.

($1-\alpha$) es el coeficiente de confianza y $t_{α/2}$ es el valor de t que proporciona un área ${α/2}$ en la cola superior de la distribución t con $n - 1$ grados de libertad.

El número de grados de libertad (n-1) para el valor de t en la expresión (8.2) se debe al uso de s como estimación de la desviación estándar poblacional $σ$. La expresión para calcular la desviación estándar muestral es

$$ s=\sqrt{\frac{Σ(x_{i}-\bar{x})^2}{n-1}}$$

Los grados de libertad se refieren al número de valores independientes en el cálculo de $Σ(x_{i}-\bar{x})^2$ es decir $x_{1}-\bar{x},x_{2}-\bar{x},⋯,x_{n}-\bar{x}$ Se había indicado que en cualquier conjunto de datos $Σ(x_{i}-\bar{x})^2=0$. Por tanto, únicamente n -1 de los valores $x_{i}-\bar{x}$ son independientes; si (n-1) valores se conocen, el restante puede determinarse con la condicion que $x_{i}-\bar{x}$ sume $0$

Para ilustrar la estimación por intervalo en el caso de $σ$ desconocida, se considerará un estudio realizado para estimar la media del adeudo en las tarjetas de crédito en la población de familias de Boliva. En la tabla 8.3 se presentan los saldos en las tarjetas de crédito de una muestra de n = 70 familias.

Tabla 8.3 Saldos en las tarjetas de crédito de una muestra de 70 familias

9430	14661	7159	9071	9691	11032
7535	12195	8137	3603	11448	6525
4078	10544	9467	16804	8279	5239
5604	13659	12595	13479	5649	6195
5179	7061	7917	14044	11298	12584
4416	6245	11346	6817	4353	15415
10676	13021	12806	6845	3467	15917
1627	9719	4972	10493	6191	12591
10112	2200	11356	615	12851	9743
6567	10746	7117	13627	5337	10324
13627	12744	9465	12557	8372
18719	5742	19263	6232

En esta ocasión no se cuenta con una estimación previa de la desviación estándar poblacional $σ$. Por tanto, deberán utilizarse los datos muestrales para estimar tanto la media como la desviación estándar poblacionales. Con los datos de la tabla 8.3 calculamos la media muestral $\bar{x}=9 312$ Bs. y la desviación estándar muestral $s=4 007$ Bs. Con 95% de confianza y n-1 = 69 grados de libertad podemos usar la tabla 8.2 para obtener el valor apropiado de $t_{0.025}$ El valor de t que se necesita está en la fila que indica 69 grados de libertad y en la columna correspondiente a 0.025 en la cola superior. El valor que se encuentra en $t_{0.025} =1.995$.

Con la expresión (8.2) para calcular la estimación por intervalo de la media poblacional de los saldos en las tarjetas de crédito tenemos:

$$9312±1.995\frac{4007}{\sqrt{70}}$$

$$9312±995$$

La estimación puntual de la media poblacional es 9312 Bs , el margen de error es 955 Bs y el intervalo de confianza de 95% va de $9312-955=8 357$ Bs a $9 312 + 955 = 10 267 $ Bs

En consecuencia,se tiene 95% de confianza de que la media de los saldos en las tarjetas de crédito de la población de todas las familias está entre 8357 Bs y 10 267 Bs.

Consejo Práctico
¶

Si la población tiene una distribución normal, el intervalo de confianza suministrado en la expresión (8.2) es exacto y se puede usar con cualquier tamaño de muestra.
Si la población no sigue una distribución normal, el intervalo de confianza en la expresión (8.2) será aproximado. En este caso la calidad de la aproximación depende tanto de la distribución de la población como del tamaño de la muestra.

En la mayoría de las aplicaciones, un tamaño de muestra $n\geq30$ es suficiente al usar la expresión (8.2) para obtener una estimación por intervalo de la media poblacional. Sin embargo,si la distribución de la población es muy sesgada o si hay observaciones atípicas, se recomienda un tamaño de muestra de 50 o más. Si la población no tiene una distribución normal pero es más o menos simétrica, con un tamaño de muestra de 15 puede esperarse una buena aproximación al intervalo de confianza. Con muestras más pequeñas la expresión (8.2) sólo debe usarse si el analista cree, o está dispuesto a suponer, que la distribución de la población es por lo menos aproximadamente normal.

Uso de una muestra pequeña
¶

En el ejemplo siguiente se desarrolla una estimación por intervalo para una media poblacional manejando una muestra pequeña. Como ya se indicó, conocer la distribución de la población es importante para decidir si mediante una estimación por intervalo se obtendrán resultados aceptables. Wiltech considera un nuevo programa asistido por computadora destinado a capacitar a los empleados de mantenimiento para reparar las máquinas. Con objeto de evaluar este programa, el director de manufactura solicita una estimación de la media poblacional del tiempo requerido para que los empleados de mantenimiento completen la capacitación asistida por computadora. Considere una muestra de 20 individuos que siguen el programa de capacitación. En la tabla 8.4 se muestran los datos del tiempo, en días, que necesitó cada uno para completar el programa.

Figura 8.6 Intervalo de confianza para el estudio de los saldos en las tarjetas de crédito
<

Variable	N	Media	Desviación Estándar	Error Estándar de la Media	Intervalo de za
NewBalance	70	9,312	4,007	479	(8,357, 10,267

TABLA 8.4 Duración de la capacitación, en días, para la muestra de 20 empleados de Wiltech

52	59	54	42
44	50	42	48
55	54	60	55
44	62	62	57
45	46	43	56

En la figura 8.7 aparece un histograma de los datos. Con base en éste, ¿qué se puede decir de la distribución de la población?
Figura 8.7 Histograma sobre la duración de la capacitación en la muestra de Wiltech

In [15]:

Copied!





import matplotlib.pyplot as plt

# Datos proporcionados
duraciones = [40, 45, 50, 55, 60, 65]
frecuencias = [5, 3, 4, 5, 3]

# Crear figura
fig, ax = plt.subplots()

# Crear histograma con color personalizado
ax.bar(duraciones[:-1], frecuencias, width=5, edgecolor='black', color='#5ccb5f')

# Configurar etiquetas y título
ax.set_xlabel('Duración de capacitación (días)')
ax.set_ylabel('Frecuencia')
ax.set_title('Histograma de Duración de Capacitación')

# Ajustar el color de fondo
ax.set_facecolor("#d4f8b7")
# Pintar el fondo externo del gráfico
fig.patch.set_facecolor('#D4F8B7')

# Agregar borde externo
for spine in ax.spines.values():
    spine.set_edgecolor('#009929')

# Mostrar el histograma
plt.show()
import matplotlib.pyplot as plt

# Datos proporcionados
duraciones = [40, 45, 50, 55, 60, 65]
frecuencias = [5, 3, 4, 5, 3]

# Crear figura
fig, ax = plt.subplots()

# Crear histograma con color personalizado
ax.bar(duraciones[:-1], frecuencias, width=5, edgecolor='black', color='#5ccb5f')

# Configurar etiquetas y título
ax.set_xlabel('Duración de capacitación (días)')
ax.set_ylabel('Frecuencia')
ax.set_title('Histograma de Duración de Capacitación')

# Ajustar el color de fondo
ax.set_facecolor("#d4f8b7")
# Pintar el fondo externo del gráfico
fig.patch.set_facecolor('#D4F8B7')

# Agregar borde externo
for spine in ax.spines.values():
    spine.set_edgecolor('#009929')

# Mostrar el histograma
plt.show()

Primero, con base en los datos muestrales, no es posible concluir que la población sea normal, si bien no se tienen evidencias de sesgo o de observaciones atípicas. Por tanto, mediante los lineamientos de la subsección anterior, se concluye que una estimación por intervalo basada en la distribución t parece ser aceptable para esta muestra de 20 empleados.

A continuación se calcula la media muestral y la desviación estándar muestral. $$\bar{x}=\frac{Σx_{i}}{n}=\frac{1030}{20}=51.5 días$$

$$s=\sqrt{\frac{Σ(x_{i}-\bar{x})^2}{n-1}}=\sqrt{\frac{889}{20-1}}=6.84 días$$ Para dar un intervalo de confianza de 95%, se usa la tabla 8.2 con $n-1=19$ grados de libertad y se obtiene $t_{0.025}=2.093$. La expresión (8.2) suministra la estimación por intervalo de la media poblacional. $$51.5 ± 2.093(\frac{6.84}{\sqrt{20}})$$ $$51.5 ± 3.2$$ La estimación puntual de la media poblacional es 51.5 días. El margen de error es 3.2 días y el intervalo de confianza de 95% va de $51.5 - 3.2 = 48.3$ días a $51.5 + 3.2 = 54.7$ días. Usar un histograma de los datos muestrales para tener información acerca de la distribución de la población no es siempre concluyente, pero en muchos casos es la única información disponible. El histograma, junto con la opinión del analista, suele utilizarse para decidir si es adecuado usar la expresión (8.2) para obtener una estimación por intervalo.

Resumen de los procedimientos de estimación por intervalo
¶

Se presentaron dos métodos para calcular una estimación por intervalo de la media poblacional.

En el caso en que σ es conocida, en la expresión (8.1) se usan σ y la distribución normal estándar para calcular el margen de error y la estimación por intervalo.
En el caso en que $σ$ no es conocida, en la expresión (8.2) se utilizan la desviación estándar muestral s y la distribución t para calcular el margen de error y desarrollar la estimación por intervalo.

A continuacion se presenta un resumen de los procedimientos para la estimación por intervalo de los dos casos. En la mayoría de las aplicaciones, un tamaño de muestra $n\geq30$ es adecuado. Sin embargo, si la población tiene distribución normal o aproximadamente normal
FIGURA 8.8 Resumen de los procedimientos para la estimación por intervalo de la media poblacional

NOTAS Y COMENTARIOS
¶

En los casos en que conoce $σ$, el margen de error, $z_{α/2}(σ/\sqrt{n})$, es fijo y es el mismo para todas las muestras de tamaño n. Cuando σ no se conoce, el margen de error, $t_{α/2}(s/\sqrt{n})$, varía de una muestra a otra. Esta variación se debe a que la desviación estándar muestral s cambia de acuerdo con la muestra que se seleccione. Si s es grande, se obtiene un margen de error mayor, mientras que si s es pequeña, se obtiene un margen de error menor.
¿Qué sucede con las estimaciones por intervalo cuando la población es sesgada? Considere una población sesgada a la derecha en la cual los datos con valores grandes jalan la distribución hacia esa dirección. Cuando existe un sesgo así, hay una correlación positiva entre la media muestral $\bar{x}$ y la desviación estándar muestral s. Valores mayores de s tienden a corresponderse con valores mayores de $\bar{x}$ De esta manera, cuando x es mayor que la media poblacional, s tiende a ser mayor que σ. Este sesgo hace que el margen de error, $t_{α/2}(s/\sqrt{n})$ sea mayor de lo que sería si se conociera $σ$. Un intervalo de confianza con un margen de error mayor tenderá a incluir con más frecuencia la media poblacional $𝜇$ que si se usara el verdadero valor $σ$. Pero cuando $\bar{x}$ es menor que la media poblacional, la correlación entre $\bar{x}$ y s hace que el margen de error sea más pequeño. En este caso, dichos intervalos de confianza con menor margen de error incluirán la media poblacional menos veces que si se conociera y se usara σ. Por esta razón se recomienda usar tamaños de muestra más grandes cuando la distribución de la población es muy sesgada.

Ejercicios
¶

Metodos¶

En la distribución t con 16 grados de libertad, encuentre el área, o la probabilidad, de cada una de las regiones siguientes. a) A la derecha de 2.120

b) A la izquierda de 1.337

c) A la izquierda de -1.746

d) A la derecha de 2.583

e) Entre -2.120 y 2.120

f ) Entre -1.746 y 1.746

In [ ]:

Copied!





from scipy.stats import t

grados_libertad = 16

# a) A la derecha de 2.120
area_a = t.sf(2.120, df=grados_libertad)
print("a) A la derecha de 2.120:", area_a)

# b) A la izquierda de 1.337
area_b = t.cdf(1.337, df=grados_libertad)
print("b) A la izquierda de 1.337:", area_b)

# c) A la izquierda de -1.746
area_c = t.cdf(-1.746, df=grados_libertad)
print("c) A la izquierda de -1.746:", area_c)

# d) A la derecha de 2.583
area_d = t.sf(2.583, df=grados_libertad)
print("d) A la derecha de 2.583:", area_d)

# e) Entre -2.120 y 2.120
area_e = t.cdf(2.120, df=grados_libertad) - t.cdf(-2.120, df=grados_libertad)
print("e) Entre -2.120 y 2.120:", area_e)

# f) Entre -1.746 y 1.746
area_f = t.cdf(1.746, df=grados_libertad) - t.cdf(-1.746, df=grados_libertad)
print("f) Entre -1.746 y 1.746:", area_f)
from scipy.stats import t

grados_libertad = 16

# a) A la derecha de 2.120
area_a = t.sf(2.120, df=grados_libertad)
print("a) A la derecha de 2.120:", area_a)

# b) A la izquierda de 1.337
area_b = t.cdf(1.337, df=grados_libertad)
print("b) A la izquierda de 1.337:", area_b)

# c) A la izquierda de -1.746
area_c = t.cdf(-1.746, df=grados_libertad)
print("c) A la izquierda de -1.746:", area_c)

# d) A la derecha de 2.583
area_d = t.sf(2.583, df=grados_libertad)
print("d) A la derecha de 2.583:", area_d)

# e) Entre -2.120 y 2.120
area_e = t.cdf(2.120, df=grados_libertad) - t.cdf(-2.120, df=grados_libertad)
print("e) Entre -2.120 y 2.120:", area_e)

# f) Entre -1.746 y 1.746
area_f = t.cdf(1.746, df=grados_libertad) - t.cdf(-1.746, df=grados_libertad)
print("f) Entre -1.746 y 1.746:", area_f)

Encuentre los valores de t para las situaciones siguientes.

a) Un área de 0.025 en la cola superior, con 12 grados de libertad.

b) Un área de 0.05 en la cola inferior, con 50 grados de libertad.

c) Un área de 0.01 en la cola superior, con 30 grados de libertad.

d) Entre los que queda 90% del área, con 25 grados de libertad.

e) Entre los que queda 95% del área, con 45 grados de libertad.

In [16]:

Copied!





from scipy.stats import t

# a) Un área de 0.025 en la cola superior, con 12 grados de libertad.
t_a = round(t.ppf(1 - 0.025, df=12), 3)
print("a) Valor de t:", t_a)

# b) Un área de 0.05 en la cola inferior, con 50 grados de libertad.
t_b = round(t.ppf(0.05, df=50), 3)
print("b) Valor de t:", t_b)

# c) Un área de 0.01 en la cola superior, con 30 grados de libertad.
t_c = round(t.ppf(1 - 0.01, df=30), 3)
print("c) Valor de t:", t_c)

# d) Entre los que queda 90% del área, con 25 grados de libertad.
t_d_lower = round(t.ppf(0.05, df=25), 3)
t_d_upper = round(t.ppf(0.95, df=25), 3)
print("d) Valores de t:", t_d_lower, t_d_upper)

# e) Entre los que queda 95% del área, con 45 grados de libertad.
t_e_lower = round(t.ppf(0.025, df=45), 3)
t_e_upper = round(t.ppf(0.975, df=45), 3)
print("e) Valores de t:", t_e_lower, t_e_upper)
from scipy.stats import t

# a) Un área de 0.025 en la cola superior, con 12 grados de libertad.
t_a = round(t.ppf(1 - 0.025, df=12), 3)
print("a) Valor de t:", t_a)

# b) Un área de 0.05 en la cola inferior, con 50 grados de libertad.
t_b = round(t.ppf(0.05, df=50), 3)
print("b) Valor de t:", t_b)

# c) Un área de 0.01 en la cola superior, con 30 grados de libertad.
t_c = round(t.ppf(1 - 0.01, df=30), 3)
print("c) Valor de t:", t_c)

# d) Entre los que queda 90% del área, con 25 grados de libertad.
t_d_lower = round(t.ppf(0.05, df=25), 3)
t_d_upper = round(t.ppf(0.95, df=25), 3)
print("d) Valores de t:", t_d_lower, t_d_upper)

# e) Entre los que queda 95% del área, con 45 grados de libertad.
t_e_lower = round(t.ppf(0.025, df=45), 3)
t_e_upper = round(t.ppf(0.975, df=45), 3)
print("e) Valores de t:", t_e_lower, t_e_upper)

a) Valor de t: 2.179
b) Valor de t: -1.676
c) Valor de t: 2.457
d) Valores de t: -1.708 1.708
e) Valores de t: -2.014 2.014

8.3Determinación del tamaño de la muestra

En esta seccion se presenta un procedimiento para determinar el tamaño de muestra que se necesita para teer un margen de error especifico establecido antes de tomar la muestra.

En los consejos prácticos de las dos secciones anteriores se habló del papel del tamaño de la muestra para obtener una buena aproximación a los intervalos de confi anza en los casos en que la población no tiene una distribución normal. Ahora se enfoca la atención en otro aspecto relacionado con el tamaño de la muestra, y se describe cómo elegir un tamaño sufi cientemente grande para obtener un margen de error deseado. Para explicar esto, se vuelve al caso de la sección 8.1 en el que se tenía una σ conocida. Con la expresión (8.1), el intervalo de estimación está dado por:

$$ \bar{x} \pm t_{α/2} \frac{s}{\sqrt{n}}$$

La ecuacion(8.3) proporciona una buena recomendacion del tamaño de la muestra. Sin embargo, la opinion del analista cuenta para determinar si el tamaño de muestra final debe ajustarse hacia arriba.

La cantidad $ z_{\alpha/2} \left( \frac{\sigma}{\sqrt{n}} \right) $ es el margen de error. De manera que, como se ve, $ z_{\alpha/2} $, la desviación estándar poblacional $ \sigma $, y el tamaño de la muestra $ n $ se combinan para determinar el margen de error. Una vez que se selecciona el coeficiente de confianza $1 - \alpha$, $ z_{\alpha/2} $ puede ser determinado. Por tanto, si se tiene el valor de $ \sigma $, es posible encontrar el tamaño de muestra $ n $ necesario para proporcionar cualquier margen de error deseado. A continuación se presenta el desarrollo de la fórmula utilizada para calcular el tamaño $ n $ de muestra deseado.

Sea E = el margen de error deaseado:

$$ E = z_{\alpha/2} \left( \frac{\sigma}{\sqrt{n}} \right) $$

Al despejar $ \sqrt{n} $ tenemos

$$ \sqrt{n} = \left( \frac{z_{\frac{\alpha}{2}} \sigma}{E} \right) $$

Al elevar al cuadrado ambos lados de esta ecuación, se obtiene la expresión siguiente para el tamaño de la muestra.

TAMAÑO DE LA MUESTRA PARA UNA ESTIMACIÓN POR INTERVALO DE LA MEDIA POBLACIONAL

$$ n = \left( \frac{(z_{\frac{\alpha}{2}})^2 \sigma} {E^2}^2 \right)\tag{8,3}$$

Este tamaño de muestra proporciona el margen de error deseado al nivel de confianza elegido. En la ecuación (8.3), $ E $ es el margen de error que el usuario está dispuesto a aceptar, y el valor $ z_{\alpha/2} $ es consecuencia directa del nivel de confianza que se utilizará para calcular la estimación por intervalo. A reserva de la decisión del usuario, el 95% de confianza es el valor más frecuentemente elegido ($ z_{0.025} \approx 1.96 $).

Por último, para usar la ecuación (8.3) es necesario contar con el valor de la desviación estándar poblacional $ \sigma $. Sin embargo, aun cuando este valor no se conozca, puede utilizarse la ecuación (8.3) siempre que se tenga un valor preliminar o un valor planeado de $ \sigma $. En la práctica, suele usarse alguno de los procedimientos siguientes para obtenerlo.

El valor planeado de la desviacion estandar poblacional o debe especificarse antes de determinar el tamaño de la muestra. Aqui se ofrecen tres metodos para obtener este valor planeado de $\sigma$

Se utiliza como valor planeado de $ \sigma $ una estimación de la desviación estándar poblacional calculada a partir de datos de estudios anteriores.

Se opta por un estudio piloto seleccionando una muestra preliminar. La desviación estándar muestral obtenida de la muestra preliminar puede usarse como valor planeado de $ \sigma $.

Se usa el juicio personal para “adivinar el mejor” valor de $ \sigma $. Por ejemplo, se puede empezar por estimar el mayor y el menor valor en los datos de la población. La diferencia entre ambos valores proporciona una estimación del rango de los datos. Por último, este valor dividido entre 4 suele considerarse como una aproximación burda a la desviación estándar y tomarse como un valor planeado aceptable de $ \sigma $.

Se considera el ejemplo siguiente para mostrar el uso de la ecuación (8.3) en la determinación del tamaño de la muestra. En un estudio previo para investigar el costo de la renta de automóviles en Bolivia se encontró que el costo medio de rentar un vehículo mediano era aproximadamente de 200Bs por día. Suponga que la organización que realizó dicho estudio quiere realizar otro para estimar la media poblacional del costo de las rentas por día de automóviles medianos en Bolivia.

Al diseñar el nuevo estudio, el director del proyecto especificó que la media poblacional de las rentas por día debe estimarse con un margen de error de 2Bs y que se desea un nivel de 95% de confianza. El director del proyecto especificó un margen de error deseable de $ E = 2 $, y el nivel de confianza del 95% indica que $ z_{0.025} \approx 1.96 $. Por tanto, sólo falta el valor planeado de la desviación estándar poblacional $ \sigma $ para calcular el tamaño de muestra deseado. En este punto, un analista revisó los datos muestrales del estudio anterior y encontró que la desviación estándar muestral del costo de la renta diaria era 9.65Bs. Al utilizar 9.65Bs como valor planeado de $ \sigma $, tenemos:

$n = \left( \frac{(z_{\frac{\alpha}{2}})^2 \sigma} {E^2}^2 \right)$

$ n = \frac{(1.96)^2 \cdot (9.65)^2}{(2)^2} \approx 89.43 $

De esta manera, el tamaño de muestra necesario para obtener un margen de error de 2Bs debe ser de por lo menos 89.43 rentas de automóviles medianos. En casos como éste, en los que el valor de $ n $ no es un número entero, se redondea al siguiente valor entero; así que el tamaño de muestras que se aconseja es 90 rentas de automóviles medianos.

Ahora resolvemos el ejemplo anterior con python

In [11]:

Copied!





import math

# Datos dados
E = 2  # Margen de error deseado
confianza = 0.95  # Nivel de confianza
z = 1.96  # Valor crítico para el nivel de confianza del 95%
sigma = 9.65  # Desviación estándar muestral

# Calcular el tamaño de muestra
n = math.ceil((z ** 2 * sigma ** 2) / E ** 2)

print(f"Tamaño de muestra necesario: {n}")
#redondeando el resultado seria 90
import math

# Datos dados
E = 2  # Margen de error deseado
confianza = 0.95  # Nivel de confianza
z = 1.96  # Valor crítico para el nivel de confianza del 95%
sigma = 9.65  # Desviación estándar muestral

# Calcular el tamaño de muestra
n = math.ceil((z ** 2 * sigma ** 2) / E ** 2)

print(f"Tamaño de muestra necesario: {n}")
#redondeando el resultado seria 90

Tamaño de muestra necesario: 90

$Ejercicios$
¶

$Métodos$

1. ¿Qué tan grande debe seleccionarse una muestra para tener un intervalo de confianza de 95% con un margen de error de 10? Suponga que la desviación estándar poblacional es 40.

In [10]:

Copied!





import math

# Datos dados
confianza = 0.95  # Nivel de confianza
z= 1.96  # Valor crítico para el nivel de confianza del 95%
sigma = 40  # Desviación estándar poblacional
E = 10  # Margen de error deseado

# Calcular el tamaño de muestra
n = math.ceil((z ** 2 * sigma ** 2) / E ** 2)

print(f"Tamaño de muestra necesario: {n}")
import math

# Datos dados
confianza = 0.95  # Nivel de confianza
z= 1.96  # Valor crítico para el nivel de confianza del 95%
sigma = 40  # Desviación estándar poblacional
E = 10  # Margen de error deseado

# Calcular el tamaño de muestra
n = math.ceil((z ** 2 * sigma ** 2) / E ** 2)

print(f"Tamaño de muestra necesario: {n}")

Tamaño de muestra necesario: 62

2. En un conjunto de datos se estima que el rango es 36.

a) Valor planeado para la desviación estándar poblacional

b) Tamaño de muestra para un margen de error de 3 en un intervalo de confianza del 95%

c) Tamaño de muestra para un margen de error de 2 en un intervalo de confianza del 95%

In [9]:

Copied!





import math

# Datos dados
rango = 36
confianza = 0.95
margen_error_1 = 3
margen_error_2 = 2

# a) Calcular la desviación estándar poblacional
sigma = rango / 6

# b) Calcular el tamaño de la muestra para un margen de error de 3
z = 1.96  # para un intervalo de confianza del 95%
n1 = math.ceil((z * sigma / margen_error_1) ** 2)

# c) Calcular el tamaño de la muestra para un margen de error de 2
n2 = math.ceil((z * sigma / margen_error_2) ** 2)

# Mostrar resultados
print(f"a) Valor planeado para la desviación estándar poblacional: {sigma}")
print(f"b) Tamaño de muestra para margen de error 3: {n1}")
print(f"c) Tamaño de muestra para margen de error 2: {n2}")
import math

# Datos dados
rango = 36
confianza = 0.95
margen_error_1 = 3
margen_error_2 = 2

# a) Calcular la desviación estándar poblacional
sigma = rango / 6

# b) Calcular el tamaño de la muestra para un margen de error de 3
z = 1.96  # para un intervalo de confianza del 95%
n1 = math.ceil((z * sigma / margen_error_1) ** 2)

# c) Calcular el tamaño de la muestra para un margen de error de 2
n2 = math.ceil((z * sigma / margen_error_2) ** 2)

# Mostrar resultados
print(f"a) Valor planeado para la desviación estándar poblacional: {sigma}")
print(f"b) Tamaño de muestra para margen de error 3: {n1}")
print(f"c) Tamaño de muestra para margen de error 2: {n2}")

a) Valor planeado para la desviación estándar poblacional: 6.0
b) Tamaño de muestra para margen de error 3: 16
c) Tamaño de muestra para margen de error 2: 35

$Aplicaciones$

3. Según el informe del Ministro del 3 de febrero de 2006, el costo promedio de un galón de gasolina sin plomo en Greater Cincinnati es 2.41Bs.

Se asume que la desviación estándar en los precios del galón de gasolina sin plomo es de 0.15Bs.

a) Margen de error requerido: 0.07Bs

b) Margen de error deseado: 0.05Bs

c) Margen de error requerido: 0.03Bs

In [6]:

Copied!





import math

# Datos dados
promedio = 2.41
desviacionestandar = 0.15
nivelconfianza = 0.95

# a) Margen de error requerido: $0.07
margenerror1 = 0.07
z = 1.96  # para un intervalo de confianza del 95%
n1 = math.ceil((z * desviacionestandar / margenerror1) ** 2)

# b) Margen de error deseado: $0.05
margenerror2 = 0.05
n2 = math.ceil((z * desviacionestandar / margenerror2) ** 2)

# c) Margen de error requerido: $0.03
margenerror3 = 0.03
n3 = math.ceil((z * desviacionestandar / margenerror3) ** 2)

# Mostrar resultados
print(f"a) Tamaño de muestra para margen de error $0.07: {n1}")
print(f"b) Tamaño de muestra para margen de error $0.05: {n2}")
print(f"c) Tamaño de muestra para margen de error $0.03: {n3}")
import math

# Datos dados
promedio = 2.41
desviacionestandar = 0.15
nivelconfianza = 0.95

# a) Margen de error requerido: $0.07
margenerror1 = 0.07
z = 1.96  # para un intervalo de confianza del 95%
n1 = math.ceil((z * desviacionestandar / margenerror1) ** 2)

# b) Margen de error deseado: $0.05
margenerror2 = 0.05
n2 = math.ceil((z * desviacionestandar / margenerror2) ** 2)

# c) Margen de error requerido: $0.03
margenerror3 = 0.03
n3 = math.ceil((z * desviacionestandar / margenerror3) ** 2)

# Mostrar resultados
print(f"a) Tamaño de muestra para margen de error $0.07: {n1}")
print(f"b) Tamaño de muestra para margen de error $0.05: {n2}")
print(f"c) Tamaño de muestra para margen de error $0.03: {n3}")

a) Tamaño de muestra para margen de error $0.07: 18
b) Tamaño de muestra para margen de error $0.05: 35
c) Tamaño de muestra para margen de error $0.03: 97

4. Los tiempos requeridos para transportarse al trabajo en La Paz se han consignado en el 2003 El imforme de la alcaldia .

Supongamos que se utiliza una muestra aleatoria simple preliminar de los habitantes de San Francisco con el fin de establecer un valor planeado de 6.25 minutos para la desviación estándar poblacional.

a) Margen de error de 2 minutos

b) Margen de error de 1 minuto

In [8]:

Copied!





import math

# Datos dados
desviacion_estandar = 6.25
nivel_confianza = 0.95

# a) Margen de error de 2 minutos
margen_error_1 = 2
z1 = 1.96
n1 = math.ceil((z1 * desviacion_estandar / margen_error_1) ** 2)

# b) Margen de error de 1 minuto
margen_error_2 = 1
z2 = 1.96
n2 = math.ceil((z2 * desviacion_estandar / margen_error_2) ** 2)

# Mostrar resultados
print(f"a) Tamaño de muestra para margen de error de 2 minutos: {n1}")
print(f"b) Tamaño de muestra para margen de error de 1 minuto: {n2}")
import math

# Datos dados
desviacion_estandar = 6.25
nivel_confianza = 0.95

# a) Margen de error de 2 minutos
margen_error_1 = 2
z1 = 1.96
n1 = math.ceil((z1 * desviacion_estandar / margen_error_1) ** 2)

# b) Margen de error de 1 minuto
margen_error_2 = 1
z2 = 1.96
n2 = math.ceil((z2 * desviacion_estandar / margen_error_2) ** 2)

# Mostrar resultados
print(f"a) Tamaño de muestra para margen de error de 2 minutos: {n1}")
print(f"b) Tamaño de muestra para margen de error de 1 minuto: {n2}")

a) Tamaño de muestra para margen de error de 2 minutos: 38
b) Tamaño de muestra para margen de error de 1 minuto: 151

8.4 Proporcion poblacional

Hasta el momento conosemso la formula general para obtener una estimacion por intervalo de la proporcion poblacional P: $$ \bar{p} \pm \text{margen de error} $ $$

La manera en que las muestras son seleccionadas influye directamente en la precisión de las estimaciones por intervalo de una proporción p. La variabilidad en estas muestras juega un papel clave al determinar cuán seguros podemos estar sobre la verdadera proporción en la población general. En el capítulo 7 se ha mencionado que la distribución de muestreo de p se aproxima mediante una distribución normal siempre que: $$ np \geq 5 \quad \text{y} \quad n(1-p) \geq 5 $$

Figura 8.9 Aproximación normal a la distribución de muestreo de $\bar{p}$

In [4]:

Copied!





import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats

# Nivel de significancia
alfa = 0.05

# Generar datos para la distribución normal estándar (z)
x = np.linspace(-4, 4, 1000)
y = stats.norm.pdf(x)

# Encontrar el valor crítico para el nivel de significancia alfa/2
valor_critico = stats.norm.ppf(1 - alfa/2)

# Crear el gráfico con la línea de color verde y etiqueta con el símbolo mu (μ)
plt.figure(figsize=(9, 4))
plt.plot(x, y, label=r'Distribución Normal Estándar ($\mu$)', color='green')  # Cambié el color a verde y añadí el símbolo mu

# Sombrear el área debajo de la línea con un verde más oscuro
plt.fill_between(x, y, color='#5CCB5F', alpha=0.3)

# Etiqueta de texto 1: Distribución de muestreo de x̄
plt.text(-4, 0.20, 'Distribución de muestreo\n   de $\\bar{p}$', ha='left')

# Etiqueta de texto 2: σ/√n
plt.text(3, 0.20, r'$\sigma_\bar{p} = \sqrt{\frac{p(1 - p)}{n}}$', fontsize=12, ha='right')

# Establecer el color de fondo
plt.gca().set_facecolor('#d4f8b7')

plt.text(-2.5, 0.04, '${α/2}$', ha='left')

plt.text(2.5, 0.04, '${α/2}$', ha='left')

plt.text(-1.5, 0.01, '<--$z_{α/2}$-->', ha='left')
plt.text(0.8, 0.01, '<--$z_{α/2}$-->', ha='left')

# Mostrar el gráfico
plt.grid(False)
plt.show()
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats

# Nivel de significancia
alfa = 0.05

# Generar datos para la distribución normal estándar (z)
x = np.linspace(-4, 4, 1000)
y = stats.norm.pdf(x)

# Encontrar el valor crítico para el nivel de significancia alfa/2
valor_critico = stats.norm.ppf(1 - alfa/2)

# Crear el gráfico con la línea de color verde y etiqueta con el símbolo mu (μ)
plt.figure(figsize=(9, 4))
plt.plot(x, y, label=r'Distribución Normal Estándar ($\mu$)', color='green')  # Cambié el color a verde y añadí el símbolo mu

# Sombrear el área debajo de la línea con un verde más oscuro
plt.fill_between(x, y, color='#5CCB5F', alpha=0.3)

# Etiqueta de texto 1: Distribución de muestreo de x̄
plt.text(-4, 0.20, 'Distribución de muestreo\n   de $\\bar{p}$', ha='left')

# Etiqueta de texto 2: σ/√n
plt.text(3, 0.20, r'$\sigma_\bar{p} = \sqrt{\frac{p(1 - p)}{n}}$', fontsize=12, ha='right')

# Establecer el color de fondo
plt.gca().set_facecolor('#d4f8b7')

plt.text(-2.5, 0.04, '${α/2}$', ha='left')

plt.text(2.5, 0.04, '${α/2}$', ha='left')

plt.text(-1.5, 0.01, '<--$z_{α/2}$-->', ha='left')
plt.text(0.8, 0.01, '<--$z_{α/2}$-->', ha='left')

# Mostrar el gráfico
plt.grid(False)
plt.show()

La media de la distribución de muestreo de $ p $ es la proporción poblacional $ p $, y el error estándar de $ p $ es:

$$ \begin{equation} \sigma_\bar{p} = \sqrt{\frac{p(1 - p)}{n}} \tag{8.4} \end{equation} $$

Como la distribución de muestreo de $\bar{p}$ es una distribución normal, en la estimación por intervalo de la proporción poblacional se elige como margen de error $z_{\alpha/2} \cdot \sigma_{\bar{p}}$. Entonces, $ 100(1-\alpha)\% $ de los intervalos que se obtengan contendrán la verdadera proporción poblacional. Sin embargo, para calcular el margen de error, no podemos usar directamente $\sigma_{\bar{p}}$ ya que no se conoce $p$, puesto que se trata de estimarlo. Lo que se hace es que $p$ se sustituye por $\bar{p}$ y de esta manera, el margen de error es dado por:

$$ \begin{equation} \text{Margen de error} = z_{\alpha/2} \cdot \sqrt{\frac{\bar{p}(1-\bar{p})}{n}} \tag{8.5} \end{equation} $$

ESTIMACION POR INTERVALO DE UNA PROPORCION POBLACIONAL

$$ \begin{equation} \bar{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\bar{p}(1-\bar{p})}{n}} \tag{8.6} \end{equation} $$

Donde:

$\bar{p}$ = Coeficiente de confianza.
$z_{\alpha/2}$ = Valor de $z$ que deja un area ${\alpha/2}$ en la cola superior de la distribucion normal estándar.

EJEMPLO:

Un estudio en Bolivia encuestó a $900$ mujeres futbolistas para conocer su opinión acerca de como se les trata en los cursos de futbol, en este estudio se encontro que $396$ estaban satisfechas con la disponibilidad de horarios de salida. Por tanto la estamacion puntual de la proporcion poblacional de futbolistas satisfechas con la disponibilidad de horarios de salida es de $396/900 = 0.44$. Utilizando la expresion $\text(8.5)$ y la $\text(8.6)$ junto al nivel de confianza es de $95$%, calcular el margen de error y la estimación por intervalo para una proporción poblacional.

$$ \begin{equation} \text{Margen de error} = z_{\alpha/2} \cdot \sqrt{\frac{\bar{p}(1-\bar{p})}{n}} \tag{8.5} \end{equation} $$

$$ \begin{equation} \text{Margen de error} = 1.96 \cdot \sqrt{\frac{{0.44}(1-0.44)}{n}} \end{equation} $$

$$ \begin{equation} \text{Margen de error} = 0.0324 \end{equation} $$

Y ahora con la expresion $\text(8.6)$ y reemplazando la proporcion poblacional $0.44$ tenemos:

$$ \begin{equation} \bar{p} \pm 0.0324 \end{equation} $$

$$ \begin{equation} \ 0.44 \pm 0.0324 \end{equation} $$

Empleando porcentajes, los resultados de la investigacion permiten decir que con un $95$ % de confianza que entre $40.76$ % y $47.24$ % de las mujeres futbolistas estan satisfechas con la disponibilidad de horarios de salida.

Determinacion del tamaño de la muestra

Al determinar el tamaño de la muestra para estimar la proporción de una población con cierta precisión, se utiliza una función similar a la empleada en la estimación de la media poblacional. La fórmula para determinar el tamaño de la muestra se asemeja a la utilizada en la estimación de la media poblacional en la formula $\text(8.3)$.

Este margen se basa en el valor de $z_{\alpha/2}$ en la proporcion muestral de $\bar{p}$ y en el tamaño de la muestra $n$.

NOTA: Muestras mayores, márgenes de error menores y con mejor precisión.

Sea $E$ el margen de error deseado:

$$ \begin{equation} \text{E} = z_{\alpha/2} \cdot \sqrt{\frac{\bar{p}(1-\bar{p})}{n}} \end{equation} $$

Si despejamos $n$ de esta formula, obtenemos el tamaño de la muestra para obtener el margen de error deseado $E$ y esta dada por:

$$ \begin{equation} \text{$n$} = \frac{(z_{\alpha/2})^2\bar{p}(1-\bar{p})}{E^2} \end{equation} $$

Sin embargo, si no se conoce $\bar{p}$, no es posible usar esta fórmula para calcular el tamaño de la muestra con el que se obtendrá $E$.

Entonces necesitaremos un valor planeado de $\bar{p}$, con $p^*$ como valor planeado de $\bar{p}$, la formula queda:

TAMAÑO DE LA MUESTAR PARA UNA ESTIMACIÓN POR INTERVALO DE LA PROPORCIÓN POBLACIONAL

$$ \begin{equation} \text{$n$} = \frac{(z_{\alpha/2})^2 \cdot {p^*} \cdot (1-{p^*})}{E^2} \tag{8.7} \end{equation} $$

El valor planeado $p^*$ es determinado mediante:

1. Se utiliza la proporción poblacional de una muestra previa de las mismas unidades o de unidades similares.
2. Se toma un estudio piloto y se elige una muestra preliminar. La proporción muestral de esta muestra se usa como valor planeado, $p^*$.
3. Se utiliza el criterio o una “mejor aproximación” para el valor de $p^*$.
4. Si no es aplicable ninguna de las alternativas anteriores, se emplea como valor planeado $p^* = 0.50$.

Volviendo al ejemplo, de mujeres futbolistas, spongamos que la empresa desea llevar a cabo otra investigación para determinar la proporcion actual en la poblacion de futbolistas que esta satisfecha con la disponibilidad de horarios de salida. ¿De qué tamaño debe ser la muestra si se desea en la estimacion de la proporcion poblacional un margen de error de $0.025$ a $95$% de confianza?

DATOS:

$E = 0.025$
$z_{\alpha/2} = 1.96$
$\bar{p} = 0.44$

Con la ecuacion $(8.7)$ tenemos que:

\begin{equation} \text{$n$} = \frac{(z_{\alpha/2})^2 \cdot {p^*} \cdot (1-{p^*})}{E^2} \end{equation} \begin{equation} \text{$n$} = \frac{(1.96)^2 \cdot {(0.44)} \cdot (1-{0.44})}{(0.025)^2} \end{equation} \begin{equation} \text{$n$} = 1514.5 \end{equation}

Entonces tenemos que, el tamaño de muestra debe ser por lo menos $1514.5$ mujeres futbolistas para satisfacer el margen de error requerido. Redondeando, tenemos que se necesitan $1515$ futbolistas para obtener el margen de error deseado.

TABLA 8.5 Valores posibles de $p^*(1-p^*)$

*$p^$**	*$p^$$(1$$- p^$$)$*
0.10	(0.10)(0.90) = 0.09
0.30	(0.30)(0.70) = 0.21
0.40	(0.40)(0.60) = 0.24
0.50	(0.50)(0.50) = 0.25	<---------- máximo valor de $p^(1-p^)$
0.60	(0.60)(0.40) = 0.24
0.70	(0.70)(0.30) = 0.21
0.90	(0.90)(0.10) = 0.09

Seleccionar $p^* = 0.50$ es una alternativa simple cuando no hay informacion especifica disponible. Esto se debe a que, según la ecuacion $(8.7)$, el tamaño de la muestar es proporcional a $p^*(1-p^*)$. Cuando $p^*(1-p^*)$ es grande, el tamaño de la muestra tambien lo es. Escoger $p^* = 0.50$ garantiza el tamaño de la muestra maxima posible cuando no esta seguro del valor planificado. Esto significa que, incluso si la proporcion muestral difiere del valor planificado, el margen de error sera menor de lo esperado.
En resumen, al usar $p^* = 0.50$, aseguramos que el tamaño de la muestra sea suficiente para obtener la precision deseada, incluso en situaciones de incertidumbre sobre la proporcion real en la poblacion.

Volviendo otra vez, al ejemplo, si se usa como valor planteado $p^* = 0.50$, el tamaño de muestra que se obtiene es:

\begin{equation} \text{$n$} = \frac{(z_{\alpha/2})^2 \cdot {p^*} \cdot (1-{p^*})}{E^2} \end{equation} \begin{equation} \text{$n$} = \frac{(1.96)^2 \cdot {(0.50)} \cdot (1-{0.50})}{(0.025)^2} \end{equation} \begin{equation} \text{$n$} = 1536.6 \end{equation}

Es decir, una muestra ligeramente mayor: $1537$ mujeres futbolistas.

8.5 Un poco mas de conocimiento

Glosario
¶

σ Conocida Este dato se usa para obtener un valor confiable de la desviación estándar poblacional antes de tomar una muestra. Este valor conocido (σ) se emplea en la estimación por intervalo para calcular el margen de error.
σ Desconocida Este es un caso común, para estimar la desviación estándar poblacional antes de tomar la muestra. En la estimación por intervalo se usa la desviación estándar muestral $s$ para calcular el margen de error
Coeficiente de confianza Nivel de confianza expresado como valor decimal.
Distribucion $t$ Es una familia de distribuciones utilizada para estimar por intervalo la media poblacional cuando la desviación estándar poblacional no es conocida y se estima con la desviación estándar muestral.
Estimación por intervalo Proporciona un rango que se cree contiene el valor del parámetro, utilizando una fórmula que combina la estimación puntual y el margen de error.
Grados de libertad Son un parámetro esencial. Cuando esta distribución se emplea para realizar una estimación por intervalo de la media poblacional, la distribución t asociada tiene n - 1 grados de libertad, siendo n el tamaño de la muestra aleatoria simple.
Margen de error Es el valor que se suma y resta de la estimación puntual.
Nivel de confianza Asociado con la probabilidad de que el intervalo contenga el parámetro poblacional. Por ejemplo, un nivel de confianza del 95% indica que el 95% de los intervalos estimados contendrán el parámetro.

Fórmulas clave

Estimación por intervalo de la media poblacional: $\sigma$ conocida

$$ \begin{equation} \bar{x} \pm z_{α/2} \frac{\sigma}{\sqrt{n}}\tag{8.1} \end{equation} $$

Estimación por intervalo de la media poblacional: $\sigma$ desconocida

$$ \begin{equation} \bar{x} \pm t_{α/2} \frac{s}{\sqrt{n}}\tag{8.2} \end{equation} $$

Tamaño de la muestra para una estimación por intervalo de la media poblacional

$$ \begin{equation} \text{$n$} = \frac{(z_{\alpha/2})^2\sigma^2}{E^2}\tag{8.3} \end{equation} $$

Estimación por intervalo de una proporción poblacional

$$ \begin{equation} \bar{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\bar{p}(1-\bar{p})}{n}}\tag{8.6} \end{equation} $$

Tamaño de la muestra para una estimación por intervalo de la proporcion poblacional

$$ \begin{equation} \text{$n$} = \frac{(z_{\alpha/2})^2 \cdot {p^*} \cdot (1-{p^*})}{E^2}\tag{8.7} \end{equation} $$

Estimación por intervalo con Minitab

A continuación se describe cómo usar Minitab para obtener intervalos de confi anza de la media poblacional y la proporción poblacional

Media poblacional: σ conocida
¶

Para calcular un intervalo de confianza del 95% para estimar la media poblacional con desviación estándar conocida, sigue estos pasos:

Abre Minitab y selecciona "Stat" en el menú.
Elige "Basic Statistics".
Selecciona "1-Sample Z".
En el cuadro de diálogo "1-Sample Z":

Ingresa los datos de la muestra en la columna designada, por ejemplo, en C1.
Ingresa el valor de la desviación estándar poblacional, por ejemplo, 20.

Luego, haz clic en "OK". Por defecto, Minitab empleará un nivel de confianza del 95%. Si deseas especificar otro nivel de confianza, como el 90%, sigue estos pasos adicionales:
Después de seleccionar "1-Sample Z", elige "Options".
En el cuadro de diálogo "1-Sample Z-Options":

Ingresa el nivel de confianza deseado, por ejemplo, 90, en el cuadro de "Confidence level".

Finalmente, haz clic en "OK" para obtener el intervalo de confiaol> de confianza.

Media poblacional: σ desconocida
¶

Utilizando una muestra de 70 hogares con datos de saldos en tarjetas de crédito en la columna Cl de una hoja de cálculo en Minitab, se ilustra la estimación por intervalo para la media poblacional. En lugar de la desviación estándar poblacional σ, se estima utilizando la desviación estándar muestral s. Sigue estos pasos:

Abre el menú "Stat".
Selecciona "Basic Statistics".
Escoge "1-Sample t".
En el cuadro de diálogo "1-Sample t":

Ingresa los datos de la muestra en la columna especificada, por ejemplo, C1.

Haz clic en "OK".

Por defecto, Minitab usa un nivel de confianza del 95%. Para especificar otro nivel, como 90%, sigue estos pasos adicionales:

Después de seleccionar "1-Sample t", selecciona "Options".
En el cuadro de diálogo "1-Sample t-Options":

Ingresa el nivel de confianza deseado, por ejemplo, 90, en el campo de "Confidence level".

Haz clic en "OK".

Proporción poblacional
¶

Se utiliza la información de mujeres golfistas, registradas como 'Sí' o 'No' en la disponibilidad de horarios de salida en la columna C1 de Minitab, para calcular un intervalo de confianza del 95% sobre la proporción de golfistas satisfechas con los horarios de salida. Los pasos son:

Abre Minitab y selecciona 'Stat'.
Escoge 'Basic Statistics'.
Selecciona '1 Proportion'.
Ingresa los datos de la muestra en la columna indicada (por ejemplo, C1).
Selecciona 'Options' y elige 'Use test and interval based on normal distribution'. Haz clic en 'OK'.
Obtendrás el intervalo de confianza predeterminado del 95%. Para cambiar el nivel de confianza, como a 90%, ingresa este valor en 'Confidence Level' dentro de 'Options' en el paso 5.

Recuerda: Minitab asume el segundo valor en orden alfabético como la proporción de interés. Si este no es el caso, puedes definir un orden personalizado en Minitab para obtener la respuesta deseada.

rden personalizado.

In [17]:

Copied!

from IPython.display import YouTubeVideo
youtube_video = YouTubeVideo('Sf5TvUPp-rc')
display(youtube_video)
from IPython.display import YouTubeVideo
youtube_video = YouTubeVideo('Sf5TvUPp-rc')
display(youtube_video)

Estimación por intervalo usando Excel

A continuación se describe el uso de Excel para calcular intervalos de confi anza para la media poblacional y la proporción poblacional

Media poblacional: σ conocida
¶

La estimación por intervalo se ilustra con el ejemplo de Lloyd's en la sección 8.1, asumiendo una desviación estándar poblacional conocida σ = 20. Los gastos de una muestra de 100 clientes están en la columna A de Excel. Para calcular el margen de error y la media poblacional, sigue estos pasos:

Haz clic en la ficha "Data" en la cinta de opciones.
En el grupo "Analysis", selecciona "Data Analysis".
Elige "Descriptive Statistics" de la lista "Analysis Tools".
En el cuadro de diálogo "Descriptive Statistics":

Ingresa "A1:A101" en el cuadro "Input Range".
Selecciona "Grouped by Columns".
Elige "Labels in First Row".
Selecciona "Output Range".
Ingresa "C1" en el cuadro "Output Range".
Selecciona "Summary Statistics".
Haz clic en "OK".

El resumen estadístico aparecerá en las columnas C y D. Continúa con el cálculo del margen de error usando la función "CONFIDENCE" de Excel de la siguiente manera:

Selecciona la celda C16 e ingresa el título "Margin of error".
Elige la celda D16 e ingresa la fórmula de Excel "CONFIDENCE(0.5,20,100)".
Los tres parámetros de esta función son:
- Alfa = 1 - coeficiente de confianza = 0.95 = 0.05.
- Desviación estándar poblacional = 20.
- Tamaño de la muestra = 100 (Nota: Aparece como Count en la celda D15).

La estimación puntual de la media poblacional está en la celda D3 y el margen de error en la celda D16. Estos valores permiten calcular fácilmente el intervalo de confianza para la media poblacional.

Media poblacional: σ desconocida
¶

La estimación por intervalo se ilustra con los datos de la tabla 8.2, donde se registran los saldos en las tarjetas de crédito de 70 hogares en la columna A de Excel. Sigue estos pasos para calcular la estimación puntual y el margen de error de la media poblacional:

Haz clic en la ficha "Data" en la cinta de opciones.
En el grupo "Analysis", selecciona "Data Analysis".
Elige "Descriptive Statistics" de la lista "Analysis Tools".
En el cuadro de diálogo "Descriptive Statistics":

Ingresa "A1:A71" en el cuadro "Input Range".
Selecciona "Grouped by Columns".
Elige "Labels in First Row".
Selecciona "Output Range".
Ingresa "C1" en el cuadro "Output Range".
Selecciona "Summary Statistics".
Elige "Confidence Level for Mean".
Ingresa "95" en el cuadro "Confidence Level for Mean".
Haz clic en "OK".

El resumen estadístico aparecerá en las columnas C y D. La estimación puntual de la media poblacional se presenta en la celda D3. El margen de error aparecerá como "Confidence Level(95.0%)" en la celda D16. Estos valores ($9,312 y $955, respectivamente) permiten estimar con facilidad el intervalo de confianza para la media poblacional.

In [18]:

Copied!

from IPython.display import YouTubeVideo
youtube_video = YouTubeVideo('WUEANlXlnfc')
display(youtube_video)
from IPython.display import YouTubeVideo
youtube_video = YouTubeVideo('WUEANlXlnfc')
display(youtube_video)

Estimación por intervalo con StatTools

En este apéndice se muestra el uso de StatTools para establecer una estimación por intervalo de una media poblacional cuando se desconoce σ, y determinar el tamaño de la muestra necesario para obtener el margen de error deseado.

Estimación por intervalo de la media poblacional : caso de σ desconocida
¶

Para estimar la desviación estándar poblacional σ utilizando la desviación estándar muestral s de los saldos en las tarjetas de crédito de la tabla 8.3, sigue estos pasos utilizando StatTools para calcular un intervalo de confianza del 95% para la media poblacional:

Haz clic en la ficha "StatTools" en la cinta de opciones.
En el grupo "Analyses", selecciona "Statistical Inference".
Elige la opción "Confidence Interval".
Selecciona "Mean/Std. Deviation".
En el cuadro de diálogo "StatTools-Confidence Interval for Mean/Std. Deviation":

En "Analysis Type", elige "One-Sample Analysis".
En la sección "Variables", selecciona "NewBalance".
En la sección "Confidence Intervals to Calculate":

Elige "For the Mean".
Selecciona "95%" en "Confidence Level".

Haz clic en "OK".

Aparecerán estadísticos descriptivos y el intervalo de confianza estimado.

8.1 Media poblacional: $\sigma$ conocida

Margen de error y estimación por intervalo

Consejo práctico

NOTAS Y COMENTARIOS

8.2Media poblacional: $\sigma$ desconocida

Margen de error y estimación por intervalo¶

Consejo Práctico¶

Uso de una muestra pequeña ¶

Resumen de los procedimientos de estimación por intervalo¶

NOTAS Y COMENTARIOS¶

Ejercicios¶

Metodos¶

8.3Determinación del tamaño de la muestra

$Ejercicios$¶

a) Valor planeado para la desviación estándar poblacional

b) Tamaño de muestra para un margen de error de 3 en un intervalo de confianza del 95%

c) Tamaño de muestra para un margen de error de 2 en un intervalo de confianza del 95%

a) Margen de error requerido: 0.07Bs

b) Margen de error deseado: 0.05Bs

c) Margen de error requerido: 0.03Bs

a) Margen de error de 2 minutos

b) Margen de error de 1 minuto

8.4 Proporcion poblacional

EJEMPLO:

Determinacion del tamaño de la muestra

8.5 Un poco mas de conocimiento

Glosario¶

Fórmulas clave

Estimación por intervalo con Minitab

Media poblacional: σ conocida¶

Media poblacional: σ desconocida ¶

Proporción poblacional ¶

Estimación por intervalo usando Excel

Media poblacional: σ conocida ¶

Media poblacional: σ desconocida ¶

Estimación por intervalo con StatTools

Estimación por intervalo de la media poblacional : caso de σ desconocida ¶

Margen de error y estimación por intervalo
¶

Consejo Práctico
¶

Uso de una muestra pequeña
¶

Resumen de los procedimientos de estimación por intervalo
¶

NOTAS Y COMENTARIOS
¶

Ejercicios
¶

$Ejercicios$
¶

Glosario
¶

Media poblacional: σ conocida
¶

Media poblacional: σ desconocida
¶

Proporción poblacional
¶

Media poblacional: σ conocida
¶

Media poblacional: σ desconocida
¶

Estimación por intervalo de la media poblacional : caso de σ desconocida
¶