7.1 EL PROBLEMA DE MUESTREO DE ELECTRONICS ASSOCIATES
7.2 SELECCIÓN DE UNA MUESTRA
- Muestreo de una población finita
- Muestreo de una población infinita
7.3 ESTIMACIÓN PUNTUAL
- Consejo práctico
7.4 INTRODUCCIÓN A LAS DISTRIBUCIONES MUESTRALES O DE MUESTREO
7.5 DISTRIBUCIÓN DEMUESTREO DE LA MEDIA MUESTRAL X
- Valor esperado de la media muestral x
- Desviación estándar de la media muestral x
- Forma de la distribución de muestreo de la media muestral x
- Distribución de muestreo de la media muestral x en el problema EAI
- Valor práctico de la distribución de muestreo de la media muestral x
- Relación entre el tamaño dela muestra y la distribución de muestreo de la media muestral x
7.6 DISTRIBUCIÓN DE MUESTREO DE LA PROPORCION MUESTRAL p
- Valor esperado de la proporcion muestral p
- Desviación estándar de la proporcion muestral p
- Forma de la distribución de muestreo de la proporcion muestral p
- Valor práctico de la distribución de muestreo de la proporcion muestral p
7.7 PROPIEDADES DE LOSESTIMADORES PUNTUALES
- Insesgadez
- Eficiencia
- Consistencia
7.8 OTROS MÉTODOS DE MUESTREO
- Muestreo aleatorio estratificado
- Muestreo por conglomerados
- Muestreo sistemático
- Muestreo de conveniencia
- MMuestreo subjetivo
-
La Papelera - Innovación en la Producción de Papel
La Papelera, una empresa líder a nivel global en la producción de papel y productos derivados, se destaca en la fabricación de embalajes, papeles especiales, bienes de consumo y de oficina, así como en la elaboración de sustancias químicas especiales. Con una plantilla de más de 25,000 empleados, La Papelera opera en más de 25 países y brinda sus servicios a clientes en todo el mundo. Su posición destacada en la producción de papel se evidencia en una capacidad anual de 1.5 millones de toneladas.
El enfoque estratégico de La Papelera incluye el uso eficiente del muestreo como herramienta fundamental para recopilar información diversa y mantener su competitividad. Un ejemplo significativo es la gestión de sus recursos forestales, que sirven como materia prima esencial para gran parte de su línea de productos. Los consultores internos aplican el muestreo aleatorio para obtener datos clave sobre la población forestal, tales como el volumen actual de los bosques, su historial de crecimiento y las proyecciones futuras. Estos datos son cruciales para la planificación a largo plazo y la programación de actividades como la tala de árboles.
El proceso de muestreo en La Papelera implica la subdivisión de los bosques en secciones, la identificación de puntos muestrales aleatorios y la recopilación de datos en campo mediante equipos especializados, que incluyen expertos forestales. La información recopilada se registra en el sistema de inventario forestal continuo (IFC) de la empresa, generando informes detallados con estadísticas sobre la composición de especies, volumen actual de los bosques, tasas de crecimiento históricas y proyecciones futuras. Este enfoque estadístico proporciona la base necesaria para una gestión efectiva y sostenible de los recursos forestales de La Papelera.
En este contexto, se examina el muestreo aleatorio simple, el proceso de selección de muestras, y el uso de estadísticos como la media muestral y la proporción muestral para estimar características clave de la población forestal de La Papelera.
# Instala la biblioteca IPython para mostrar HTML
!pip install IPython
# Importa la clase HTML de la biblioteca IPython
from IPython.display import HTML
# Define la función para mostrar el video de YouTube centrado
def display_centered_youtube_video(video_id, width=560, height=315):
video_url = f"https://www.youtube.com/embed/{video_id}"
iframe_code = f'<div style="display: flex; justify-content: center; align-items: center; height: 100%;"><iframe width="{width}" height="{height}" src="{video_url}" frameborder="0" allowfullscreen></iframe></div>'
display(HTML(iframe_code))
# Reemplaza "Y7oKqrV4Bmw" con el ID de tu video de YouTube
video_id = "Y7oKqrV4Bmw"
# Muestra el video de YouTube centrado
display_centered_youtube_video(video_id)
Requirement already satisfied: IPython in /usr/local/lib/python3.10/dist-packages (7.34.0) Requirement already satisfied: setuptools>=18.5 in /usr/local/lib/python3.10/dist-packages (from IPython) (67.7.2) Requirement already satisfied: jedi>=0.16 in /usr/local/lib/python3.10/dist-packages (from IPython) (0.19.1) Requirement already satisfied: decorator in /usr/local/lib/python3.10/dist-packages (from IPython) (4.4.2) Requirement already satisfied: pickleshare in /usr/local/lib/python3.10/dist-packages (from IPython) (0.7.5) Requirement already satisfied: traitlets>=4.2 in /usr/local/lib/python3.10/dist-packages (from IPython) (5.7.1) Requirement already satisfied: prompt-toolkit!=3.0.0,!=3.0.1,<3.1.0,>=2.0.0 in /usr/local/lib/python3.10/dist-packages (from IPython) (3.0.41) Requirement already satisfied: pygments in /usr/local/lib/python3.10/dist-packages (from IPython) (2.16.1) Requirement already satisfied: backcall in /usr/local/lib/python3.10/dist-packages (from IPython) (0.2.0) Requirement already satisfied: matplotlib-inline in /usr/local/lib/python3.10/dist-packages (from IPython) (0.1.6) Requirement already satisfied: pexpect>4.3 in /usr/local/lib/python3.10/dist-packages (from IPython) (4.9.0) Requirement already satisfied: parso<0.9.0,>=0.8.3 in /usr/local/lib/python3.10/dist-packages (from jedi>=0.16->IPython) (0.8.3) Requirement already satisfied: ptyprocess>=0.5 in /usr/local/lib/python3.10/dist-packages (from pexpect>4.3->IPython) (0.7.0) Requirement already satisfied: wcwidth in /usr/local/lib/python3.10/dist-packages (from prompt-toolkit!=3.0.0,!=3.0.1,<3.1.0,>=2.0.0->IPython) (0.2.12)
En el capítulo 1 se presentaron las siguientes definiciones de los términos elemento, población y muestra.
- Un elemento es la entrada en la que se recolectan los datos.
- Una población es el conjunto de todos los elementos de interés.
- Una muestra es un subconjunto de la población. La razón por la que se selecciona una muestra estriba en recabar datos para realizar una inferencia y responder una pregunta de investigación acerca de una población.
Para empezar, se presentan dos ejemplos en los que se utiliza el muestreo para responder una pregunta de investigación acerca de una población.
- Los miembros de un partido político en Texas consideraban postular a un determinado candidato para el Senado, y los dirigentes del partido querían estimar la proporción de votantes registrados en el estado que podían apoyarlo. Por tanto, se seleccionó una muestra de 400 votantes registrados en Texas, y 160 de este total indicaron estar a favor del candidato. Así, una estimación de la proporción de la población de votantes registrados a favor del candidato es 160/400 = 0.40.
- Un fabricante de llantas está considerando producir un nuevo modelo que ofrezca mayor duración que los actuales neumáticos de línea de la empresa. Para estimar la duración media, en millas, el fabricante selecciona una muestra de 120 neumáticos nuevos para probarlos. De los resultados de esta prueba se obtiene una media muestral de 36,500 millas. Por tanto, una estimación de la vida útil media de la población de nuevas llantas es 36,500 millas.
Los resultados muestrales ofrecen solo estimaciones de las características de la población, no exactitudes precisas. Debido a que las muestras representan solo una fracción de la población, se esperan errores de muestreo. Afortunadamente, existen procedimientos estadísticos para evaluar la calidad de estas estimaciones.
Se definen términos clave, como población muestreada (de donde se extrae la muestra) y marco (la lista de elementos de donde se selecciona la muestra). En ejemplos, la población muestreada puede ser finita, como los votantes registrados en Texas, o conceptualmente infinita, como en el caso de muestras de neumáticos obtenidas de un proceso productivo.
El capítulo se enfoca en cómo utilizar el muestreo aleatorio simple para seleccionar muestras de poblaciones finitas e infinitas. Se explora la selección de muestras aleatorias simples en situaciones específicas. Se discute el uso de estas muestras para calcular estimaciones de media, desviación estándar y proporción poblacional. Se introduce la distribución de muestreo, crucial para evaluar la precisión de las estimaciones en comparación con los parámetros poblacionales. Además, se presentan alternativas al muestreo aleatorio simple comúnmente utilizadas en la práctica
7.1 El problema de muestreo de Electronics Associates¶
Media poblacional $\mu = 51,800$
Desviación estándar poblacional $\sigma = 4,000$
Los datos muestran que 1,500 de los 2,500 gerentes han completado el programa de capacitación. Las características numéricas de la población, como la media $\mu = \$51,800$ y la desviación estándar $\sigma = \$4,000$ de los sueldos anuales, junto con la proporción de gerentes capacitados $\rho = 0.60$, son parámetros poblacionales. La pregunta ahora es cómo el director de personal puede obtener estimaciones de estos parámetros utilizando una muestra de 30 gerentes en lugar de estudiar a toda la población de 2,500 sujetos. El uso de una muestra es más eficiente en términos de tiempo y costo para elaborar perfiles. Si una muestra de 30 gerentes proporciona información adecuada sobre la población completa, se explorará cómo determinarla.
7.2 Seleccion de una muestra¶
Muestreo de una población finita
Los estadísticos sugieren el uso de muestras de probabilidad al muestrear de una población finita, ya que facilita inferencias estadísticas válidas. El muestreo aleatorio simple, donde cada muestra de tamaño $\eta$ tiene igual probabilidad de selección, es el tipo más básico de muestra de probabilidad.
Bloc con sangría
MUESTREO ALEATORIO SIMPLE (POBLACION FINITA)
Una muestra aleatoria simple de tamaño n de una población finita de tamaño N es una
muestra seleccionada de manera que cada posible muestra de tamaño n tenga la misma
probabilidad de ser seleccionada.
Para seleccionar una muestra aleatoria simple de una población finita, se eligen los elementos uno a uno, asegurando que cada elemento restante tenga igual probabilidad de ser seleccionado en cada paso. Así se cumple con la definición de muestra aleatoria simple. Para realizar esto con la población finita de gerentes de EAI, se asigna un número a cada sujeto, por ejemplo, del 1 al 2,500 en orden.
TABLA 7.1 Números aleatorios
Tabla 7.2 Sueldo anual y situación respecto del programa de capacitación para una muestra aleatoria simple de 30 gerentes de EAI
63 271 | 59 986 | 71 744 | 51 102 | 15 141 | 80 714 | 58 683 | 93 108 | 13 554 | 79 945 |
88 547 | 09 896 | 95 436 | 79 115 | 08 303 | 01 041 | 20 030 | 63 754 | 08 459 | 28 364 |
55 957 | 57 243 | 83 865 | 09 911 | 19 761 | 66 535 | 40 102 | 26 646 | 60 147 | 15 702 |
46 276 | 87 453 | 44 790 | 67 122 | 45 573 | 84 358 | 21 625 | 16 999 | 13 385 | 22 782 |
55 363 | 07 449 | 34 835 | 15 290 | 76 616 | 67 191 | 12 777 | 21 861 | 68 689 | 03 263 |
69 393 | 92 785 | 49 902 | 58 447 | 42 048 | 30 378 | 87 618 | 26 933 | 40 640 | 16 281 |
13 186 | 29 431 | 88 190 | 04 588 | 38 733 | 81 290 | 89 541 | 70 290 | 40 113 | 08 243 |
17 726 | 28 652 | 56 836 | 78 351 | 47 327 | 18 518 | 92 222 | 55 201 | 27 340 | 10 493 |
36 520 | 64 465 | 05 550 | 30 157 | 82 242 | 29 520 | 69 753 | 72 602 | 23 756 | 54 935 |
81 628 | 36 100 | 39 254 | 56 835 | 37 636 | 02 421 | 98 063 | 89 641 | 64 953 | 99 337 |
El procedimiento para seleccionar una muestra aleatoria simple de una población finita implica asignar números a cada elemento y utilizar dígitos aleatorios de una tabla. En el caso de la población de gerentes de EAI, se asignan números del 1 al 2500. Los números aleatorios de cuatro dígitos se eligen consultando una tabla de dígitos aleatorios, seleccionando conjuntos de cuatro dígitos. Se puede empezar en cualquier lugar de la tabla y avanzar sistemáticamente. En este caso, se utiliza la primera fila y se avanza de izquierda a derecha.
6327 --- 1599 --- 8671 --- 7445 --- 1102 --- 1514 --- 1807
Para seleccionar una muestra aleatoria simple de una población finita, se asignan números a cada elemento de la población. En este caso, consideramos la población de gerentes de EAI, a la cual se le asignan números del 1 al 2500. La clave para la aleatoriedad se encuentra en una tabla de dígitos aleatorios, donde cada dígito tiene igual probabilidad de aparecer. Estos dígitos se eligen en conjuntos de cuatro, ya que el número más grande en la población de gerentes es 2500.
El proceso implica utilizar estos números aleatorios de cuatro dígitos para dar a cada gerente de la población la misma oportunidad de ser seleccionado en la muestra aleatoria. Algunos números pueden ser mayores que el tamaño de la población, y en ese caso, se descartan. Por ejemplo, si el primer número aleatorio es 6327 y la población solo va hasta el número 2500, se descarta. El siguiente número, por ejemplo, 1599, está dentro del rango de la población y se selecciona el primer gerente asociado con ese número.
Este proceso continúa hasta alcanzar la muestra deseada de, por ejemplo, 30 gerentes de EAI. Es importante destacar que este método de selección se conoce como muestreo sin reemplazo, ya que una vez que un gerente ha sido seleccionado, su número se ignora para evitar duplicados en la muestra final. Este enfoque garantiza que cada gerente tenga una oportunidad justa y única de ser parte de la muestra aleatoria.
Cuando se selecciona una muestra en la que se aceptan números aleatorios ya usados y los gerentes correspondientes son incluidos dos o más veces, se realiza un muestreo con remplazo.
Muestrear con remplazo es una forma válida de identifi car una muestra aleatoria simple; sin embargo, como es el procedimiento de muestreo más usado, cuando se hable de muestreo aleatorio simple se asumirá que éste es sin reemplazo.
Muestreo de una población infinita
Algunas veces se quiere seleccionar una muestra de una población, pero ésta es infinitamente grande o sus elementos están siendo generados por un proceso en marcha, por lo cual no hay límite para el número de elementos que pueden ser generados. Por tanto, no es posible hacer una lista de todos los elementos de la población. Esto se considera el caso de una población infinita, con la cual no se puede seleccionar una muestra aleatoria simple debido a que no es factible construir un marco constituido por todos los elementos. En el caso de una población infinita, los profesionales de la estadística recomiendan seleccionar lo que se llama una muestra aleatoria.
MUESTRA ALEATORIA (POBLACIÓN INFINITA)
Una muestra aleatoria de tamaño n de una población infinita es seleccionada de manera tal que se satisfagan las condiciones
siguientes.
- Cada elemento elegido proviene de la misma población.
- Cada elemento es seleccionado de manera independiente.
La implementación del proceso de selección de una muestra aleatoria en una población infinita debe realizarse con cuidado. Dos condiciones clave son: 1) que cada elemento seleccionado provenga de la misma población y 2) que cada elemento se elija de manera independiente.
En un caso práctico, como el control de calidad en la producción de cajas de cereal, donde la población conceptual es infinita, se busca asegurar que la muestra refleje la condición 1. Para lograrlo, el inspector elige las cajas aproximadamente al mismo tiempo, evitando así sesgos en la selección debido a posibles malfuncionamientos en el proceso.
En otro ejemplo, al seleccionar una muestra aleatoria de clientes en un restaurante de comida rápida, donde la población en marcha se considera infinita, se busca obtener un perfil representativo de los consumidores. En este caso, la muestra se elige sin la posibilidad de obtener una lista completa de todos los consumidores, satisfaciendo así las condiciones de selección aleatoria.
El diseño de un procedimiento de muestreo efectivo implica seleccionar elementos de la muestra de manera independiente y garantizar que todos provengan de la misma población. En el caso de un restaurante de comida rápida, seleccionar consumidores de manera independiente puede ser más desafiante, pero es esencial para prevenir sesgos en la muestra.
Para cumplir con la primera condición de que los elementos sean de la misma población, el encuestador debe extraer la muestra de personas que realizan consumos en el restaurante. La segunda condición, la selección independiente, es crucial para evitar sesgos en la elección de clientes, como preferencias por grupos de edad particulares.
Un ejemplo exitoso de muestreo aleatorio simple se dio en McDonald's, donde se utilizó la presentación aleatoria de cupones de descuento. Cada vez que alguien presentaba un cupón, el siguiente cliente se seleccionaba de manera independiente para completar un cuestionario, asegurando así la imparcialidad en la selección.
Las poblaciones infinitas, comunes en procesos continuos a lo largo del tiempo, como la producción, experimentos o transacciones, pueden abordarse con un muestreo aleatorio simple si se cumplen ambas condiciones: elementos seleccionados de la misma población e independientemente.
NOTAS Y COMENTARIOS
- En esta sección se ha tenido sumo cuidado en definir dos tipos de muestras: la muestra aleatoria simple de una población finita y la muestra aleatoria de una población infinita. En el resto de la obra se hará referencia a ellas como muestra aleatoria o sólo muestra. No se hará distinción de que sea una muestra aleatoria “simple” a menos que sea necesario para el ejercicio o el análisis.
- Los profesionales de la estadística especializados en encuestas por muestreo de poblaciones finitas utilizan métodos que proporcionan muestras de probabilidad, con las cuales cada posible muestra tiene una probabilidad conocida de selección y se utiliza un proceso aleatorio para elegir sus elementos. El muestreo aleatorio simple es uno de esos métodos. En la sección 7.8 se describen algunos otros métodos de muestreo probabilístico: muestreo aleatorio estratificado, muestreo por conglomerados y muestreo sistemático. Se utiliza el término “simple” en el muestreo aleatorio simple para aclarar que es el método que asegura que cada muestra de tamaño $\eta$ tiene la misma probabilidad de ser seleccionada.
- El número de muestras aleatorias simples distintas de tamaño n que pueden seleccionarse de una
población finita de tamaño N es
$$\frac{\textit{N!}}{\textit{n!}\left ( N-n \right )\textit{!}}$$En esta expresión, $\textit{N!}$ y $\textit{n!}$ son las fórmulas factoriales estudiadas en el capítulo 4. Al utilizar esta expresión con los datos del problema de EAI en el que $\textit{N!}$ = 2500 y $\textit{n!}$ = 30, se ve que se pueden obtener aproximadamente $2.75 \times 10^{69} $ muestras aleatorias simples distintas de 30 gerentes de EAI
- Para tomar una muestra aleatoria puede emplearse software. En los apéndices del capítulo se explica cómo usar Minitab y Excel para seleccionar una muestra aleatoria simple de una población finita.
EJERCICIOS
- Tome una población finita con cinco elementos A, B, C, D y E. Se pueden seleccionar 10 muestras aleatorias simples de tamaño 2.
a) Liste las 10 muestras empezando con AB, AC y así en lo sucesivo.
Respuesta:
AB -- AC -- AD -- AE -- BC -- BD -- BE -- CD -- CE -- DE
b) Utilizando el muestreo aleatorio simple, ¿cuál es la probabilidad para cada muestra de tamaño 2 de ser seleccionada?
Respuesta: Dado que estamos utilizando muestreo aleatorio simple y hay 10 muestras posibles, la probabilidad de seleccionar cada muestra es la misma. Hay
$$\binom{5}{2} = \frac{5!}{2!\left ( 5-2 \right )!} = 10$$
formas de seleccionar 2 elementos de una población de 5 sin importar el orden. Por lo tanto, la probabilidad de seleccionar cada muestra es $$\frac{1}{10} = 0.1$$
c) Asuma que el número aleatorio 1 corresponde a A, el número 2 corresponde a B y así en lo sucesivo. Liste la muestra aleatoria de tamaño 2 que será seleccionada al usar los números aleatorios 8 0 5 7 5 3 2.
Respuesta: Asumiendo que el número aleatorio 1 corresponde a A, el número 2 corresponde a B, y así sucesivamente, la muestra aleatoria de tamaño 2 seleccionada con los números aleatorios 8, 0, 5, 7, 5, 3, 2 sería:
- C (correspondiente al número 5)
- A (correspondiente al número 1)
- Fortune publica datos sobre ventas, valor del activo, valor de mercado y utilidades por acción de las 500 corporaciones industriales más grandes de Estados Unidos (Fortune 500, 2006). Suponga que usted desea seleccionar una muestra aleatoria simple de 10 corporaciones de la lista Fortune 500. Use los tres últimos dígitos de la novena columna de la tabla 7.1, empezando con 554. Leyendo hacia abajo por esa columna, identifique los números de las 10 corporaciones que se tomarán para la muestra.
Respuesta: Para seleccionar una muestra aleatoria simple de 10 corporaciones de la lista Fortune 500 utilizando los tres últimos dígitos de la novena columna, simplemente tomamos los primeros 10 números de esa columna:
459,147,385,113,340,401,215,2,33,348
Por lo tanto, estas son las corporaciones seleccionadas para la muestra aleatoria.
Por lo tanto, la muestra aleatoria seleccionada sería CA
7.3 Estimacion puntual¶
Después de describir cómo seleccionar una muestra aleatoria simple, volvemos al problema de EAI. En la Tabla 7.2, se muestra una muestra aleatoria simple de 30 gerentes con sus datos de sueldo anual y participación en el programa de capacitación, utilizando la notación x1, x2, etc., para denotar los sueldos anuales respectivos. La participación en el programa se indica con un "Sí" en la columna correspondiente.
Para estimar los parámetros poblacionales, como la media μ y la desviación estándar σ de los sueldos anuales de los gerentes de EAI, se utilizan los datos de la Tabla 7.2. Se calculan los estadísticos muestrales, como la media muestral y la desviación estándar muestral (s), empleando las fórmulas presentadas en el Capítulo 3
Tabla 7.2 Sueldo anual y situación respecto del programa de capacitación para una muestra aleatoria simple de 30 gerentes de EAI
Sueldo anual ($) | Programa de capacitación | Sueldo anual ($) | Programa de capacitación |
---|---|---|---|
x1 = 49094.30 | Sí | x16 = 51766.00 | Sí |
x2 = 53263.90 | Sí | x17 = 52541.30 | No |
x3 = 49643.50 | Sí | x18 = 44980.00 | Sí |
x4 = 49894.90 | Sí | x19 = 51932.60 | Sí |
x5 = 47621.60 | No | x20 = 52973.00 | Sí |
x6 = 55924.00 | Sí | x21 = 45120.90 | Sí |
x7 = 49092.30 | Sí | x22 = 51753.00 | Sí |
x8 = 51404.40 | Sí | x23 = 54391.80 | No |
x9 = 50957.70 | Sí | x24 = 50164.20 | No |
x10 = 55109.70 | Sí | x25 = 52973.60 | No |
x11 = 45922.60 | Sí | x26 = 50241.30 | No |
x12 = 57268.40 | No | x27 = 52793.90 | No |
x13 = 55688.80 | Sí | x28 = 50979.40 | Sí |
x14 = 51564.70 | No | x29 = 55860.90 | Sí |
x15 = 56188.20 | No | x30 = 57309.10 | No |
Con las fórmulas para ambas categorías se obtiene que la media muestral es
$$\bar{x} = \frac{\sum x_i}{n} = \frac{1554420}{30} = \$51814$$
y la desviación estándar muestral es
$$s = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}} = \sqrt{\frac{325009260}{29}} = \$3348$$
Para estimar p, la proporción de gerentes en la población que completaron el programa de capacitación, se usa la proporción muestral correspondiente p̄. Sea x que denota el número de gerentes en la muestra que completaron el programa de capacitación. Según la tabla 7.2, x = 19. Por tanto, como el tamaño de la muestra es n = 30, la proporción muestral es
$$\bar{p} = \frac{x}{n} = \frac{19}{30} = 0.63$$
Al efectuar los cálculos anteriores, se lleva a cabo el proceso estadístico conocido como estimación puntual. A la media muestral x̄ se le identifica como estimador puntual de la media poblacional μ, a la desviación estándar muestral s como el estimador puntual de la desviación estándar poblacional σ y a la proporción muestral p̄ como el estimador puntual de la proporción poblacional p. Al valor numérico obtenido de x̄, s o p̄ se le conoce como estimación puntual. Así, en la muestra aleatoria simple de 30 gerentes de EAI que se presenta en la tabla 7.2, \$51814 es la estimación puntual de μ, \$3348 es la estimación puntual de σ y 0.63 es la estimación puntual de p. En la tabla 7.3 se resumen los resultados muestrales y se comparan las estimaciones puntuales con los valores de los parámetros poblacionales.
Como se observa en la tabla 7.3, las estimaciones puntuales difieren un poco de los correspondientes parámetros poblacionales. Estas diferencias son de esperarse, ya que para elaborar las estimaciones muestrales se usa una muestra, y no un censo de toda la población. En el capítulo siguiente se verá cómo elaborar un intervalo de estimación para tener información respecto de qué tan cerca está la estimación muestral del parámetro poblacional.
Tabla 7.3 Resumen de las estimaciones puntuales obtenidas de una muestra aleatoria simple de 30 gerentes de EAI
Parámetro poblacional | Valor del parámetro | Estimador puntual | Estimación puntual |
---|---|---|---|
μ = Media poblacional de los sueldos anuales | \$51800 | $\bar{x}$ = Media muestral de los sueldos anuales | \$51814 |
σ = Desviación estándar poblacional de los sueldos anuales | \$4000 | s = Desviación estándar muestral de los sueldos anuales | \$3348 |
p = Proporción poblacional que ha completado el programa de capacitación | 0.60 | $\bar{s}$ = Proporción muestral que ha completado el programa de capacitación | 0.63 |
Consejo practico¶
El tema de la mayor parte del resto de este libro se relaciona con la inferencia estadística. La estimación puntual es una de sus formas. Se utiliza un estadístico de muestra para hacer una inferencia acerca de un parámetro poblacional. Al realizar inferencias acerca de una población basada en una muestra, es importante tener una correspondencia cerrada entre la población muestreada y la población objetivo. La población objetivo es aquella de la cual buscamos hacer inferencias, en tanto que la población muestreada es aquella de la cual se toma realmente la muestra. En esta sección se describe el proceso de tomar una muestra aleatoria simple de la población de gerentes en EAI y establecer puntos estimados de características de la misma población. Así, la población muestreada y la población objetivo son idénticas, que es la situación deseada. En otros casos, sin embargo, no es fácil obtener una correspondencia cerrada entre ambos tipos de poblaciones.
Piense en el caso de un parque temático seleccionando una muestra de sus clientes para conocer algunas de sus características, como la edad y el tiempo que pasan en el parque. Suponga que todos los elementos de la muestra se seleccionan en un día en que la entrada al parque está restringida a los empleados de una gran empresa. Entonces la población muestreada estaría compuesta de los empleados de dicha empresa y los miembros de su familia. Si la población objetivo se busca para realizar inferencias acerca de los clientes usuales durante un verano común, se podría encontrar una diferencia signifi cativa entre la población muestreada y la población objetivo. En tal caso, se podría cuestionar la validez de los puntos de estimación que se están realizando. La gerencia del parque estaría en mejor posición para saber si una muestra tomada en un día específi co parecería ser representativa de la población objetivo.
En resumen, cada vez que se utiliza una muestra para hacer inferencias acerca de una población, debemos estar seguros de que el estudio está diseñado para que la población muestreada y la población objetivo estén en un acuerdo cerrado. El buen juicio es un ingrediente necesario en una práctica estadística sólida.
7.4 Introducción a las distribuciones muestrales o de muestreo¶
En la sección anterior se dijo que la media muestral x̄ es el estimador puntual de la media poblacional μ, y que la proporción muestral p̄ es el estimador puntual de la proporción poblacional p. En la muestra aleatoria simple de los 30 gerentes de EAI que se presenta en la tabla 7.2, la estimación puntual de μ es x̄ = $51814 y la estimación puntual de p es p̄ = 0.63. Suponga que se selecciona otra muestra aleatoria simple de 30 gerentes de EAI y se obtienen las estimaciones puntuales siguientes:
Proporción muestral: p̄ = 0.70
Tabla 7.4 Valores de x̄ y de p̄ obtenidos en 500 muestras aleatorias simples de 30 gerentes de EAI
Muestra número | Media muestral (x̄) | Proporción muestral (p̄) |
---|---|---|
1 | 51814 | 0.63 |
2 | 52670 | 0.70 |
3 | 51780 | 0.67 |
4 | 51588 | 0.53 |
... | ... | ... |
500 | 51752 | 0.50 |
Observe que se obtuvieron valores diferentes de x̄ y de p̄. En efecto, una segunda muestra aleatoria simple de 30 gerentes de EAI no se puede esperar que proporcione las mismas estimaciones puntuales que la primera.
Ahora suponga que el proceso de seleccionar una muestra aleatoria simple de 30 gerentes de EAI se repite una y otra vez, y que en cada ocasión se calculan los valores de x̄ y de p̄. La tabla 7.4 presenta una parte de los resultados obtenidos en 500 muestras aleatorias simples y la tabla 7.5 registra las distribuciones de frecuencia y de frecuencia relativa de los valores x̄ de las 500. En la figura 7.1 se muestra el histograma de las frecuencias de los valores de x̄.
En el capítulo 5 se define una variable aleatoria como una descripción numérica del resultado de un experimento. Si el proceso de seleccionar una muestra aleatoria simple se considera un experimento, la media muestral x̄ es la descripción numérica del resultado de ese experimento. Por tanto, la media muestral x̄ es una variable aleatoria. Entonces, como ocurre con otras variables aleatorias, x̄ tiene una media o valor esperado, una desviación estándar y una distribución de probabilidad. Como los distintos valores que toma x̄ son resultado de distintas muestras aleatorias simples, a la distribución de probabilidad de x̄ se le conoce como distribución de muestreo de x̄. Conocer esta distribución y sus propiedades permitirá hacer declaraciones de probabilidad acerca de qué tan cerca está la media muestral x̄ de la media poblacional μ.
Remítase a la figura 7.1. Se necesitaría enumerar todas las muestras posibles de 30 gerentes y calcular cada una de las medias muestrales para determinar totalmente la distribución de muestreo de x̄. Sin embargo, el histograma de 500 valores de x̄ provee una aproximación a esta distribución de muestreo. En esta aproximación se observa la apariencia de una curva de campana de esta distribución. Note además que la mayor concentración de valores de x̄ y la
Tabla 7.5 Distribuciones de frecuencia y de frecuencia relativa de x̄ en 500 muestras aleatorias simples de 30 gerentes de EAI
Sueldo anual medio ($) | Frecuencia | Frecuencia relativa |
---|---|---|
49500.00-49999.99 | 2 | 0.004 |
50000.00-50499.99 | 16 | 0.032 |
50500.00-50999.99 | 52 | 0.104 |
51000.00-51499.99 | 101 | 0.202 |
51500.00-51999.99 | 133 | 266 |
52000.00-52499.99 | 110 | 0.220 |
52500.00-52999.99 | 54 | 0.108 |
53000.00-53499.99 | 26 | 0.052 |
53500.00-53999.99 | 6 | 0.012 |
Totals 500 | 1.000 |
Figura 7.1 Histograma de la frecuencia relativa de los valores de x̄ obtenidos en 500 muestras aleatorias simples de tamaño 30 cada una
import matplotlib.pyplot as plt
# Datos para el gráfico de barras
categorias = ["49500-50000", "50000-50500", "50500-51000", "51000-51500", "51500-52000", "52000-52500", "52500-53000", "53000-53500", "53500-54000"]
valores = [0.004, 0.032, 0.104, 0.202, 0.266, 0.220, 0.108, 0.052, 0.012]
# Crear la figura y los ejes
fig, ax = plt.subplots()
# Ajustar el color de fondo
ax.set_facecolor("#d4f8b7")
# Pintar el fondo externo del gráfico
fig.patch.set_facecolor('#D4F8B7')
# Crear el gráfico de barras
plt.bar(categorias, valores, color='#5CCB5f', edgecolor='black', linewidth=1.5, width=0.8)
plt.xticks(fontsize=5)
# Añadir etiquetas y título con texto en negrita
plt.xlabel('Valores de x\u0305', fontsize=10, fontweight='bold')
plt.ylabel('Frecuencia Relativa', fontsize=10, fontweight='bold')
# Mostrar el gráfico
plt.show()
media de los 500 valores de x̄ se encuentran cerca de la media poblacional μ = \$51 800. En la sección siguiente se describirán más detalladamente las propiedades de la distribución de muestreo de x̄.
Los 500 valores de la proporción muestral de p̄ se resumen en el histograma de frecuencia relativa de la figura 7.2. Como ocurre con x̄, p̄ es una variable aleatoria. Si se tomara cada muestra posible de tamaño 30 y para cada una se calculara el valor de p̄, la distribución de probabilidad que se obtuviera sería la distribución de muestreo de p̄. En la figura 7.2, el histograma de frecuencia relativa de los 500 valores muestrales proporciona una idea general de la apariencia de la distribución de muestreo de p̄.
En la práctica sólo se selecciona una muestra aleatoria simple de la población. En esta sección el proceso de muestreo se repitió 500 veces para ilustrar que es posible tomar muchas muestras diferentes y que distintas muestras darán valores diversos de los estadísticos muestrales x̄ y p̄. A la distribución de muestreo de cualquier estadístico determinado se le llama distribución de muestreo del estadístico. En la sección 7.5 se presentan las características de la distribución de muestreo de x̄. En la sección 7.6 se describen las características de la distribución de muestreo de p̄.
7.5 Distribución de muestreo de x̄¶
En la sección anterior se dijo que la media muestral x̄ es una variable aleatoria y que a su distribución de probabilidad se le llama distribución de muestreo de x̄.
from IPython.display import HTML
html_code = '''
<head>
<title>Ecuaciones con Markdown</title>
<script src="https://polyfill.io/v3/polyfill.min.js?features=es6"></script>
<script id="MathJax-script" async src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js"></script>
</head>
<style>
.formulas {
background-color: #D4F8B7;
padding: 10px;
box-shadow: 0 4px 8px rgba(0, 0, 0, 0.1);
}
</style>
<div class="formulas">
DISTRIBUCIÓN DE MUESTREO DE x̄
<br><br>
La distribución muestral de x̄ es la distribución de probabilidad de todos los posibles valores de la media muestral x̄.
</div>
'''
HTML(html_code)
La distribución muestral de x̄ es la distribución de probabilidad de todos los posibles valores de la media muestral x̄.
La distribución muestral de x̄ es la distribución de probabilidad de todos los posibles valores de la media muestral x̄.
Figura 7.2 Histograma de la frecuencia relativa de los valores de p̄ obtenidos en 500 muestras aleatorias simples de tamaño 30 cada una
import matplotlib.pyplot as plt
# Datos para el gráfico de barras
categorias = ["0.32-0.40", "0.40-0.48", "0.48-0.56", "0.56-0.64", "0.64-0.72", "0.72-0.80", "0.80-0.88"]
valores = [0.03, 0.09, 0.20, 0.4, 0.20, 0.09, 0.02]
# Crear la figura y los ejes
fig, ax = plt.subplots()
# Ajustar el color de fondo
ax.set_facecolor("#d4f8b7")
# Pintar el fondo externo del gráfico
fig.patch.set_facecolor('#D4F8B7')
# Crear el gráfico de barras
plt.bar(categorias, valores, color='#5CCB5f', edgecolor='black', linewidth=1.5, width=0.8)
plt.xticks(fontsize=7)
# Añadir etiquetas y título con texto en negrita
plt.xlabel('Valores de p\u0305', fontsize=10, fontweight='bold')
plt.ylabel('Frecuencia Relativa', fontsize=10, fontweight='bold')
# Mostrar el gráfico
plt.show()
En esta sección se describen las propiedades de la distribución de muestreo de x̄. Como ocurre con otras distribuciones de probabilidad estudiadas, la distribución de muestreo de x̄ tiene un valor esperado o media, una desviación estándar y una forma característica. Para empezar, se considerará la media de todos los valores posibles de x̄, a la que se conoce como valor esperado de x̄.
**Valor esperado de *x̄***¶
En el problema de muestreo de EAI se vio que en distintas muestras aleatorias simples se obtienen valores diferentes para la media muestral x̄. Como la variable aleatoria x̄ puede tener muchos valores diversos, suele ser de interés conocer la media de todos los valores de x̄ que se obtienen con diferentes muestras aleatorias simples. La media de la variable aleatoria x̄ es el valor esperado de x̄; sea éste E(x̄) y μ la media de la población de la que se selecciona una muestra aleatoria simple. Se puede demostrar que cuando se emplea el muestreo aleatorio simple, E(x̄) y μ son iguales.
VALOR ESPERADO DE x̄¶
$$E(\bar{x}) = μ$$ donde: $$E(\bar{x}) = \text{valor esperado de } \bar{x}$$ $$μ = \text{media poblacional}$$
Este resultado enseña que utilizando el muestreo aleatorio simple, el valor esperado o media de la distribución de muestreo de x̄ es igual a la media de la población. En la sección 7.1 se vio que el sueldo anual medio de los gerentes de EAI es μ = $51800. Por tanto, con base en la ecuación (7.1), la media de todas las medias muestrales posibles en el estudio de EAI es también $51800.
Cuando el valor esperado de un estimador puntual es igual al parámetro poblacional, se dice que el estimador puntual es insesgado. Por tanto, la ecuación (7.1) indica que x es un estimador insesgado de la media poblacional μ.
**Desviación estándar de *x̄***¶
Ahora se defi nirá la desviación estándar de la distribución de muestreo de x̄. Se empleará la notación siguiente.
σ = desviación estándar de la población
n = tamaño de la muestra
N = tamaño de la población
Es posible demostrar que la fórmula de la desviación estándar de x̄ depende de que la población sea finita o infinita. Las dos fórmulas para la desviación estándar de x̄ son las siguientes.
DESVIACIÓN ESTÁNDAR DE x̄¶
Población finita $$\sigma_{\bar{x}} = \sqrt{\frac{N-n}{N-1}}(\frac{\sigma}{\sqrt{n}})$$
Población infinita $$\frac{\sigma}{\sqrt{n}}$$
Al comparar las dos fórmulas en (7.2) se ve que el factor $\sqrt{(N-n)/(N-1)}$ se requiere cuando la población es finita, pero no cuando es infinita. A este factor se le conoce como factor de corrección para una población finita. En muchas situaciones prácticas de muestreo se encuentra que, aunque la población sea fi nita, es “grande”, mientras que el tamaño de la muestra es “pequeño”. En estos casos el factor de corrección para una población finita $\sqrt{(N-n)/(N-1)}$ es cercano a 1. Por tanto, la diferencia entre el valor de la desviación estándar de x para las poblaciones finitas e infinitas se vuelve despreciable. Entonces $\sigma_x = \sigma/\sqrt{n}$ se convierte en una buena aproximación a la desviación estándar de x̄ aun cuando la población sea finita. Esta observación lleva al siguiente lineamiento, o regla general, para calcular la desviación estándar de x̄.
USAR LA EXPRESION SIGUIENTE PARA CALCULAR LA DESVIACIÓN ESTÁNDAR DE $\bar{x}$¶
$$\sigma_x = \frac{\sigma}{\sqrt{n}}$$ siempre que
- La población sea infinita; o
- La poblacion sea finita y el tamaño de la muestra sea menor o iguala 5% del tamaño de la población; es decir, n/N $\leq$ 0.05.
En los casos en que n/N > 0.05, para calcular σx̄ debe usarse la versión para poblaciones finitas de la fórmula (7.2). En este libro, a menos que se indique otra cosa, se supondrá que el tamaño de la población es “grande”, n/N $\leq$ 0.05, y se utilizará la expresión (7.3) para calcular σx̄.
Para calcular σx̄ se necesita conocer σ, la desviación estándar de la población. Para subrayar, aún más, la diferencia entre σx̄ y σ, a la desviación estándar de x̄, σx̄, se le llama error estándar de la media. En general, el término error estándar se refiere a la desviación estándar de un estimador puntual. Más adelante se verá que el valor del error estándar de la media ayuda a determinar qué tan lejos puede estar la media muestral de la media poblacional. Ahora, de nuevo con el ejemplo de EAI, se calcula el error estándar de la media correspondiente a las muestras aleatorias simples de 30 gerentes de EAI.
En la sección 7.1 vimos que la desviación estándar de los sueldos anuales en la población de los 2500 gerentes de EAI era σ = 4000. En este caso la población es finita, N = 2500. Sin embargo, como el tamaño de la muestra es 30, se tiene n/N = 30/2500 = 0.012. Dado que el tamaño de la muestra es menor que 5% del tamaño de la población, se puede ignorar el factor de corrección para una población finita y usar la ecuación (7.3) para calcular el error estándar.
$$ \sigma_x = \frac{\sigma}{\sqrt{n}} = \frac{4000}{\sqrt{30}} = 730.3$$
**Forma de la distribución de muestreo de *x̄***¶
Los resultados anteriores respecto del valor esperado y la desviación estándar en la distribución de muestreo de x̄ son aplicables a cualquier población. El paso fi nal para identificarlas características de la distribución de muestreo de x̄ consiste en determinar la forma de la distribución de muestreo. Se considerarán dos casos: 1) La población tiene distribución normal, y 2) La población no tiene distribución normal.
La población tiene distribución normal. En muchas situaciones es razonable suponer que la población de la que se selecciona la muestra aleatoria simple tiene distribución normal o casi normal. Cuando esto ocurre, la distribución de muestreo de x̄ está distribuida normalmente cualquiera que sea el tamaño de la muestra.
La población no tiene distribución normal. Cuando la población de la que se tomó la muestra aleatoria simple no tiene distribución normal, el teorema del límite central ayuda a determinar la forma de la distribución de muestreo de x̄. El enunciado de este teorema aplicado a la distribución de muestreo de x̄ dice lo siguiente.
from IPython.display import HTML
html_code = '''
<head>
<script src="https://polyfill.io/v3/polyfill.min.js?features=es6"></script>
<script id="MathJax-script" async src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js"></script>
</head>
<style>
.formulas {
background-color: #D4F8B7;
padding: 10px;
box-shadow: 0 4px 8px rgba(0, 0, 0, 0.1);
</style>
<div class="formulas">
TEOREMA DEL LÍMITE CENTRAL
<br><br>
Cuando se seleccionan muestras aleatorias simples de tamaño n de una población, la distribución de muestreo de la media muestral x̄ puede aproximarse mediante una distribución normal a medida que el tamaño de la muestra se hace grande.
</div>
'''
HTML(html_code)
Cuando se seleccionan muestras aleatorias simples de tamaño n de una población, la distribución de muestreo de la media muestral x̄ puede aproximarse mediante una distribución normal a medida que el tamaño de la muestra se hace grande.
Cuando se seleccionan muestras aleatorias simples de tamaño n de una población, la distribución de muestreo de la media muestral x̄ puede aproximarse mediante una distribución normal a medida que el tamaño de la muestra se hace grande.
En la figura 7.3 se ilustra cómo funciona el teorema del límite central en tres poblaciones diferentes; cada columna se refi ere a una de ellas. En el panel superior de la fi gura se aprecia que ninguna de las tres poblaciones está distribuida normalmente. La población I tiene una distribución uniforme, y a la II se le conoce como distribución de orejas de conejo. Esta distribución es simétrica, pero los valores más probables se encuentran en las colas de la distribución. La forma de la población III se parece a una distribución exponencial y es sesgada a la derecha.
En los tres paneles superiores de la figura 7.3 se presentan las formas de las distribuciones de muestreo de tamaños n = 2, n = 5 y n = 30. Cuando el tamaño es 2, se observa que cada distribución de muestreo tiene una forma diferente a la distribución poblacional correspondiente.
Figura 7.3 Ilustración del teorema central del límite con tres poblaciones
Con el tamaño 5 vemos que las formas de las distribuciones de muestreo en los casos de las poblaciones I y II empiezan a parecerse a la forma de una distribución normal. En el caso de la población III, aun cuando la forma de la distribución de muestreo comienza a semejarse a una distribución normal, se observa todavía cierto sesgo a la derecha. Por último, para el tamaño 30, la forma de cada una de las tres distribuciones de muestreo es aproximadamente normal.
Desde un punto de vista práctico, con frecuencia se querrá saber qué tan grande debe ser el tamaño de la muestra antes de aplicar el teorema del límite central y suponer que la forma de la distribución de muestreo es aproximadamente normal. En las investigaciones estadísticas se ha estudiado este problema en distribuciones de muestreo de x̄ de diversas poblaciones y tamaños de muestra. En la práctica estadística general se asume que, en la mayoría de las aplicaciones, la distribución de muestreo de x̄ se puede aproximar mediante una distribución normal siempre que la muestra sea de tamaño 30 o mayor. En los casos en que la población es muy sesgada o existen observaciones atípicas, pueden necesitarse muestras de tamaño 50. Por último, si la población es discreta, el tamaño de muestra necesario para la aproximación normal suele depender de la proporción poblacional. Se profundizará más en este tema cuando se estudie la distribución de muestreo de p̄ en la sección 7.6.
Distribución de muestreo de x̄ en el problema de EAI¶
En el problema de EAI, para el que ya previamente se mostró que E(x̄) = $51800 y σx̄ = 730.3, no se cuenta con ninguna información acerca de la distribución de la población, que puede estar o no distribuida normalmente. Si se da el segundo caso, la distribución muestral de x̄ estará distribuida normalmente. Si la población no tiene una distribución normal, la muestra aleatoria simple de 30 gerentes y el teorema del límite central permiten concluir que la distribución de muestreo de x̄ puede aproximarse mediante una distribución normal. En cualquiera de los casos, se concluye que la distribución de muestreo de x̄ se describe mediante una distribución normal como la que se muestra en la figura 7.4.
**Valor práctico de la distribución de muestreo de *x̄***¶
Siempre que se seleccione una muestra aleatoria simple y se use el valor de la media muestral para estimar el valor de la media poblacional μ, no se podrá esperar que la media muestral sea exactamente igual a la media poblacional. La razón práctica por la que interesa la distribución de muestreo de x̄ estriba en que se puede usar para proporcionar información probabilística acerca de la diferencia entre la media muestral y la media poblacional. Para demostrar este uso, se retomará el problema de EAI.
Suponga que el director de personal cree que la media muestral será una estimación aceptable de la media poblacional si la primera está en un margen de $500 de la segunda. Sin embargo, no es posible garantizar que la media muestral esté en un margen de $500 de la media poblacional. En efecto, en la tabla 7.5 y en la figura 7.1 se observa que algunas de las 500 medias muestrales difieren en más de $2000 de la media poblacional. Entonces hay que pensar en el requerimiento del director de personal en términos de probabilidad. Es decir, a éste le interesa la interrogante siguiente: ¿cuál es la probabilidad de que la media muestral obtenida usando una muestra aleatoria simple de 30 gerentes de EAI se encuen tre en un margen de $500 de la media poblacional?
Figura 7.4 Distribución de muestreo de x̄ para el sueldo medio anual de una muestra aleatoria simple de 30 gerentes de EAI
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
# Parámetros de la distribución normal
media = 51800
desviacion_estandar = 730.3
# Generar datos de la distribución normal
x = np.linspace(media - 4 * desviacion_estandar, media + 4 * desviacion_estandar, 1000)
y = norm.pdf(x, media, desviacion_estandar)
# Crear la gráfica
fig, ax = plt.subplots()
ax.plot(x, y, color='#009929')
# Establecer el color de fondo
ax.set_facecolor('#d4f8b7')
# Pintar el fondo externo del gráfico
fig.patch.set_facecolor('#D4F8B7')
#Informacion en los ejes
ax.set_xlabel(f'Media = {media}', fontsize=12)
#ax.set_ylabel('Densidad de Probabilidad', fontsize=12)
# Agregar información flotante sobre la desviación estándar
info_desviacion = f'σ = {desviacion_estandar}'
ax.text(0.6, 0.85, info_desviacion, transform=ax.transAxes, fontsize=12, color='#000')
ax.grid(False)
plt.show()
Como ya se identificaron las propiedades de la distribución de muestreo de $\bar{x}$ (figura 7.4), se utilizará esta distribución para contestar dicha interrogante probabilística. Observe la distribución de muestreo de $\bar{x}$ que se presenta nuevamente en la figura 7.5. Como la media poblacional es $51 800, el director de personal desea saber cuál es la probabilidad de que $\bar{x}$ esté entre $51 300 y $52 300. Esta probabilidad corresponde al área sombreada de la distribución de muestreo de la figura 7.5. Como la distribución de muestreo está distribuida normalmente, su media es $51 800 y el error estándar de la media es 730.3, se usa la tabla de probabilidad normal estándar para determinar el área o probabilidad. Primero se calcula el valor de z en el extremo superior de este intervalo (52 300) y se usa la tabla para hallar el área bajo la curva a la izquierda de ese punto (hacia la cola izquierda). Después se determina el valor de z en el extremo inferior de este intervalo (51 300) y se usa la tabla para hallar el área bajo la curva a la izquierda de este punto (otra área hacia la cola izquierda). Al restar la segunda área de la primera, se obtiene la probabilidad buscada. En $\bar{x}= 52 300$ tenemos $$z = \frac{52300-51800}{730.30}=0.68$$ En la tabla de probabilidad normal estándar se encuentra que la probabilidad acumulada (área a la izquierda de $z=0.68$) es 0.7517. En $\bar{x}= 51 300$ tenemos $$z=\frac{51300-51800}{730.30}=-0.68$$ El área bajo la curva a la izquierda de $z=0.68$ es 0.2483. Por tanto, $P(51300\leq \bar{x} \leq 52300)=P(z\leq 0.68)-P(z<-0.68)=0.7517-0.2483=0.5034.$ Estos cálculos indican que hay una probabilidad de 0.5034 de que con una muestra aleatoria simple de 30 gerentes de EAI se obtenga una media muestral $\bar{x}$ que esté en un margen de $500 de la media poblacional. Por tanto, la probabilidad de que la diferencia entre $\bar{x}$ y $μ$ $51 800 sea superior a $500 es $1-0.5034=0.4966$. En otras palabras, una muestra aleatoria simple de 30 gerentes de EAI tiene aproximadamente 50/50 oportunidades de tener una media muestral que no difi era de la media poblacional en más de los aceptables $500. Quizá deba pensarse en \ FIGURA 7.5 Probabilidad de que una media muestral se encuentre en un margen de $500 de la media poblacional en una muestra aleatoria simple de 30 gerentes de EAI
Figura 7.5 Probabilidad de que una media muestral se encuentre en un margen de $500 de la media poblacional en una muestra aleatoria simple de 30 gerentes de EAI
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
# Parámetros de la distribución normal
media = 51800
desviacion_estandar = 730.3
# Generar datos de la distribución normal
x = np.linspace(media - 4 * desviacion_estandar, media + 4 * desviacion_estandar, 1000)
y = norm.pdf(x, media, desviacion_estandar)
# Crear la gráfica
plt.figure(figsize=(12, 8))
fig, ax = plt.subplots()
ax.fill_between(x, y, where=((x >= 51200) & (x <= 52400)), color='#5ccb5f', alpha=0.3, label='Área Especial')
ax.fill_between(x, y, where=((x >= 0) & (x <= 51200)), color='#98F84A', alpha=0.3, label='Área Especial')
ax.fill_between(x, y, where=((x >= 52400) & (x <= 100000)), color='#98F84A', alpha=0.3, label='Área Especial')
ax.plot(x, y, color='#009929')
# Establecer el color de fondo
ax.set_facecolor('#d4f8b7')
# Pintar el fondo externo del gráfico
fig.patch.set_facecolor('#D4F8B7')
plt.axvline(x=51200, color='#008000', linestyle='--', label='Media Poblacional - $500')
plt.axvline(x=52400, color='#008000', linestyle='--', label='Media Poblacional + $500')
#Informacion en los ejes
#ax.set_xlabel(f'Media = {media}', fontsize=12)
#ax.set_ylabel('Densidad de Probabilidad', fontsize=12)
plt.yticks([]) # Oculta las marcas del eje y
plt.xticks([media,51200,52400], [f'{media}',f'{media-500}',f'{media+500}'])
#info_desviacion = f'σ= {desviacion_estandar}'
#ax.text(0.6, 0.85, info_desviacion, transform=ax.transAxes, fontsize=12, color='#000')
plt.text(0.05, 0.9,r'Distribución de muestreo', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top')
plt.text(0.05, 0.8,r'de $\bar{x}$', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top')
plt.text(0.05, 0.2,r'$P(\bar{x}<513000)$', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top')
plt.text(0.8, 0.7, r'$\sigma_{\bar{x}}=730.30$', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top', horizontalalignment='right')
plt.text(0.99, 0.3, r'$P(51300 \leq \bar{x} \leq 52300)$', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top', horizontalalignment='right')
plt.text(0.75, 0, r'$E(\bar{p})$', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top', horizontalalignment='right')
ax.grid(False)
plt.show()
<Figure size 1200x800 with 0 Axes>
una muestra de tamaño mayor. Se explorará esta posibilidad considerando la relación entre el tamaño de la muestra y la distribución de muestreo de $\bar{x}$.
Margen de error y estimación por intervalo¶
Suponga que en el problema de muestreo de EAI se toma una muestra aleatoria simple de 100 gerentes en lugar de los 30 considerados. La intuición indica que teniendo más datos proporcionados por una muestra mayor, la media muestral basada en $n=100$ proporcionará una mejor estimación de la media poblacional que la basada en $n=30$. Para ver cuán mejor es, se considerará la relación entre el tamaño de la muestra y la distribución de muestreo de $\bar{x}$. Primero observe que $E(\bar{x})=\mu$ independientemente del tamaño de la muestra. Entonces, la media de todos los valores posibles de $\bar{x}$ es igual a la media poblacional μ independientemente del tamaño n de la muestra. No obstante, el error estándar de la media, $\sigma_{\bar{x}}=\sigma/\sqrt{n}$, está relacionado con la raíz cuadrada del tamaño de la muestra. Siempre que este tamaño aumente, el error estándar de la media $σ_{\bar{x}}$ disminuirá. Con $n=30$, el error estándar de la media en el problema de EAI es 730.3. Sin embargo, aumentando el tamaño de la muestra a $n = 100$, el error estándar de la media disminuye a $$σ_{\bar{x}}=\frac{σ}{\sqrt{n}}=\frac{4000}{\sqrt{100}}=400$$ En la figura 7.6 se ilustran las distribuciones de muestreo de $\bar{x}$ correspondientes a $n=30$ y a $n=100$. Como la distribución muestral con $n=100$ tiene un error estándar más pequeño, habrá menos variación entre los valores de $\bar{x}$ y éstos tenderán a estar más cerca de la media poblacional que los valores de $bar{x}$ con $n=30$. \ La distribución de muestreo de $\bar{x}$, en el caso de $n=100$, puede emplearse para calcular la probabilidad de que una muestra aleatoria simple de 100 gerentes de EAI dé una media muestral que no difi era de los $500 de la media poblacional. Como la distribución de muestreo es normal y su media es $51 800 y el error estándar de la media es 400, se emplea la tabla de probabilidad normal estándar para determinar el área o la probabilidad. \ Para $ \bar{x}= 52 300$ (figura 7.7) tenemos $$z=\frac{52300-51800}{400}=1.25$$
Figura 7.6 Comparación entre las distribuciones de muestreo de $\bar{x}$ con muestras aleatorias simples de tamaño $n=30$ y $n=100$ gerentes de EAI
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
# Parámetros de la distribución normal
media = 51800
desviacion_estandar = 730.3
media2 = 51800
desviacion_estandar2 = 400
x2 = np.linspace(media2 - 4 * desviacion_estandar2, media2 + 4 * desviacion_estandar2, 1000)
y2 = norm.pdf(x2, media2, desviacion_estandar2)
# Generar datos de la distribución normal
x = np.linspace(media - 4 * desviacion_estandar, media + 4 * desviacion_estandar, 1000)
y = norm.pdf(x, media, desviacion_estandar)
# Crear la gráfica
fig, ax = plt.subplots()
# Trazar la distribución normal
ax.plot(x, y, color='Black')
ax.plot(x2, y2, color='#009929')
# Establecer el color de fondo
ax.set_facecolor('#d4f8b7')
# Pintar el fondo externo del gráfico
fig.patch.set_facecolor('#D4F8B7')
# Líneas verticales y punto de la media poblacional
plt.axvline(x=51800, color='Black', linestyle='-', label='Media Poblacional - $500')
plt.scatter([media], [0], color='#FF0000', marker='|', label='Media Poblacional')
# Desactivar la cuadrícula
ax.grid(False)
plt.yticks([])
plt.xticks([51800],["51800"])
plt.text(0.05, 0.9,r'_____', transform=plt.gca().transAxes, fontsize=12,color="#009929", verticalalignment='top')
plt.text(0.05, 0.8,r'con $n=100$,', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top')
plt.text(0.05, 0.7,r'$\sigma_{\bar{x}}=400$', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top')
#plt.text(0.9, 0.7, r'$\sigma_{\bar{x}}=400$', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top', horizontalalignment='right')
plt.text(0.9, 0.7, r'_____ ', transform=plt.gca().transAxes, fontsize=12,color='Black', verticalalignment='top', horizontalalignment='right')
plt.text(0.9, 0.6, r'Con $n=30$,', transform=plt.gca().transAxes, fontsize=12, color='Black',verticalalignment='top', horizontalalignment='right')
plt.text(0.9, 0.5, r'$\sigma_{\bar{x}}=730.3$', transform=plt.gca().transAxes, fontsize=12, color='Black',verticalalignment='top', horizontalalignment='right')
# Mostrar leyenda
#ax.legend()
plt.show()
Figura 7.7 Probabilidad de que la media muestral esté en un margen de $500 de la media poblacional usando una muestra aleatoria simple de 100 gerentes de EAI
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
# Parámetros de la distribución normal
media = 51800
desviacion_estandar = 400
# Generar datos de la distribución normal
x = np.linspace(media - 4 * desviacion_estandar, media + 4 * desviacion_estandar, 1000)
y = norm.pdf(x, media, desviacion_estandar)
# Crear la gráfica
plt.figure(figsize=(12, 8))
fig, ax = plt.subplots()
ax.fill_between(x, y, where=((x >= 51200) & (x <= 52400)), color='#5ccb5f', alpha=0.3, label='Área Especial')
ax.fill_between(x, y, where=((x >= 0) & (x <= 51200)), color='#98F84A', alpha=0.3, label='Área Especial')
ax.plot(x, y, color='#009929')
# Establecer el color de fondo
ax.set_facecolor('#d4f8b7')
# Pintar el fondo externo del gráfico
fig.patch.set_facecolor('#D4F8B7')
plt.axvline(x=51200, color='#008000', linestyle='--', label='Media Poblacional - $500')
plt.axvline(x=52400, color='#008000', linestyle='--', label='Media Poblacional + $500')
plt.yticks([]) # Oculta las marcas del eje y
# Configurar los ticks del eje x para mostrar solo la media
plt.xticks([media,51200,52400], [f'{media}',f'{media-500}',f'{media+500}'])
#info_desviacion = f'σ= {desviacion_estandar}'
#ax.text(0.6, 0.85, info_desviacion, transform=ax.transAxes, fontsize=12, color='#000')
plt.text(0.05, 0.9,r'Distribución de muestreo', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top')
plt.text(0.05, 0.8,r'de $\bar{x}$', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top')
plt.text(0.05, 0.6,r'$P(51300 \leq \bar{x} \leq 52300)$=0.7888', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top')
plt.text(0.9, 0.7, r'$\sigma_{\bar{x}}=400$', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top', horizontalalignment='right')
ax.grid(False)
plt.show()
<Figure size 1200x800 with 0 Axes>
En la tabla de probabilidad normal estándar se encuentra que la probabilidad acumulada correspondiente a $z=1.25$ es 0.8944.
Para $\bar{x}=51300$ tenemos $$z=\frac{51300-51800}{400}=-1.25$$ La probabilidad acumulada correspondiente a $z=1.25$ es $0.1056$. Por tanto, $P(51 300\leq \bar{x} \leq 52 300)=P(z \leq 1.25)-P(z \leq -1.25)= 0.8944- 0.1056=0.7888$. Entonces, al aumentar el tamaño de la muestra de 30 a 100 gerentes de EAI, la probabilidad de obtener una muestra aleatoria simple que esté entre los $500 de la media poblacional aumenta de 0.5034 a 0.7888.
El punto importante estriba en que cuando el tamaño de la muestra aumenta, el error estándar de la media disminuye. Como resultado, una muestra de mayor tamaño proporciona mayor probabilidad de que la media muestral esté dentro de una distancia determinada de la media poblacional.
Ejercicios¶
Metodo¶
Ejercicio 18. La media de una población es 200 y su desviación estándar es 50. Se tomará una muestra aleatoria simple de tamaño 100 y se utilizará la media muestral x para estimar la media poblacional.
$a)$ ¿Cuál es el valor esperado de x?
$b)$ ¿Cuál es la desviación estándar de x?
$c)$ Ilustre la distribución de muestreo de x.
$d)$ ¿Qué expresa la distribución de muestreo de x?
Solucion:
$a)$ El valor esperado (o esperanza matemática) de la media muestral ($\bar{x}$) es igual a la media poblacional ($μ$): $$E(\bar{x})=μ$$ Reemplazamos datos $$E(\bar{x})=200$$ $b)$ La desviación estándar de la media muestral ($σ_{\bar{x}}$) se calcula dividiendo la desviación estándar poblacional ($σ$) por la raíz cuadrada del tamaño de la muestra ($n$): $$σ_{\bar{x}}=\frac{σ}{\sqrt{n}}$$ Reemplazamos datos: $$σ=\frac{50}{\sqrt{100}}=5$$ $$σ=5$$ $c)$ Ilustración de la distribución de muestreo de la media muestral:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# Parámetros
media_poblacional = 200
desviacion_estandar_poblacional = 50
tamano_muestra = 100
# Simulación de la distribución de muestreo de la media muestral
medias_muestrales = np.random.normal(media_poblacional, desviacion_estandar_poblacional / np.sqrt(tamano_muestra), 1000)
# Crear gráfico de densidad con colores personalizados
sns.kdeplot(medias_muestrales, color='green', fill=True, palette=sns.color_palette("Set2"))
plt.title('Distribución de Muestreo de la Media Muestral')
plt.xlabel('Media Muestral (\(\bar{x}\))')
plt.ylabel('Densidad')
plt.show()
$d)$ Interpretación de la distribución de muestreo de la media muestral ($\bar{x}$):
La distribución de muestreo de la media muestral describe la variabilidad que se esperaría en las medias muestrales si tomamos múltiples muestras de la población. En este caso, debido al Teorema del Límite Central, la distribución de muestreo de $\bar{x}$ será aproximadamente normal, independientemente de la forma de la distribución original, siempre y cuando el tamaño de la muestra sea lo suficientemente grande. La desviación estándar de esta distribución de muestreo($(σ_{\bar{x}})$ proporciona una medida de cuánto varían las medias muestrales alrededor de la media poblacional. En este ejemplo, $σ_{\bar{x}}=5$, lo que indica que esperamos que las medias muestrales tiendan a agruparse alrededor de la media poblacional con una desviación estándar de 5 unidades.
Apliciones¶
Ejercicio 26. El costo medio anual de un seguro para automóvil es de $939 (CNBC, 23 de febrero de 2006). Suponga que la desviación estándar es $σ=\$245$.
$a)$ ¿Cuál es la probabilidad de que en una muestra aleatoria simple de pólizas de seguros de automóvil la media muestral no difiera más de $25 de la media poblacional si el tamaño de la muestra es 30, 50, 100 y 400?
$b)$ ¿Qué ventaja tiene una muestra más grande cuando se quiere estimar la media poblacional?
Solucion:
$a)$ Para resolver este insciso, podemos utilizar la distribución normal estándar (z) para encontrar las probabilidades asociadas con la diferencia entre la media muestral y la media poblacional. La fórmula para la puntuación z es: $$z=\frac{\bar{x}-μ}{\frac{σ}{\sqrt{n}}}$$ Donde: \ $\bar{x}$ es la media muestral, μ es la media poblacional, σ es la desviación estándar poblacional y n es el tamaño de la muestra. Ahora reemplzamos los datos para cada caso: \ Para n=30 $$z=\frac{\bar{x}-μ}{\frac{σ}{\sqrt{n}}}=\frac{25}{\frac{245}{\sqrt{30}}}$$ $$z=0.5589$$ Ahora buscando valor de z en una tabla de la distribución normal estándar, nos da que para un $n=30$ la probabilidad es de 0.4246. \ Para n=50 $$z=\frac{\bar{x}-μ}{\frac{σ}{\sqrt{n}}}=\frac{25}{\frac{245}{\sqrt{50}}}$$ $$z=0.7215$$ Ahora buscando valor de z en una tabla de la distribución normal estándar, nos da que para un $n=30$ la probabilidad es de 0.5284. \ Para n=100 $$z=\frac{\bar{x}-μ}{\frac{σ}{\sqrt{n}}}=\frac{25}{\frac{245}{\sqrt{100}}}$$ $$z=1.02$$ Ahora buscando valor de z en una tabla de la distribución normal estándar, nos da que para un $n=30$ la probabilidad es de 0.6922. \ Para n=400 $$z=\frac{\bar{x}-μ}{\frac{σ}{\sqrt{n}}}=\frac{25}{\frac{245}{\sqrt{400}}}$$ $$z=2.04$$ Ahora buscando valor de z en una tabla de la distribución normal estándar, nos da que para un $n=30$ la probabilidad es de 0.9586.
$b)$ La ventaja de tener una muestra más grande al estimar la media poblacional está relacionada con la precisión de la estimación. Cuando el tamaño de la muestra es más grande, la estimación de la media muestral tiende a acercarse más a la media poblacional. Esto se debe a la propiedad del Teorema del Límite Central, que establece que, para muestras lo suficientemente grandes, la distribución de las medias muestrales se aproxima a una distribución normal, independientemente de la forma de la distribución original.\ En resumen, una muestra más grande proporciona estimaciones más precisas de la media poblacional y reduce la variabilidad en las estimaciones muestrales.
Solucion con phyton:
import scipy.stats as stats
#Solucion usando phyton
# Datos dados
media_poblacional = 939
desviacion_estandar = 245
# Tamaños de muestra
tamanos_muestra = [30, 50, 100, 400]
# Valor de diferencia en medias
diferencia_medias = 25
# Calcular las probabilidades para cada tamaño de muestra
for n in tamanos_muestra:
# Calcular z
z = diferencia_medias / (desviacion_estandar / (n ** 0.5))
# Calcular la probabilidad usando la distribución normal estándar
probabilidad = stats.norm.cdf(z) - stats.norm.cdf(-z)
print(f"Para n = {n}, la probabilidad es: {probabilidad}")
Ejercicio 28. La puntuación promedio de golfistas hombres es de 95 y para las golfistas mujeres es de 106 (Golf Digest, abril de 2006). Considere estos valores como medias poblacionales de los hombres y las mujeres y suponga que la desviación estándar poblacional es σ=14 golpes en ambos casos. Se tomará una muestra aleatoria simple de 30 golfistas hombres y otra muestra aleatoria simple de 45 golfistas mujeres.
a) Proporcione la distribución de muestreo de $\bar{x}$ correspondiente a los golfistas.
b) ¿Cuál es la probabilidad de que la media muestral no difiera en más de 3 golpes de la media poblacional en la muestra de hombres?
c) ¿Cuál es la probabilidad de que la media muestral no difiera en más de 3 golpes de la media poblacional en la muestra de golfistas mujeres?
d) ¿En cuál de los casos, inciso a) o inciso b), es mayor la probabilidad de que la media muestral no difiera en más de 3 golpes de la media poblacional? ¿Por qué?
Solucion:
$a)$ La distribución de muestreo de la media muestral, $\bar{x}$ , se puede describir como una distribución normal con una media igual a la media poblacional y una desviación estándar igual a $\frac{σ}{\sqrt{n}}$, donde $n$ es el tamaño de la muestra. \ Resolvemos para los golfistas hombre: $$μ_{\bar{x}_{hombres}}=μ_{hombres}=95$$ $$σ_{\bar{x}_{hombres}}=\frac{σ_{hombres}}{\sqrt{n_{hombres}}}=\frac{14}{\sqrt{130}}$$ $$σ_{\bar{x}}=2.56$$ Resolvemos para los golfistas mujeres: $$μ_{\bar{x}_{mujeres}}=μ_{mujeres}=106$$ $$σ_{\bar{x}_{mujeres}}=\frac{σ_{mujeres}}{\sqrt{n_{mujeres}}}=\frac{14}{\sqrt{45}}$$ $$σ_{\bar{x}}=2.09$$ $b)$ Probabilidad de que la media muestral de hombres no difiera en más de 3 golpes de la media poblacional usaremos lo siguiente: $$z_{hombres}=\frac{\bar{x}-μ_{hombres}}{σ_{\bar{x}_{hombres}}}$$ Luego, buscaremos la probabilidad a: $$|z_{hombres}|\leq \frac{3}{σ_{\bar{x}_{hombres}}}$$ $$|z_{hombres}|\leq \frac{3}{2.56}$$ Probabilidad de que la media muestral de hombres no difiera en más de 3 golpes es de 0.7580.
$c)$ Probabilidad de que la media muestral de mujeres no difiera en más de 3 golpes de la media poblacional usaremos lo siguiente: $$z_{mujeres}=\frac{\bar{x}-μ_{mujeres}}{σ_{\bar{x}_{mujeres}}}$$ Luego, buscaremos la probabilidad a: $$|z_{mujeres}|\leq \frac{3}{σ_{\bar{x}_{mujeres}}}$$ $$|z_{mujeres}|\leq \frac{3}{2.09}$$ Probabilidad de que la media muestral de mujeres no difiera en más de 3 golpes es de 0.8502.
$d)$ Es el inciso c debido a que el tamano de la muestra es mayor.
Solucion con phyton:
import scipy.stats as stats
# Datos para hombres
media_hombres = 95
desviacion_hombres = 14
tamanos_muestra_hombres = 30
# Datos para mujeres
media_mujeres = 106
desviacion_mujeres = 14
tamanos_muestra_mujeres = 45
# SOLUCIO USANDO PYTHON
# Diferencia máxima permitida en golpes
diferencia_maxima = 3
# a) Distribución de muestreo
# Hombres
media_muestra_hombres = media_hombres
desviacion_muestra_hombres = desviacion_hombres / (tamanos_muestra_hombres ** 0.5)
# Mujeres
media_muestra_mujeres = media_mujeres
desviacion_muestra_mujeres = desviacion_mujeres / (tamanos_muestra_mujeres ** 0.5)
# b) Probabilidad para hombres
z_hombres = diferencia_maxima / desviacion_muestra_hombres
probabilidad_hombres = stats.norm.cdf(z_hombres) - stats.norm.cdf(-z_hombres)
# c) Probabilidad para mujeres
z_mujeres = diferencia_maxima / desviacion_muestra_mujeres
probabilidad_mujeres = stats.norm.cdf(z_mujeres) - stats.norm.cdf(-z_mujeres)
# d) Comparación de probabilidades
if probabilidad_hombres > probabilidad_mujeres:
mayor_probabilidad = "Hombres"
else:
mayor_probabilidad = "Mujeres"
# Mostrar resultados
print(f"Distribución de muestreo para hombres: Media = {media_muestra_hombres}, Desviación = {desviacion_muestra_hombres}")
print(f"Distribución de muestreo para mujeres: Media = {media_muestra_mujeres}, Desviación = {desviacion_muestra_mujeres}")
print(f"b) Probabilidad de que la media muestral de hombres no difiera en más de 3 golpes: {probabilidad_hombres}")
print(f"c) Probabilidad de que la media muestral de mujeres no difiera en más de 3 golpes: {probabilidad_mujeres}")
print(f"d) En {mayor_probabilidad} es mayor la probabilidad de que la media muestral no difiera en más de 3 golpes.")
Ejercicio 30. Para estimar la edad media de una población de 4 000 empleados se selecciona una muestra aleatoria simple de 40 sujetos.
$a)$ ¿Usaría el factor de corrección para una población finita en el cálculo del error estándar de la media? Explique.
$b)$ Si la desviación estándar poblacional es σ=8.2 años, calcule el error estándar con y sin el factor de corrección para una población finita. ¿Cuál es la base para ignorar el factor de corrección para la población finita si $n/N \leq 0.05$?
$c)$ ¿Cuál es la probabilidad de que la media muestral de las edades de los empleados no difiera en más de $\pm2$ años de la media poblacional de las edades?
Solucion:
$a)$ El factor de corrección para una población finita se usa cuando la muestra es una fracción significativa de la población total. El factor de corrección ajusta el error estándar de la media $(σ_{\bar{x}})$ para tener en cuenta el hecho de que se está muestreando sin reemplazo de una población finita. La fórmula del error estándar de la media con el factor de corrección es: $$σ_{\bar{x}}=\frac{\sigma}{N}\times \sqrt{\frac{N-n}{N-1}}$$ Donde $σ_{\bar{x}}$ es el error estándar de la media, $sigma$ es la desciación estándar poblacional, $N$ es el tamaño de la población y $n$ es el tamaño de la muestra. \ En este caso, la población tiene 4,000 empleados y la muestra es de 40 sujetos. Si $n/N$ es pequeño (generalmente menor o igual a 0.05), se puede ignorar el factor de corrección.Entonces no usaremos el factor de correción
$b)$ Ahora solo reemplazamos en la formula anterior:
Con factor de correción: $$σ_{\bar{x}}=\frac{8.2}{4000}\times \sqrt{\frac{4000-40}{4000-1}}$$ $$σ_{\bar{x}}=1.29$$ Sin factor de corrección: $$σ_{\bar{x}}=\frac{8.2}{\sqrt{40}}$$ $$σ_{\bar{x}}=1.30$$ Entonces hay poca diferencia entre usar el factor de corrección o no.
$c)$ Para esto necesitaremos usar la distribución normal y la puntuación z. La fórmula de la puntuación z es: $$z=\frac{\bar{x}-μ}{\frac{σ}{\sqrt{n}}}$$ Donde $\bar{x}$ es la media muestral, μ es la media poblacional, σ es la desviación estándar poblacional, y $n$ es el tamaño de la muestra. Ahora reemplazamos: $$z=\frac{-2}{\frac{8.2}{\sqrt{40}}}$$ $$z=-1.54$$ Ahora calculamos la probabilidad asociada con $-2\leq z\leq2$ usando una tabla de la distribución normal estándar o una calculadora estadística. \ Dandonos que la probabilidad de que no difiera en más de $\pm2$ es de 0.8764.
7.6 Distribución de muestreo $\bar{p}$¶
La proporción muestral $\bar{p}$ es el estimador puntual de la proporción poblacional $p$. La fórmula para calcular la proporción muestral es $$\bar{p}=\frac{x}{n}$$ donde $$x=número de elementos de la muestra que poseen la característica de interés$$ $$n=tamaño de la muestra$$ Como se indica en la sección 7.4, la proporción muestral $\bar{p}$ es una variable aleatoria y su distribución de probabilidad se conoce como distribución de muestreo de $\bar{p}$.
Distribución de muestreo de $\bar{p}$
La distribución de muestreo de $\bar{p}$ es la distribución de probabilidad de todos los posibles valores de la proporción muestral $\bar{p}$.
Para determinar qué tan cerca está la proporción muestral $\bar{p}$ de la proporción poblacional $\bar{p}$, es necesario entender las propiedades de la distribución de muestreo de p: el valor esperado de $\bar{p}$, la desviación estándar de $\bar{p}$ y la forma de la distribución de muestreo de $\bar{p}$.
Valor esperado de $\bar{p}$¶
El valor esperado de $\bar{p}$, la media de todos los posibles valores de $\bar{p}$, es igual a la proporción poblacional $\bar{p}$.
VALOR ESPERADO DE $\bar{p}$ $$E(\bar{p})=p$$ donde $$E(\bar{p})=valor\ esperado\ de\ \bar{p}$$ $$p=proporción\ poblacional$$ Como $E(\bar{p})=p$, $\bar{p}$ es un estimador insesgado de $p$. Recuerde que en la sección 7.1 se encontró que en la población de EAI, p 0.60, siendo $p$ la proporción de la población de gerentes que han participado en el programa de capacitación de la empresa. Por tanto, el valor esperado de $\bar{p}$ en el problema de muestreo de EAI es 0.60. \ Desviación estándar de $\bar{p}$ \ Como en el caso de la desviación estándar de $\bar{x}$, la desviación estándar de $\bar{p}$ depende de si la población es fi nita o infi nita. Las dos fórmulas para calcularla se presentan a continuación. \ DESVIACIÓN ESTÁNDAR DE $\bar{p}$ \ Polación finita $$σ_{\bar{p}}=\sqrt{\frac{N-n}{N-1}}\sqrt{\frac{p(1-p)}{n}}$$ Polación infinita $$σ_{\bar{p}}=\sqrt{\frac{p(1-p)}{n}}$$
Al comparar las dos fórmulas en (7.5) se aprecia que la única diferencia es el uso del factor de corrección para una población finita $\sqrt{(N-n)(N-1)}$. \ Como en el caso de la media muestral $\bar{x}$, la diferencia entre las expresiones para una población fi nita y una infi nita es despreciable si el tamaño de la población finita es grande en comparación con el tamaño de la muestra. Se seguirá la misma regla recomendada para la media muestral. Es decir, si la población es finita y $n/N\leq 0.5$ se usará $σ_{\bar{p}}=\sqrt{p(1-p)/n}$. Pero si la población es finita y $n/N>0.5$, entonces deberá utilizarse el factor de corrección para una población finita. También, a menos que se especifique otra cosa, en este libro se supondrá que el tamaño de la población es grande en comparación con el tamaño de la muestra y, por tanto, el factor de corrección para una población finita no será necesario. \ En la sección 7.5 se utilizó el término error estándar de la media para referirse a la desviación estándar de $\bar{x}$. Se dijo que en general la expresión error estándar se refiere a la desviación estándar de un estimador puntual. Así, en el caso de proporciones, se usa el error estándar de la proporción para referirse a la desviación estándar de $\bar{p}$. Ahora se vuelve al ejemplo de EAI para calcular el error estándar de la proporción asociada con la muestra aleatoria simple de los 30 gerentes de EAI. \ En el estudio de EAI se sabe que la proporción poblacional de gerentes que han participado en el programa de capacitación es $p=0.60$. Como $n/N=0/2 500=0.012$, se puede ignorar el factor de corrección para una población fi nita al calcular el error estándar de la proporción. En la muestra aleatoria simple de 30 gerentes, $σ_{\bar{p}}$ es $$σ_{\bar{p}}=\sqrt{\frac{p(1-p)}{n}}=\sqrt{\frac{0.60(1-0.60)}{30}}=0.0894$$
Forma de la distribución de muestreo de $\bar{p}$¶
Ahora que se conoce la media y la desviación estándar de la distribución de muestreo de $\bar{p}$, el úl-timo paso es determinar la forma de esta distribución. La proporción muestral es $\bar{p} =x/n$. En una muestra aleatoria simple de una población grande, el valor de $\bar{x}$ es una variable aleatoria binomial que indica el número de los elementos de la muestra que tienen la característica de interés. Como $n$ es una constante, la probabilidad de $x/n$ es la misma que la probabilidad binomial de $\bar{x}$, lo cual signifi ca que la distribución de muestreo de $\bar{p}$ también es una distribución de probabilidad discreta y la probabilidad de cada $x/n$ es la misma que la de $\bar{x}$. \ En el capítulo 6 se estableció que una distribución binomial se aproxima mediante una distribución normal, siempre que el tamaño de la muestra sea lo sufi cientemente grande para satisfacer las dos condiciones siguientes. $$np\geq 5$$ y $$n(1-p)\geq5$$ Suponiendo que se satisfagan estas dos condiciones, la distribución de probabilidad de x en la proporción muestral, $\bar{p}=x/n$, puede aproximarse por medio de una distribución normal. Y como $n$ es una constante, la distribución de muestreo de $\bar{p}$ también se aproxima mediante una distribución normal. Esta aproximación se formula como se indica enseguida: \ La distribución de muestreo de $\bar{p}$ se aproxima mediante una distribución normal, siempre que $np\geq5$ y $n(1-p)\geq5$. \ En las aplicaciones prácticas, cuando se requiere una estimación de la proporción poblacional, casi siempre se encuentra que el tamaño de la muestra es sufi cientemente grande para permitir usar la aproximación normal para la distribución de muestreo de $\bar{p}$. \ Recuerde que en el problema de muestreo de EAI la proporción poblacional de gerentes que han participado en el programa de capacitación es $p=0.60$. Con una muestra aleatoria simple de tamaño 30, se tiene $np = 30(0.60) =18$ y $n(l-p)= 30 (0.40) = 12$. Por tanto, la distribución de muestreo de p se calcula mediante la distribución normal que se presenta en la figura 7.8. \
Valor práctico de la distribución de muestreo de $\bar{p}$¶
El valor práctico de la distribución de muestreo de $\bar{p}$ radica en que permite obtener información probabilística acerca de la diferencia entre la proporción muestral y la proporción poblacional. Por ejemplo, en el problema de EAI, el director de personal desea saber cuál es la probabilidad de obtener un valor de $\bar{p}$ que no difi era en más de 0.05 de la proporción poblacional de los gerentes de EAI que han participado en el programa de capacitación. Es decir, ¿cuál es la probabilidad de tener una muestra en la que la proporción muestral $\bar{p}$ esté entre 0.55 y 0.65? El área sombreada de la figura 7.9 corresponde a esta probabilidad. A partir de que la distribución de muestreo de $\bar{p}$ se aproxima mediante una distribución normal con media 0.60 y un error estándar de la proporción $σ_{\bar{p}}= 0.0894$, se encuentra que la variable aleatoria normal estándar correspondiente a $\bar{p}=0.65$ tiene el valor $z (0.65 - 0.60)/0.0894 =0.56$. En la tabla de probabilidad normal estándar aparece que la probabilidad acumulada que corresponde a $z= 0.56$ es 0.7123. De manera similar para $\bar{p}=0.55$, se encuentra que $z = (0.55 - 0.60)/0.0894= -0.56$. En la misma tabla se aprecia que la probabilidad acumulada correspondiente a $z= -0.56$ es 0.2877. De esta manera, la probabilidad de seleccionar una muestra en la cual el valor de $\bar{p}$ no difiera más de 0.05 de la proporción poblacional p está dada por 0.7123 - 0.2877 = 0.4246.
Figura 7.8 Distribución de muestreo de $\bar{p}$ para la proporción de gerentes que ha participado en el programa de capacitación de EAI
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
# Parámetros del problema
proporcion_poblacional = 0.60
error_estandar_proporcion = 0.0894
# Valores para la distribución de muestreo de p
p_vals = np.linspace(0, 1, 1000)
# Calcula la función de densidad de probabilidad para cada valor de p
pdf_vals = norm.pdf(p_vals, loc=proporcion_poblacional, scale=error_estandar_proporcion)
# Crea el gráfico de la distribución de muestreo de p
#plt.figure(figsize=(10, 6))
plt.plot(p_vals, pdf_vals, color='#009929', label='Distribución de Muestreo de p')
plt.gca().set_facecolor('#d4f8b7')
#plt.title('Distribución de Muestreo de p')
plt.text(0.05, 0.7,r'Distribución de muestreo', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top')
plt.text(0.05, 0.6,r'de $\bar{p}$', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top')
plt.text(0.95, 0.4, r'$\sigma_{\bar{p}}=0.0894$', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top', horizontalalignment='right')
plt.text(0.75, 0, r'$E(\bar{p})$', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top', horizontalalignment='right')
area_interes = np.logical_and(p_vals >= 0.55, p_vals <= 0.65)
plt.xticks([0.60],['0.60'])
plt.yticks([])
plt.show()
Si se aumenta el tamaño de la muestra a $n=100$, el error estándar de la proporción se convierte en $$σ_{\bar{p}}=\sqrt{\frac{0.60(1-0.60)}{100}}=0.049$$ Con una muestra de 100 gerentes de EAI, se calcula ahora la probabilidad de que la proporción muestral tenga un valor que no difiera en más de 0.05 de la proporción poblacional. Como la distribución de muestreo es aproximadamente normal, con media 0.60 y desviación estándar 0.049, se puede usar la tabla de probabilidad normal estándar para determinar el área o probabilidad. Para $\bar{p}=0.65$, se tiene $z=(0.65 - 0.60)/0.049 =1.02$. La tabla de probabilidad normal estándar indica que la probabilidad acumulada correspondiente a $z=1.02$ es 0.8461. De
Figura 7.9 Probabilidad de que $\bar{p}$ esté entre 0.55 y 0.65
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
# Parámetros del problema
media_poblacional = 0.60
desviacion_estandar = 0.049
# Valores para la distribución de muestreo de p
p_vals = np.linspace(0, 1, 1000)
# Calcula la función de densidad de probabilidad para cada valor de p
pdf_vals = norm.pdf(p_vals, loc=media_poblacional, scale=desviacion_estandar)
# Crea el gráfico de la distribución de muestreo de p
plt.figure(figsize=(10, 6))
plt.plot(p_vals, pdf_vals, color='#009929', label='Distribución de Muestreo de p')
# Añadir líneas verticales para marcar los límites de 0.55 y 0.65
plt.axvline(x=0.55, color='#008000', linestyle='--', label='Límite Inferior (0.55)')
plt.axvline(x=0.65, color='#008000', linestyle='--', label='Límite Superior (0.65)')
area_interes = np.logical_and(p_vals >= 0.55, p_vals <= 0.65)
area_interes2 = np.logical_and(p_vals >= 0, p_vals <= 0.55)
plt.gca().set_facecolor('#d4f8b7')
plt.fill_between(p_vals, pdf_vals, where=area_interes, color='#5ccb5f', alpha=0.3, label='Probabilidad Deseada')
plt.fill_between(p_vals, pdf_vals, where=area_interes2, color='#98F84A', alpha=0.3, label='Probabilidad Deseada')
plt.xticks([0.55,0.60,0.65],['0.55','0.60','0.65'])
plt.yticks([])
plt.text(0.05, 0.7,r'Distribución de muestreo', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top')
plt.text(0.05, 0.6,r'de $\bar{p}$', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top')
plt.text(0.2, 0.2,r'$P(\bar{p} \leq 0.55) =0.2877$', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top')
plt.text(0.8, 0.4, r'$\sigma_{\bar{p}}=0.0894$', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top', horizontalalignment='right')
plt.text(0.95, 0.3, r'$P(0.55 \leq p \leq 0.65)=0.4246$', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top', horizontalalignment='right')
plt.text(0.95, 0.2, r'$=0.7123- 0.2877$', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top', horizontalalignment='right')
plt.text(0.75, 0, r'$E(\bar{p})$', transform=plt.gca().transAxes, fontsize=12, verticalalignment='top', horizontalalignment='right')
#plt.legend()
plt.show()
manera similar, para $\bar{p}$ 0.55, se tiene que $z$ $=$(0.55 $–$ 0.60)$/$0.049$=$ $-$ 1.02. Se encuentra que la probabilidad acumulada correspondiente a $z=$ 1.02 es 0.1539. Por tanto, si el tamaño de la muestra aumenta de 30 a 100, la probabilidad de que la proporción muestral $\bar{p}$ no difiera en más de 0.05 de la proporción poblacional $p$ aumenta a 0.8461 0.1539 0.6922.
Ejercicios¶
Metodo¶
- Una muestra aleatoria de tamaño 100 es seleccionada de una población en la que $p=$ 0.40.
$a)$ $¿$Cuál es el valor esperado de $\bar{p}?$
$b)$ $¿$Cuál es el error estándar de $\bar{p}?$
$c)$ Exprese la distribución de muestreo de $\bar{p}$.
$d)$ $¿$Qué indica esta distribución$?$
- Una proporción poblacional es 0.40. Se toma una muestra aleatoria simple de tamaño 200 y la proporción muestral $\bar{p}$ se usa para estimar la proporción poblacional.
$a)$ $¿$Cuál es la probabilidad de que la proporción muestral esté entre $\pm$0.03 de la proporción poblacional$?$
$b)$ $¿$ Cuál es la probabilidad de que la proporción muestral se encuentre entre $\pm$0.05 de la proporción poblacional$?$
- Suponga que la proporción poblacional es 0.55. Calcule el error estándar de la proporción, $σ\small{\bar{p}}$ , para los tamaños de muestra 100, 200, 500 y 1 000. $¿$Qué puede decir acerca del tamaño del error estándar a medida que el tamaño de la muestra aumenta$?$
- La proporción poblacional es 0.30. ¿Cuál es la probabilidad de que las proporciones muestral y poblacional estén entre $\pm$0.04 con los tamaños de muestra siguientes$?$ $a)$ $n=$100
$b)$ $n=$200
$c)$ $n=$500
$d)$ $n=$1000
$e)$ $¿$Qué ventaja tiene un tamaño grande de muestra$?$
Aplicacion¶
- El director de Doerman Distributors, Inc. piensa que 30% de los pedidos proviene de nuevos clientes. Para ver la proporción de clientes nuevos se usará una muestra aleatoria simple de 100 pedidos.
$a)$ Supongamos que el director está en lo cierto y que $p$ 0.30. $¿$Cuál es la distribución de muestreo de $\bar{p}$ en este estudio$?$
$b)$ $¿$Cuál es la probabilidad de que la proporción muestral de $\bar{p}$ esté entre 0.20 y 0.40$?$
$c)$ $¿$Cuál es la probabilidad de que esté entre 0.25 y 0.35$?$
- The Cincinnati Enquirer informa que en Estados Unidos 66% de los adultos y 87% de los jóvenes entre 12 y 17 años usan Internet (The Cincinnati Enquirer, 7 de febrero de 2006). Considere estos datos como proporciones poblacionales y suponga que se usará una muestra de 300 adultos y 300 jóvenes para obtener información respecto de su opinión acerca de la seguridad en Internet.
$a)$ Exponga la distribución de muestreo de $\bar{p}$, siendo $\bar{p}$ la proporción muestral de adultos que usan Internet.
$b)$ $¿$Cuál es la probabilidad de que la diferencia entre la proporción muestral y la proporción poblacional de adultos que usan Internet no sea mayor que $\pm$ 0.04$?$
$c)$ $¿$ Cula se que la diferencia entre la proporción muestral y la proporción poblacional de jóvenes que usan Internet no sea mayor que $\pm$ 0.04$?$
$d)$ $¿$Son diferentes las probabilidades del inciso $b)$ y del inciso $c)?$ Si es así, $¿$por qué$?$
$e)$ Responda al inciso $b)$ en el caso de que el tamaño de la muestra sea 600. $¿$Es menor la probabilidad$?$ $¿$Por qué$?$
- Las personas terminan por desechar 12% de lo que compran en el supermercado (Reader’s Digest, marzo de 2009). Asuma que ésta es la verdadera proporción poblacional y que planea realizar una encuesta por muestreo de 450 compradores para investigar más acerca de su comportamiento.
$a)$ Presente la distribución de muestreo de $\bar{p}$, la proporción de mercancía que desechan los encuestados de la muestra.
$b)$ $¿$Cuál es la probabilidad de que la encuesta genere una proporción muestral de $\pm$ 0.03 de la proporción poblacional$?$
$c)$ $¿$Cuál es la probabilidad de que la encuesta genere una proporción muestral de $\pm$ 0.015 de la proporción poblacional$?$
- Roper ASW realizó una encuesta para obtener información acerca de la opinión de los estadounidenses respecto del dinero y la felicidad (Money, octubre de 2003). De los entrevistados, 56% dijo revisar el estado de su chequera por lo menos una vez al mes.
$a)$ Suponga que se toma una muestra de 400 estadounidenses adultos. Indique la distribución de muestreo de la proporción de éstos que revisa el estado de su chequera por lo menos una vez al mes.
$b)$ $¿$Cuál es la probabilidad de que la diferencia entre las proporciones muestral y poblacional no sea mayor que $\pm$ 0.02$?$
$c)$ $¿$Cuál es la probabilidad de que dicha diferencia no sea mayor que $\pm$0.04$?$
- En 2008, el Better Business Bureau resolvió 75% de las quejas que recibió (USA Today, 2 de marzo de 2009). Suponga que ha sido contratado por esta oficina para investigar los reclamos que recibió este año y que involucran a nuevos concesionarios automotrices. Usted planea seleccionar una muestra de las quejas de estos últimos para estimar la proporción que el Better Business Bureau está en posibilidad de resolver. Asuma que la proporción poblacional de quejas resueltas de nuevos concesionarios automotrices es 0.75, la misma que la proporción general de reclamos resueltos en 2008.
$a)$ Suponga que selecciona una muestra de 450 quejas que involucran a nuevos concesionarios automotrices. Presente la distribución muestral de $\bar{p}$.
$b)$ Con base en la muestra de 450 quejas, ¿cuál es la probabilidad de que la diferencia entre las proporciones muestral y poblacional no sea mayor que 0.04?
$c)$ Suponga que selecciona una muestra de 200 quejas que involucran a nuevos concesionarios automotrices. Presente la distribución de muestreo de $\bar{p}$.
$d)$ Con base en la muestra más pequeña de sólo 200 quejas, ¿cuál es la probabilidad de que la diferencia entre las proporciones muestral y poblacional no sea mayor que 0.04?
$e)$ Con base en lo determinado por el incremento en la probabilidad, ¿qué tanto se ganaría en precisión si se tomara la muestra más grande en el inciso $b)$?
- The Grocery Manufacturers of America informa que 76% de los consumidores lee los ingredientes que se mencionan en la etiqueta de un producto. Suponga que la proporción poblacional es $p$ = 0.76 y que de la población de consumidores se selecciona una muestra de 400.
$a)$ Exprese la distribución de muestreo de la proporción muestral $\bar{p}, si $\bar{p} es la proporción de consumidores de la muestra que lee los ingredientes que se mencionan en la etiqueta.
$b)$ ¿Cuál es la probabilidad de que la diferencia entre las proporciones muestral y poblacional no sea mayor que $\pm$ 0.03?
$c)$ Conteste el inciso $b)$ si el tamaño de la muestra es 750 consumidores.
- El Food Marketing Institute informa que 17% de los hogares gasta más de $100 en productos de abarrotes. Suponga que la proporción poblacional es p 0.17 y que de la población se toma una muestra aleatoria simple de 800 hogares.
$a)$ Exprese la distribución de muestreo de $\bar{p}$, la proporción muestral de hogares que gastan más de $100 semanales en abarrotes.
$b)$ ¿Cuál es la probabilidad de que la proporción poblacional no difiera en más de 0.02 de la proporción poblacional?
$c)$ Conteste el inciso b) en caso de que el tamaño de la muestra sea de 1 600 hogares.
7.8 Propiedades de los estimadores puntuales¶
En este capítulo se ha explicado que los estadísticos muestrales, como la media muestral x, la desviación estándar muestral $s$ y la proporción muestral $\bar{p}$ sirven como estimadores puntuales de sus correspondientes parámetros poblacionales, $μ$, $σ$ y $p$. Resulta interesante advertir que cada uno de estos estadísticos muestrales sean los estimadores puntuales de sus correspondientes parámetros poblacionales. Sin embargo, antes de usar un estadístico muestral como estimador puntual, se verifi ca si éste tiene ciertas propiedades que corresponden a un buen estimador puntual. En esta sección se estudian las propiedades que deben tener los buenos estimadores puntuales: insesgadez, efi ciencia y consistencia. Como hay distintos estadísticos muestrales que se utilizan como estimadores puntuales de sus diferentes parámetros poblacionales, en esta sección se usará la notación general siguiente.
Insesgadez¶
Si el valor esperado del estadístico muestral es igual al parámetro poblacional que se estima, se dice que el estadístico muestral es un estimador insesgado del parámetro poblacional.
from IPython.display import HTML, display
# Código para colocar el símbolo LaTeX en el fondo de texto
html_code = """
<script src="https://polyfill.io/v3/polyfill.min.js?features=es6"></script>
<script id="MathJax-script" async src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js"></script>
<style>
.custom-container {
background-color: #D4F8B7; /* Color de fondo */
padding: 10px;
border: none; /* Eliminar bordes */
border-radius: 0; /* Eliminar esquinas redondeadas */
}
.custom-text {
color: #000000; /* Color del texto */
font-size: 18px;
font-weight: bold;
display: flex;
justify-content: center;
align-items: center;
}
</style>
<div class="custom-container">
<p>INSESGADEZ</p>
<p>El estadístico muestral \\(\hat{\\theta}\\) es un estimador insesgado del parámetro poblacional \\({\\theta}\\) si</p>
<br>
<p class="custom-text">\\({E}\\)\\((\hat{\\theta})\\) \\(={\\theta}\\)</p>
<p>donde</p>
<p >\\({E}\\)\\((\hat{\\theta})\\) valor esperado del estadístico muestral \\({\\theta}\\)</p>
</div>
"""
# Mostrar el HTML con el estilo personalizado
display(HTML(html_code))
INSESGADEZ
El estadístico muestral \\(\hat{\\theta}\\) es un estimador insesgado del parámetro poblacional \\({\\theta}\\) si
\\({E}\\)\\((\hat{\\theta})\\) \\(={\\theta}\\)
donde
\\({E}\\)\\((\hat{\\theta})\\) valor esperado del estadístico muestral \\({\\theta}\\)
INSESGADEZ
El estadístico muestral \(\hat{\theta}\) es un estimador insesgado del parámetro poblacional \({\theta}\) si
\({E}\)\((\hat{\theta})\) \(={\theta}\)
donde
\({E}\)\((\hat{\theta})\) valor esperado del estadístico muestral \({\theta}\)
Por tanto, el valor esperado, o media, de todos los posibles valores de un estadístico muestral insesgado es igual al parámetro poblacional que se está estimando.
En la figura 7.10 se exponen los casos de los estimadores puntuales sesgado e insesgado. En la gráfica que ilustra el estimador insesgado, la media de la distribución de muestreo es igual al valor del parámetro poblacional. En este caso los errores de estimación se equilibran, ya que algunas veces el valor del estimador puntual $\hat{\theta}$ puede ser menor que $θ$ y otras veces es mayor que $θ$. En el estimador sesgado, la media de la distribución de muestreo es menor o mayor que el valor del parámetro poblacional. En la gráfica $B$ de la figura 7.10, $E(\hat{\theta})$ es mayor que $θ$ ; así, la probabilidad de que los estadísticos muestrales sobreestimen el valor del parámetro poblacional es grande. En la fi gura se muestra la amplitud de este sesgo.
Al estudiar las distribuciones de muestreo de la media muestral y de la proporción muestral, se vio que $E(\bar{x})$ $μ$ y que $E(\bar{p})$ $=p$. Por tanto, $\bar{x}$ y $\bar{p}$ son estimadores insesgados de sus correspondientes parámetros poblacionales $μ$ y $p$.
En cuanto a la desviación estándar muestral $s$ y la varianza muestral $s^{2}$ , se puede demostrar que $E(s^{2})=σ^{2}$. Por consiguiente, se concluye que la varianza muestral $s^{2}$ es un estimador insesgado de la varianza poblacional $σ^{2}$. En efecto, en el capítulo 3, cuando se presentaron las
Figura 7.10 Ejemplos de estimadores puntuales insesgados y sesgados
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
# Parámetros para las distribuciones
media, desviacion = 0, 1
media_sesgada = media + 0.5 # Añadir sesgo para la segunda distribución
# Generar puntos para las distribuciones
x = np.linspace(media - 3*desviacion, media + 3*desviacion, 100)
x_sesgada = np.linspace(media_sesgada - 3*desviacion, media_sesgada + 3*desviacion, 100)
# Crear las distribuciones
distribucion = norm.pdf(x, media, desviacion)
distribucion_sesgada = norm.pdf(x_sesgada, media_sesgada, desviacion)
# Crear la figura y los ejes
fig, axs = plt.subplots(1, 2, figsize=(10, 5))
# Establecer el color de fondo para la figura completa
fig.patch.set_facecolor('#d4f8b7')
# Iterar sobre cada eje
for ax in axs:
ax.set_facecolor('#d4f8b7')
# Graficar la distribución insesgada
axs[0].plot(x, distribucion, color='#009929') # Cambiado a color 009929
axs[0].axhline(0, color='black', linestyle='-', linewidth=1) # Línea en la parte inferior
axs[0].set_title('Distribución de muestreo\n de $\hat{θ}$')
axs[0].set_xlabel('\n \n El parámetro $θ$ se localiza en la media\n de la distribución de muestreo; \n $E(\hat{θ})=θ$ \n Gráfica A. Estimador insesgado \n \n')
axs[0].text(3.5, -0.0, r'$\hat{\theta}$', ha='center', va='bottom', color='black', fontsize=14)
axs[0].text(3.5, -0.0, r'____________', ha='center', va='bottom', color='#d4f8b7', fontsize=14)
axs[0].text(0, -0.0, r'|', ha='center', va='bottom', color='black', fontsize=14)
axs[0].text(0, -0.05, r'θ', ha='center', va='bottom', color='black', fontsize=14)
# Desactivar etiquetas de los ejes en el primer gráfico
axs[0].tick_params(axis='both', which='both', labelbottom=False, labelleft=False)
axs[0].set_xticks([]) # Eliminar las marcas del eje x
axs[0].set_yticks([]) # Eliminar las marcas del eje y
# Configurar el color de fondo de los ejes sin contorno
for spine in axs[0].spines.values():
spine.set_edgecolor('#d4f8b7')
# Graficar la distribución sesgada
axs[1].plot(x_sesgada, distribucion_sesgada, color='#009929') # Cambiado a color 009929
axs[1].axhline(0, color='black', linestyle='-', linewidth=1) # Línea en la parte inferior
axs[1].set_title('Distribución de muestreo\n de $\hat{θ}$')
axs[1].set_xlabel('\n \n El parámetro $θ$ no se localiza en la media \n de la distribución de muestreo; \n $E(\hat{θ})= θ$ \n Gráfica B. Estimador insesgado \n\n')
axs[1].text(4.0, -0.01, r'$\hat{\theta}$', ha='center', va='bottom', color='black', fontsize=14)
axs[1].text(0.5, -0.00, r'|', ha='center', va='bottom', color='black', fontsize=14)
axs[1].text(-1.6, -0.00, r'|', ha='center', va='bottom', color='black', fontsize=14)
axs[1].text(-0.6, 0.03, r'Sesgo', ha='center', va='bottom', color='black', fontsize=14)
axs[1].text(-1.4, 0.03, r'<', ha='center', va='bottom', color='black', fontsize=14)
axs[1].text(-1.35, 0.03, r'---', ha='center', va='bottom', color='black', fontsize=14)
axs[1].text(0.1, 0.03, r'---', ha='center', va='bottom', color='black', fontsize=14)
axs[1].text(0.15, 0.03, r'>', ha='center', va='bottom', color='black', fontsize=14)
axs[1].text(0.5, -0.05, r'E($\hat{θ}$)', ha='center', va='bottom', color='black', fontsize=14)
axs[1].text(-1.6, -0.05, r'θ', ha='center', va='bottom', color='black', fontsize=14)
# Desactivar etiquetas de los ejes en el segundo gráfico
axs[1].tick_params(axis='both', which='both', labelbottom=False, labelleft=False)
axs[1].set_xticks([]) # Eliminar las marcas del eje x
axs[1].set_yticks([]) # Eliminar las marcas del eje y
# Configurar el color de fondo de los ejes sin contorno
for spine in axs[1].spines.values():
spine.set_edgecolor('#d4f8b7')
# Mostrar los gráficos
plt.tight_layout()
plt.show()
fórmulas para la varianza muestral y la desviación estándar muestral, en el denominador se usó $n = 1$ en lugar de n para que la varianza muestral fuera un estimador insesgado de la varianza poblacional.
Eficiencia¶
Suponga que se usa una muestra aleatoria simple de n elementos para obtener dos estimadores puntuales insesgados de un mismo parámetro poblacional. En estas circunstancias, se preferirá usar el estimador puntual con el menor error estándar, ya que tenderá a dar estimaciones más cercanas al parámetro poblacional. Se dice que el estimador puntual con menor error estándar tiene mayor eficiencia relativa que los otros.
En la fi gura 7.11 se presentan las distribuciones de muestreo de dos estimadores puntuales insesgados, $\hat{\theta}$1 y $\hat{\theta}$2. Observe que el error estándar de $\hat{\theta}$1 es menor que el error estándar de $\hat{\theta}$2; por
tanto, los valores de $\hat{\theta}$1 tienen más posibilidades de estar cerca del parámetro $\hat{\theta}$ que los valores de $\hat{\theta}$2. Como el error estándar del estimador puntual $\hat{\theta}$1 es menor que el del estimador puntual $\hat{\theta}$2, $\hat{\theta}$1 es relativamente más efi ciente que $\hat{\theta}$2 y se prefi ere como estimador puntual.
Consistencia¶
La tercera propiedad relacionada con un buen estimador puntual es la consistencia. Dicho de manera sencilla, un estimador puntual es consistente si su valor tiende a estar más cerca del parámetro poblacional a medida que el tamaño de la muestra aumenta. En otras palabras, una muestra grande tiende a proporcionar mejor estimación puntual que una pequeña. Observe que en el caso de la media muestral $\bar{x}$ , el error estándar de $\bar{x}$ está dado por $σ$$\bar{x}$ $=$ $σ/$$\sqrt{{{n}}}$. Puesto que $σ$<sub>$\bar{x}$</sub> está vinculado con el tamaño de la muestra, de manera que muestras mayores dan valores menores de $σ$<sub>$\bar{x}$</sub>, entonces las de tamaño grande tienden a proporcionar estimadores puntuales más cercanos a la media de la población $μ$. Mediante un razonamiento similar, también se puede concluir que la proporción muestral $\bar{p}$ es un estimador consistente de la proporción poblacional $p$.
7.8 Otros métodos de muestreo¶
Se describió el muestreo aleatorio simple como un procedimiento de muestreo de una población fi nita y se estudiaron las propiedades de las distribuciones de muestreo de x y de p cuando se usó el muestreo aleatorio simple. Sin embargo, no es el único método de muestreo que existe. Hay otros, como el muestro aleatorio estratifi cado, el muestreo por conglomerados y el muestreo sistemático que, en ciertas situaciones, tienen ventajas sobre el aleatorio simple. En esta sección se presentan brevemente estos tres métodos. En el capítulo 22, que se encuentra en el sitio web del libro, se estudian con más detalle.
Muestreo aleatorio estratificado¶
En el muestreo aleatorio estratificado los elementos de la población primero se dividen en grupos, a los que se les llama estratos, de manera que cada elemento pertenezca a uno y sólo un estrato. La base para la formación de los estratos, que pueden ser departamento, edad, tipo de industria, etc., está a discreción de la persona que diseña la muestra. Sin embargo, se obtienen mejores resultados cuando los elementos que los forman son lo más parecidos posible. La figura 7.12 es el diagrama de una población dividida en H estratos.
Una vez formados los estratos, se toma una muestra aleatoria simple de cada uno. Existen fórmulas para combinar los resultados de las muestras de varios estratos individuales en una estimación del parámetro poblacional de interés. El valor del muestreo aleatorio estratifi cado depende de qué tan homogéneos sean los elementos dentro de cada grupo. Si los elementos de
Figura 7.12 Diagrama de un muestreo aleatorio estratificado
import matplotlib.pyplot as plt
from matplotlib.patches import FancyBboxPatch, Rectangle
from matplotlib.lines import Line2D
# Crear una figura con un solo subgráfico
fig, ax = plt.subplots(figsize=(9, 4))
fig.patch.set_facecolor('#D4F8B7') # Cambiar el color de fondo de la figura a verde
# Tamaño de los rectángulos
rect_width = 0.2
rect_height = 0.2
# Añadir rectángulos y líneas en el diagrama
rect1 = FancyBboxPatch((0.5, 0.7), rect_width, 0.0, boxstyle="round,pad=0.1", fill=True, color='#5CCB5F', linewidth=0.5, zorder=2)
rect2 = Rectangle((0.1, 0.3), rect_width, rect_height, fill=True, color='#5CCB5F', linewidth=0.5, zorder=2)
rect3 = Rectangle((0.4, 0.3), rect_width, rect_height, fill=True, color='#5CCB5F', linewidth=0.5, zorder=2)
rect5 = Rectangle((1.0, 0.3), rect_width, rect_height, fill=True, color='#5CCB5F', linewidth=0.5, zorder=2)
ax.add_patch(rect1)
ax.add_patch(rect2)
ax.add_patch(rect3)
ax.add_patch(rect5)
for rect in [rect1, rect2, rect3, rect5]:
rect.set_edgecolor('black')
ax.text(0.6, 0.7, 'Población', ha="center", va="center", color='black', fontsize=10, fontweight='light', zorder=3)
ax.text(0.2, 0.4, 'Estrato 1', ha="center", va="center", color='black', fontsize=10, fontweight='light', zorder=3)
ax.text(0.5, 0.4, 'Estrato 2', ha="center", va="center", color='black', fontsize=10, fontweight='light', zorder=3)
ax.text(0.8, 0.4, '. . . ', ha="center", va="center", color='black', fontsize=10, fontweight='light', zorder=3)
ax.text(1.1, 0.4, 'Estrato H', ha="center", va="center", color='black', fontsize=10, fontweight='light', zorder=3)
ax.add_line(Line2D([1.1, 0.2], [0.55, 0.55], linewidth=0.5, color='black', zorder=1))
ax.add_line(Line2D([0.5, 0.5], [0.5, 0.55], linewidth=0.5, color='black', zorder=1))
ax.add_line(Line2D([0.2, 0.2], [0.5, 0.55], linewidth=0.5, color='black', zorder=1))
ax.add_line(Line2D([0.6, 0.6], [0.6, 0.55], linewidth=0.5, color='black', zorder=1))
ax.add_line(Line2D([1.1, 1.1], [0.5, 0.55], linewidth=0.5, color='black', zorder=1))
ax.set_xlim(0, 1.5)
ax.set_ylim(0, 1)
ax.axis('off')
# Mostrar la figura con el único diagrama
plt.show()
un estrato son parecidos, éste tendrá una varianza pequeña. Por tanto, con muestras relativamente pequeñas de los estratos se obtienen buenas estimaciones de sus características. Si éstos son homogéneos, el muestreo aleatorio estratifi cado proporciona resultados tan precisos como los de un muestreo aleatorio simple, pero con una muestra de tamaño total menor.
Muestreo por conglomerados¶
En el muestreo por conglomerados, la población se divide en grupos llamados conglomerados, y se selecciona aleatoriamente un subconjunto de conglomerados para formar la muestra. Este método es eficaz cuando los elementos dentro de los conglomerados son diversos. Es especialmente aplicable en el muestreo de áreas, donde los conglomerados representan unidades geográficas, como las manzanas de una ciudad. Aunque se necesitan tamaños de muestra más grandes, permite reducir costos al recopilar muchas observaciones en un conglomerado con un solo entrevistador. Esto proporciona una muestra representativa a un costo menor.
Muestreo sistemático¶
Para ciertos muestreos, en especial en aquellos con poblaciones grandes, se necesita mucho tiempo para tomar una muestra aleatoria simple, pues se requiere determinar primero los números
Figura 7.13 Diagrama del muestreo por conglomerados
import matplotlib.pyplot as plt
from matplotlib.patches import FancyBboxPatch, Rectangle
from matplotlib.lines import Line2D
# Crear una figura con un solo subgráfico
fig, ax = plt.subplots(figsize=(9, 4))
fig.patch.set_facecolor('#D4F8B7') # Cambiar el color de fondo de la figura a verde
# Tamaño de los rectángulos
rect_width = 0.3
rect_height = 0.2
# Añadir rectángulos y líneas en el diagrama
rect1 = FancyBboxPatch((0.5, 0.7), rect_width, 0.0, boxstyle="round,pad=0.1", fill=True, color='#5CCB5F', linewidth=0.5, zorder=2)
rect2 = Rectangle((0.05, 0.3), rect_width, rect_height, fill=True, color='#5CCB5F', linewidth=0.5, zorder=2)
rect3 = Rectangle((0.45, 0.3), rect_width, rect_height, fill=True, color='#5CCB5F', linewidth=0.5, zorder=2)
rect5 = Rectangle((1.05, 0.3), rect_width, rect_height, fill=True, color='#5CCB5F', linewidth=0.5, zorder=2)
ax.add_patch(rect1)
ax.add_patch(rect2)
ax.add_patch(rect3)
ax.add_patch(rect5)
for rect in [rect1, rect2, rect3, rect5]:
rect.set_edgecolor('black')
ax.text(0.65, 0.7, 'Población', ha="center", va="center", color='black', fontsize=10, fontweight='light', zorder=3)
ax.text(0.2, 0.4, 'Conglomerado 1', ha="center", va="center", color='black', fontsize=10, fontweight='light', zorder=3)
ax.text(0.6, 0.4, 'Conglomerado 2', ha="center", va="center", color='black', fontsize=10, fontweight='light', zorder=3)
ax.text(0.9, 0.4, '. . . ', ha="center", va="center", color='black', fontsize=10, fontweight='light', zorder=3)
ax.text(1.2, 0.4, 'Conglomerado K ', ha="center", va="center", color='black', fontsize=10, fontweight='light', zorder=3)
ax.add_line(Line2D([1.2, 0.2], [0.55, 0.55], linewidth=0.5, color='black', zorder=1))
ax.add_line(Line2D([0.6, 0.6], [0.5, 0.55], linewidth=0.5, color='black', zorder=1))
ax.add_line(Line2D([0.2, 0.2], [0.5, 0.55], linewidth=0.5, color='black', zorder=1))
ax.add_line(Line2D([0.65, 0.65], [0.6, 0.55], linewidth=0.5, color='black', zorder=1))
ax.add_line(Line2D([1.2, 1.2], [0.5, 0.55], linewidth=0.5, color='black', zorder=1))
ax.set_xlim(0, 1.5)
ax.set_ylim(0, 1)
ax.axis('off')
# Mostrar la figura con el único diagrama
plt.show()
numeros aleatorios y después contar y recorrer toda una lista de la población hasta encontrar los elementos correspondientes. Una alternativa al muestreo aleatorio muestreo aleatorio simple es el muestreo sistemático. Por ejemplo, si se quiere una muestra de tamaño 50 de una población que tiene 5 000 elementos, se muestrea uno de cada 5 000$/$50$=$100 elementos de la población. En este caso, un muestreo sistemático consiste en seleccionar en forma aleatoria uno de los primeros 100 elementos de la lista de la población. Los otros se identifi can empezando con el primer elemento muestreado y seleccionando cada 100o. elemento que siga en la lista. En efecto, los elementos de la muestra de 50 se identifi can moviéndose sistemáticamente entre la población e identifi cando cada 100o. elemento después del primero seleccionado aleatoriamente. Por lo general, de esta manera es más fácil identifi car la muestra de 50 que si se utilizara el muestreo aleatorio simple. Como el primer elemento que se selecciona es elegido al azar, se supone que una muestra sistemática tiene las propiedades de una muestra aleatoria simple. Este supuesto es aplicable, en especial, cuando la lista de los elementos de la población constituye un orden aleatorio de los elementos.
Muestreo de conveniencia¶
Los métodos de muestreo hasta ahora analizados se conocen como técnicas probabilísticas de muestreo. Los elementos seleccionados de una población tienen una probabilidad conocida de ser incluidos en la muestra. La ventaja del muestreo probabilístico estriba en que, por lo general, se identifi ca la distribución de muestreo del estadístico muestral correspondiente. Para determinar las propiedades de la distribución de muestreo se usan las fórmulas para el muestreo aleatorio simple presentadas en este capítulo. La distribución de muestreo permite plantear afirmaciones probabilísticas acerca del error asociado con el uso de los resultados muestrales al hacer inferencias de la población.
El muestreo de conveniencia es una técnica de muestreo no probabilística. Como el nombre lo indica, la muestra se determina principalmente por conveniencia. Los elementos se incluyen sin que haya una probabilidad previamente especifi cada o conocida de que sean incorporados en la muestra. Por ejemplo, un profesor que realiza una investigación en una universidad puede usar estudiantes voluntarios para que constituyan una muestra simplemente porque los tiene al alcance y participarán como sujetos a un costo bajo o sin costo. De manera similar, un inspector puede muestrear un cargamento de naranjas seleccionándolas al azar de varias cajas. Marcar cada naranja y usar un método probabilístico de muestreo puede no resultar práctico. Muestras como capturas en la vida salvaje y paneles de voluntarios en investigaciones del consumidor son también de conveniencia.
La técnica de muestra de conveniencia tiene la ventaja de ser fácil de seleccionar y recopilar datos, pero carece de la capacidad de evaluar su representatividad en términos de la población. No se puede realizar una evaluación estadística de la calidad de los resultados muestrales, ya que esta muestra puede arrojar resultados buenos o malos sin justificación estadística. A veces, los investigadores aplican métodos estadísticos destinados a muestras probabilísticas a las muestras de conveniencia, tratándolas como si fueran probabilísticas. Sin embargo, estos argumentos carecen de fundamento y es crucial tener precaución al interpretar los resultados de muestras de conveniencia utilizadas para hacer inferencias sobre las poblaciones.
Muestreo subjetivo¶
tra técnica de muestreo no probabilística es el muestreo subjetivo. En este método la persona que más sabe sobre un asunto selecciona elementos de la población a los que considera los más representativos. Este método suele representar una manera relativamente fácil de seleccionar una muestra. Por ejemplo, un reportero puede elegira dos o tres senadores considerando que éstos refl ejan la opinión general de todos los senadores. Sin embargo, la calidad de los resultados muestrales depende de la persona que selecciona la muestra. Aquí también hay que tener mucho cuidado al hacer inferencias acerca de las poblaciones a partir de muestreos subjetivos.
Resumen¶
En este capítulo se presentaron los conceptos de muestreo aleatorio simple y distribución de muestreo. Se describió cómo seleccionar una muestra aleatoria simple de una población finita y una muestra aleatoria de una población infi nita. Los datos recolectados de tales muestras se pueden utilizar para obtener estimadores puntuales de los parámetros poblacionales. Ya que distintas muestras proporcionan valores diferentes de los estimadores puntuales, los estimadores puntuales como x̄ y p̄ son variables aleatorias. A la distribución de probabilidad de una variable aleatoria de este tipo se le conoce como distribución de muestreo. En particular, se describieron las distribuciones de muestreo de la media muestral x y de la proporción muestral p¯ .
Al estudiar las características de las distribuciones de muestreo de x̄ y de p̄ , se estableció que E(x̄) = μ y que E(p̄) = p . Después de proporcionar las fórmulas para la desviación estándar o error estándar de dichos estimadores, se describieron las condiciones necesarias para que las distribuciones de muestreo de x̄ y de p̄ sigan una distribución normal. Otros métodos de muestreo que también se abordaron son el muestreo aleatorio estratifi cado, por conglomerados o clusters, sistemático, por conveniencia y subjetivo.
Glosario¶
Consistencia Propiedad de un estimador puntual que se hace presente siempre que muestras más grandes tienden a proporcionar estimaciones puntuales más cercanas al parámetro poblacional.
Distribución de muestreo o muestral Distribución de probabilidad que consta de todos los posibles valores de un estadístico muestral.
Eficiencia relativa Dados dos estimadores puntuales insesgados de un mismo parámetro poblacional, el estimador puntual con menor error estándar será más efi ciente.
Error estándar Desviación estándar de un estimador puntual.
Estadístico muestral Característica muestral, por ejemplo, la media muestral $\bar{x}$, la desviación estándar muestral $s$, la proporción muestral $\bar{p}$, etc. El valor del estadístico muestral se utiliza para estimar el valor del parámetro poblacional correspondiente.
Estimación puntual Valor de un estimador que se utiliza en una situación particular como estimación del parámetro poblacional.
Estimador puntual Un estadístico muestral como $\bar{x}$, $s$ $o$ $\bar{p}$ que proporciona una estimación puntual del parámetro poblacional correspondiente.
Factor de corrección para una población finita Es el término $\sqrt{{{(N-n)/(N-1)}}}$ utilizado en las fórmulas de $σ$$\bar{x}$ $y$ $σ$$\bar{p}$ siempre que se muestrea de una población fi nita y no de una población infi nita. Sin embargo, hay una regla generalmente aceptada: ignorar el factor de corrección en una población fi nita siempre que $n/N$ $\leq$ $0.05$
Insesgadez Propiedad de un estimador puntual que se hace presente cuando el valor esperado del estimador es igual al parámetro poblacional que se est
Marco Lista de los elementos de donde se selecciona la muestra.
Muestreo aleatorio Muestra aleatoria de una población infi nita seleccionada de manera tal que se satisfagan las condiciones siguientes: 1) cada elemento escogido proviene de la misma población y, 2) cada elemento se selecciona de manera independiente.
Muestreo aleatorio estratificado Método probabilístico en el que primero se divide la población en estratos y después se toma una muestra aleatoria simple de cada estrato.
Muestreo aleatorio simple Muestra aleatoria simple de tamaño $n$ de una población finita de tamaño $N$ seleccionada de manera que cada posible muestra de tamaño $n$ tenga la misma probabilidad de ser seleccionada.
Muestreo con remplazo Una vez que un elemento se ha incluido en la muestra, se regresa a la población. Un elemento ya seleccionado puede nuevamente ser elegido y aparecer más de una vez en la muestra.
Muestreo por conglomerados o clusters Método probabilístico en el que primero se divide la población en conglomerados y después se toma una muestra aleatoria de éstos.
Muestreo sin remplazo Una vez que un elemento ha sido incluido en la muestra, se retira de la población y ya no se selecciona más.
Muestreo sistemático Método probabilístico en el que primero se selecciona uno de los primeros $k$ elementos de una población y después cada $k$-ésimo elemento.
Muestreo subjetivo Método no probabilístico en el que la selección de los elementos para la muestra se realiza de acuerdo con la opinión de la persona que efectúa el estudio.
Parámetro Característica numérica de una población, por ejemplo, media poblacional $μ$, desviación estándar poblacional σ, proporción poblacional $p$, etcéter.
Población muestreada Población de la cual se extrae la muestra.
Población objetivo Es aquella de la cual se hacen inferencias estadísticas como estimaciones puntuales. Es importante que la población objetivo corresponda tan cercanamente como sea posible a la población muestreada.
Teorema del límite central Permite usar la distribución de probabilidad normal para aproximar la distribución de muestreo de $x$ siempre que la muestra sea grande.
Ejercicios complementarios¶
U. S. News & World Report publica información extensa acerca de las mejores universidades de Estados Unidos (America’s Best Colleges, ed. 2009). Entre otras cosas, proporciona una lista de las 133 mejores universidades a nivel nacional. Se desea tomar una muestra de tales instituciones para realizar un estudio de seguimiento de sus alumnos. Inicie en la parte inferior de la tercera columna de dígitos aleatorios de la tabla 7.1. Ignore los dos primeros dígitos de cada conjunto de cinco números usando números aleatorios de tres cifras. Empiece con 959, lea hacia arriba de la columna para identificar el número (de 1 a 133) de las siete primeras universidades a incluir en una muestra aleatoria simple. Continúe iniciando en la parte inferior de las columnas cuarta y quinta, y lea hacia arriba si es necesario.
Los estadounidenses están cada vez más preocupados por el aumento en los costos de Medicare. En 1990 el promedio de gastos anuales de un derechohabiente de Medicare ascendía a $\$3267$; en 2003 este promedio había aumentado a $\$6883$ (Money, otoño de 2003). Suponga que usted contrata a una firma de consultoría para tomar una muestra de 50 de los derechohabientes de Medicare en 2003 con objeto de investigar los gastos. Asuma que la desvia ción estándar poblacional en 2003 fue $\$2000$
a) Presente la distribución de muestreo de la cantidad media de los gastos de Medicare para una muestra de 50 derechohabientes en 2003.
b) ¿Cuál es la probabilidad de que la media muestral no se aleje más de $\pm\$300$ de la media poblacional?
c) ¿Cuál es la probabilidad de que la media muestral sea mayor que $\$7500$? Si la empresa que contrató le dice que la media muestral para los derechohabientes que entrevistó es $\$7500$, ¿dudaría de que la empresa contratada hubiera hecho un procedimiento de muestreo aleatorio simple adecuado? ¿Por qué?BusinessWeek encuesta a exalumnos de administración 10 años después de terminados sus estudios (BusinessWeek, 22 de septiembre de 2003). Uno de sus hallazgos indica que gastan en promedio $\$115.50$ semanales en comidas sociales. A usted se le pide que realice un estudio con una muestra de 40 de estos exalumnos. Asuma que la desviación estándar poblacional es $\$35$.
a) Presente la distribución de muestreo de $\overline{x}$, la media muestral de los gastos semanales de los 40 exalumnos de administración.
b) ¿Cuál es la probabilidad de que la media muestral no se aleje en más o menos $\$10$ de la media poblacional?
c) Suponga que encuentra una media muestral de $\$100$. ¿Cuál es la probabilidad de hallar una media muestral de $\$100$ o menos? ¿Consideraría que los exalumnos de esta muestra son un grupo con un gasto inusualmente bajo? ¿Por qué?El tiempo promedio que un estadounidense destina a ver televisión es de 15 horas por semana (Money, noviembre de 2003). Suponga que se toma una muestra de 60 estadounidenses para investigar con más detalle sus hábitos a este respecto. Asuma que la desviación estándar poblacional en las horas de televisión semanales es σ = 4 horas.
a) ¿Cuál es la probabilidad de que la media muestral no se aleje más o menos de 1 hora de la media poblacional?
b) ¿Cuál es la probabilidad de que la media muestral no se aleje más o menos de 45 minutos de la media poblacional?Después de deducir los gastos necesarios, el costo promedio por asistir a la Universidad del Sur de California (USC) es de $\$27175$ (U. S. News & World Report, America’s Best Colleges, ed. 2009). Suponga que la desviación estándar poblacional es $\$7400$. Asuma que se selecciona una muestra aleatoria de 60 estudiantes de la USC de esta población.
a) ¿Cuál es el valor del error estándar de la media?
b) ¿Cuál es la probabilidad de que la media muestral sea mayor que $\$27175$?
c) ¿Cuál es la probabilidad de que la media muestral no se aleje más o menos de $\$1000$ de la media poblacional?
d) ¿Qué tanto variaría la probabilidad del inciso c) si el tamaño de la muestra se aumentara a 100?Tres empresas transportan inventarios de distintos tamaños. El inventario de la empresa A contiene 2000 artículos, el de la empresa B, 5000 artículos y el de la empresa C, 10000 artículos. La desviación estándar poblacional de los costos de los artículos en los inventarios de estas empresas es σ = 144. Un consultor de estadística recomienda que cada compañía tome una muestra de 50 artículos de su inventario para obtener una estimación estadística válida del costo promedio por unidad. Los gerentes de la firma más pequeña opinan que, como su población es menor, se podrá hacer la estimación con una muestra mucho menor de la que se requiere para la empresa más grande. Sin embargo, el consultor opina que para tener el mismo error estándar y, por tanto, la misma precisión en los resultados muestrales, todas las compañías deberán emplear el mismo tamaño de muestra, sin importar el tamaño de la población.
a) Utilizando el factor de corrección para una población finita, calcule el error estándar de cada una de las tres empresas para un tamaño de muestra de 50.
b) ¿Cuál es la probabilidad para cada firma de que la media muestral $\overline{x}$ esté a no más de $\pm25$ de la media poblacional $μ$?Un investigador reporta sus resultados diciendo que el error estándar de la media es 20 y la desviación estándar poblacional es 500.
a) ¿De qué tamaño fue la muestra utilizada en esta investigación?
b) ¿Cuál es la probabilidad de que la estimación puntual esté a no más de $\pm25$ de la media poblacional?Un inspector de control de calidad vigila periódicamente un proceso de producción. El inspector selecciona muestras aleatorias simples de 30 artículos ya terminados y calcula la media muestral del peso del producto $\overline{x}$. Si en un periodo largo se encuentra que 5% de los valores de $\overline{x}$ son mayores que 2.1 libras y 5% son menores que 1.9 libras, ¿cuáles son la media y la desviación estándar de la población de los productos elaborados en este proceso?
Cerca de 28% de las empresas privadas tiene como propietario a una mujer (The Cincinnati Enquirer, 26 de enero de 2006). Responda estas preguntas con base en una muestra de 240 empresas privadas.
a) Desarrolle la distribución de muestreo de $\overline{p}$, la proporción muestral de las empresas propiedad de una mujer.
b) ¿Cuál es la probabilidad de que la proporción muestral esté a no más de $\pm0.04$ de la proporción poblacional?
c) ¿Cuál es la probabilidad de que la proporción muestral esté a no más de $\pm0.02$ de la proporción poblacional?Una firma de investigación de mercados realiza encuestas telefónicas con una tasa histórica de respuesta de 40%. ¿Cuál es la probabilidad de que en una nueva muestra de 400 números telefónicos, por lo menos 150 personas cooperen y respondan las preguntas? En otras palabras, ¿cuál es la probabilidad de que la proporción muestral sea por lo menos 150/400 = 0.375?
Los publicistas contratan a proveedores de servicios de Internet y motores de búsqueda para
a) ¿Cuál es la probabilidad de que la proporción muestral esté a no más de $\pm0.04$ de la proporción poblacional que ha experimentado fraude por clic?
b) ¿Cuál es la probabilidad de que la proporción muestral sea mayor que 0.45?
La proporción de personas aseguradas por All-Driver Automobile Insurance Company que contraen una multa de tráfico en el periodo de cinco años es 0.15.
a) Indique la distribución de muestreo de $\overline{p}$ si se emplea una muestra aleatoria de 150 asegurados para determinar la proporción de quienes han contraído por lo menos una multa.
b) ¿Cuál es la probabilidad de que la proporción muestral esté a no más de $\pm0.03$ de la proporción poblacional?Lori Jeffrey es una exitosa representante de ventas de libros universitarios. Históricamente, ella consigue una adopción de libros de texto en 25% de sus llamadas de ventas. Considere sus telefonemas de ventas de un mes como muestra de todas sus posibles llamadas; suponga que en el análisis estadístico de los datos se encuentra que el error estándar de la proporción es 0.0625.
a) ¿De qué tamaño fue la muestra que se utilizó en el análisis? Es decir, ¿cuántas llamadas hizo Lori Jeffrey en ese mes?
b) Sea $\overline{p}$ la proporción muestral de adopciones de libros de texto en el mes. Presente la distribución de muestreo de $\overline{p}$.
c) Mediante la distribución de muestreo de $\overline{p}$, calcule la probabilidad de que Lori logrará adopciones de libros de texto en 30% o más de sus llamadas de ventas en el lapso de un mes.
from IPython.display import HTML
# Crear la cadena con formato HTML más grande y en negrita
html_text = '<p style="color:green; font-size: 24px; font-weight: bold;">Ejercicios Resueltos</p>'
# Mostrar la cadena en formato HTML
display(HTML(html_text))
Ejercicios Resueltos
' # Mostrar la cadena en formato HTML display(HTML(html_text))Ejercicios Resueltos
# Instala la biblioteca IPython para mostrar HTML
!pip install IPython
# Importa la clase HTML de la biblioteca IPython
from IPython.display import HTML
# Define la función para mostrar el video de YouTube centrado
def display_centered_youtube_video(video_id, width=560, height=315):
video_url = f"https://www.youtube.com/embed/{video_id}"
iframe_code = f'<div style="display: flex; justify-content: center; align-items: center; height: 100%;"><iframe width="{width}" height="{height}" src="{video_url}" frameborder="0" allowfullscreen></iframe></div>'
display(HTML(iframe_code))
# Reemplaza "petvgLEk0SY" con el ID de tu nuevo video de YouTube
video_id = "petvgLEk0SY"
# Muestra el nuevo video de YouTube centrado
display_centered_youtube_video(video_id)
Requirement already satisfied: IPython in /usr/local/lib/python3.10/dist-packages (7.34.0) Requirement already satisfied: setuptools>=18.5 in /usr/local/lib/python3.10/dist-packages (from IPython) (67.7.2) Requirement already satisfied: jedi>=0.16 in /usr/local/lib/python3.10/dist-packages (from IPython) (0.19.1) Requirement already satisfied: decorator in /usr/local/lib/python3.10/dist-packages (from IPython) (4.4.2) Requirement already satisfied: pickleshare in /usr/local/lib/python3.10/dist-packages (from IPython) (0.7.5) Requirement already satisfied: traitlets>=4.2 in /usr/local/lib/python3.10/dist-packages (from IPython) (5.7.1) Requirement already satisfied: prompt-toolkit!=3.0.0,!=3.0.1,<3.1.0,>=2.0.0 in /usr/local/lib/python3.10/dist-packages (from IPython) (3.0.41) Requirement already satisfied: pygments in /usr/local/lib/python3.10/dist-packages (from IPython) (2.16.1) Requirement already satisfied: backcall in /usr/local/lib/python3.10/dist-packages (from IPython) (0.2.0) Requirement already satisfied: matplotlib-inline in /usr/local/lib/python3.10/dist-packages (from IPython) (0.1.6) Requirement already satisfied: pexpect>4.3 in /usr/local/lib/python3.10/dist-packages (from IPython) (4.9.0) Requirement already satisfied: parso<0.9.0,>=0.8.3 in /usr/local/lib/python3.10/dist-packages (from jedi>=0.16->IPython) (0.8.3) Requirement already satisfied: ptyprocess>=0.5 in /usr/local/lib/python3.10/dist-packages (from pexpect>4.3->IPython) (0.7.0) Requirement already satisfied: wcwidth in /usr/local/lib/python3.10/dist-packages (from prompt-toolkit!=3.0.0,!=3.0.1,<3.1.0,>=2.0.0->IPython) (0.2.12)
- Un investigador reporta sus resultados diciendo que el error estándar de la media es 20 y la
desviación estándar poblacional es 500.
a) ¿De qué tamaño fue la muestra utilizada en esta investigación?
b) ¿Cuál es la probabilidad de que la estimación puntual esté a no más de $\pm25$ de la media poblacional?
Los datos dados del problema son:
SE = 20, $\sigma$ = 500
Las fórmulas a emplear son: n = $\left(\frac{\sigma}{SE}\right)^2$
from IPython.display import HTML
error_estandar_media = 20
desviacion_estandar_poblacional = 500
n = (desviacion_estandar_poblacional / error_estandar_media) ** 2
html_resultado = f"""
<p><strong>Tamaño de la muestra:</strong> {int(n)}</p>
"""
display(HTML(html_resultado))
Tamaño de la muestra: {int(n)}
""" display(HTML(html_resultado))Tamaño de la muestra: 625
El valor z para $\pm25$ con un error estándar de 20 es:
$Z_{+25} = \frac{25-0}{20} = 1.25$
$Z_{+25} = \frac{-25-0}{20} = -1.25$
La probabilidad de que la estimación puntual esté dentro de ±25 de la media poblacional es la suma de las áreas bajo la curva normal estándar para $Z=1.25$ y $Z=-1.25$. Para un z-score de 1.25, la probabilidad acumulada es aproximadamente 0.8944 (usando una tabla de distribución normal estándar). Esta es la probabilidad de estar dentro de 1.25 desviaciones estándar por encima de la media. La misma probabilidad aplica para -1.25 por debajo de la media.
Entonces, la probabilidad total es la suma de estas dos probabilidades:
$P(Z \leq 1.25) = 0.8944$
$P(Z \geq -1.25) = 0.8944$
Cuando sumamos estas probabilidades para considerar ambos lados de la distribución, no podemos simplemente sumarlas, ya que estaríamos contando el área bajo la curva dos veces.
Entonces, para obtener la probabilidad de que la estimación puntual esté dentro de ±25 de la media poblacional, podemos utilizar una de las dos probabilidades y restarle la otra, o simplemente encontrar la probabilidad de un rango de valores usando el z-score de ±25 directamente.
La probabilidad de estar dentro de ±25 de la media poblacional es:
$P(-1.25 \leq Z \leq 1.25) = P(Z \leq 1.25) - (Z \leq -1.25) = 0.8944−(1−0.8944) = 0.7888$
Por lo tanto, la probabilidad de que la estimación puntual esté a no más de ±25 de la media poblacional es aproximadamente 0.7888, es decir, alrededor del 78.88%.
- Lori Jeffrey es una exitosa representante de ventas de libros universitarios. Históricamente,
ella consigue una adopción de libros de texto en 25% de sus llamadas de ventas. Considere sus
telefonemas de ventas de un mes como muestra de todas sus posibles llamadas; suponga que en
el análisis estadístico de los datos se encuentra que el error estándar de la proporción es 0.0625.
a) ¿De qué tamaño fue la muestra que se utilizó en el análisis? Es decir, ¿cuántas llamadas hizo Lori Jeffrey en ese mes?
b) Sea $\overline{p}$ la proporción muestral de adopciones de libros de texto en el mes. Presente la distribución de muestreo de $\overline{p}$.
c) Mediante la distribución de muestreo de $\overline{p}$, calcule la probabilidad de que Lori logrará adopciones de libros de texto en 30% o más de sus llamadas de ventas en el lapso de un mes.
Fórmulas utilizadas:
a) Tamaño de la muestra n:
$SE_p$ = $\sqrt{\frac{p(1-p)}{n}}$
n = $\frac{p(1-p)}{SE_p^2}$
b) Distribución de muestreo de $\bar{p}$: La distribución sigue una distribución normal con media $\overline{p}$ y error estándar $SE_p$.
c) Cálculo del Z-score: Z = $\frac{\bar{p} - p}{SE_p}$
from IPython.display import HTML
p = 0.25
SE_p = 0.0625
n = p * (1 - p) / SE_p ** 2
p_barra = 0.30
Z = (p_barra - p) / SE_p
html_resultado = f"""
<p><strong>Tamaño de la muestra:</strong> {n:.2f}</p>
<p><strong>Z-score:</strong> {Z:.2f}</p>
"""
display(HTML(html_resultado))
Tamaño de la muestra: {n:.2f}
Z-score: {Z:.2f}
""" display(HTML(html_resultado))Tamaño de la muestra: 48.00
Z-score: 0.80
Valor esperado y desviación estándar de $\overline{x}$¶
En este apéndice se presentan las bases matemáticas de las expresiones $E(\overline{x})$, valor esperado de $\overline{x}$ dado en la ecuación (7.1), y $\sigma_{\overline{x}}$, la desviación estándar de $\overline{x}$ dada por la ecuación (7.2).
Valor esperado de $\overline{x}$¶
Se tiene una población con media μ y varianza $\sigma^{2}$. Se selecciona una muestra aleatoria simple de tamaño n cuyas observaciones individuales se denotan $x_1,x_2,...,x_n$. La media muestral $\overline{x}$ se calcula como sigue.
Si se repiten los muestreos aleatorios simples de tamaño n, $\overline{x}$ será una variable aleatoria que
tomará diferentes valores dependiendo de los n elementos que formen la muestra. El valor esperado de la variable aleatoria $\overline{x}$ es la media de todos los posibles valores de $\overline{x}$.
$= \frac{1}{n} [E(x_1 + x_2 + ... + x_n)]$
$= \frac{1}{n} [E(x_1) + E(x_2) + ... + E(x_n)]$
Para cada xi se tiene $E(x_i) = \mu$; por tanto, escribimos
$\frac{1}{n} (n \mu) = \mu$
ste resultado indica que la media de todos los posibles valores de $\overline{x}$ es igual a la media poblacional μ. Es decir, $E(\overline{x}) = μ$.
Desviación estándar de $\overline{x}$¶
Se tiene, de nuevo, una población con media μ y varianza $\sigma^2$, y una media muestral dada por
Se sabe que $\overline{x}$ es una variable aleatoria que toma distintos valores numéricos, con repetidas muestras aleatorias simples de tamaño *n*, dependiendo de los *n* elementos que integran la muestra. Lo que sigue es una derivación de la fórmula para la desviación estándar de los valores de $\overline{x}$, $\sigma_{\overline{x}}$, en el caso de que la población sea infi nita. La deducción de la fórmula para $\sigma_{\overline{x}}$ cuando la población es fi nita y el muestreo se realiza sin remplazo es más complicada, y queda fuera de los alcances de este libro.
De vuelta al caso de una población infi nita, recuerde que una muestra aleatoria simple de una población infi nita consta de observaciones $x_1, x_2,...,x_n$ que son independientes. Las dos expresiones siguientes son fórmulas generales para la varianza de variables aleatorias.
donde a es una constante y x es una variable aleatoria, y
donde x y y son variables aleatorias *independientes*. Utilizando las dos ecuaciones anteriores, se puede deducir la fórmula para la varianza de la variable aleatoria $\overline{x}$ como sigue.
Entonces, como *1/n* es una constante, tenemos
$ = (\frac{1}{n})^2 Var(x_1 + x_2 + ... + x_n)$
En el caso de una población infinita, las variables aleatorias $x_1, x_2, ...,x_n$ son independientes, lo que permite escribir
Para toda $x_i$ se tiene $Var(x_i) = \sigma^2$; por tanto, obtenemos
Como en esta expresión hay *n* valores $\sigma^2$, tenemos
Calculando ahora la raíz cuadrada, se obtiene la fórmula de la desviación estándar de $\overline{x}$.
Muestreo aleatorio con Minitab
Muestreo aleatorio con Minitab¶
Si en un archivo de Minitab se encuentra una lista con los elementos de una población, se puede
usar dicho software para seleccionar una muestra aleatoria simple. Por ejemplo, en la columna
1 del conjunto de datos MetAreas se proporciona una lista de las 100 principales áreas metropolitanas de Estados Unidos y Canadá (Places Rated Almanac–The Millenium Edition 2000). La
columna 2 contiene la puntuación general asignada a cada área. En la tabla 7.6 se presentan las
primeras 10 áreas metropolitanas con sus puntuaciones correspondientes.
Suponga que pretende seleccionar una muestra aleatoria simple de 30 áreas metropolitanas
con objeto de hacer un estudio sobre el costo de la vida en Estados Unidos y Canadá. Para seleccionar la muestra aleatoria se siguen los pasos que se indican a continuación.
Paso 1. Seleccione el menú desplegable Calc.
Paso 2. Elija Random Data.
Paso 3. Seleccione Sample From Columns.
Paso 4. Cuando el cuadro de diálogo Sample From Columns aparezca:
Ingrese 30 en el cuadro Number of rows to sample.
Introduzca Cl C2 en el cuadro From columns que se encuentra debajo.
Ingrese C3 C4 en el cuadro Store samples in.
Paso 5. Haga clic en OK.
La muestra aleatoria con las 30 áreas metropolitanas aparece en las columnas C3 y C4.
Muestreo aleatorio con Excel¶
Si en un archivo de Excel se encuentra una lista con los elementos de una población, se podrá usar dicho software para seleccionar una muestra aleatoria simple. Por ejemplo, en la columna A del conjunto de datos MetAreas se proporciona una lista de las 100 principales áreas metropolitanas de Estados Unidos y Canadá (Places Rated Almanac–The Millenium Edition 2000). La columna B contiene el rating general asignado a cada área. En la tabla 7.6 se presentan las primeras 10 áreas metropolitanas con sus puntuaciones correspondientes. Suponga que quiere seleccionar una muestra aleatoria simple de 30 áreas metropolitanas con objeto de hacer un estudio de profundidad sobre el costo de la vida en Estados Unidos y Canadá.
from IPython.display import HTML
html_code = """
<center>
TABLA 7.6 Puntuación general para las primeras 10 áreas metropolitanas en el conjunto
de datos MetAreas.
<style>
table {
border: 1px solid #009929;
background-color: #D4F8B7;
}
th {
text-align: center;
}
</style>
<table>
<thead>
<tr>
<th>Metropolitan Area</th>
<th>Rating</th>
</tr>
</thead>
<tbody>
<tr>
<td>Albany, NY</td>
<td>64.18</td>
</tr>
<tr>
<td>Albuquerque, NM</td>
<td>66.16</td>
</tr>
<tr>
<td>Appleton, WI</td>
<td>60.56</td>
</tr>
<tr>
<td>Atlanta, GA</td>
<td>69.97</td>
</tr>
<tr>
<td>Austin, TX</td>
<td>71.48</td>
</tr>
<tr>
<td>Baltimore, MD</td>
<td>69.75</td>
</tr>
<tr>
<td>Birmingham, AL</td>
<td>69.59</td>
</tr>
<tr>
<td>Boise City, ID</td>
<td>68.36</td>
</tr>
<tr>
<td>Boston, MA</td>
<td>68.99</td>
</tr>
<tr>
<td>Buffalo, NY</td>
<td>66.10</td>
</tr>
</tbody>
</table>
</center>
"""
display(HTML(html_code))
Metropolitan Area | Rating |
---|---|
Albany, NY | 64.18 |
Albuquerque, NM | 66.16 |
Appleton, WI | 60.56 |
Atlanta, GA | 69.97 |
Austin, TX | 71.48 |
Baltimore, MD | 69.75 |
Birmingham, AL | 69.59 |
Boise City, ID | 68.36 |
Boston, MA | 68.99 |
Buffalo, NY | 66.10 |
Metropolitan Area | Rating |
---|---|
Albany, NY | 64.18 |
Albuquerque, NM | 66.16 |
Appleton, WI | 60.56 |
Atlanta, GA | 69.97 |
Austin, TX | 71.48 |
Baltimore, MD | 69.75 |
Birmingham, AL | 69.59 |
Boise City, ID | 68.36 |
Boston, MA | 68.99 |
Buffalo, NY | 66.10 |
Las filas de cualquier conjunto de datos en Excel se pueden colocar en orden aleatorio agregando
una columna al conjunto de datos y llenando la columna con números aleatorios mediante
la función = RAND(). Después, con la herramienta de Excel para ordenar en forma ascendente
aplicada a la columna de números aleatorios, las fi las del conjunto de datos se reordenan de
forma aleatoria. La muestra aleatoria de tamaño n aparecerá en las n primeras f las del conjunto
de datos reordenado.
En el conjunto de datos MetAreas, los encabezados aparecen en la fila 1 y las 100 áreas
metropolitanas se encuentran en las filas 2 a 101. Para seleccionar una muestra aleatoria de 30
áreas metropolitanas aplique los pasos siguientes.
Paso 1. Ingrese RAND() en la celda C2.
Paso 2. Copie la celda C2 a las celdas C3:C101.
Paso 3. Seleccione cualquier celda de la columna C.
Paso 4. Haga clic en la ficha Home sobre la cinta.
Paso 5. En el grupo Editing, dé clic en Sort & Filter.
Paso 6. Haga clic en Sort Smallest to Largest.
La muestra aleatoria con 30 áreas metropolitanas aparecerá en las filas 2 a 31 del conjunto de datos reordenado. Los números aleatorios de la columna C ya no son necesarios y pueden borrarse si se desea.
Muestreo aleatorio con StatTools¶
Si en un archivo de Excel se encuentra una lista con los elementos de una población, se podrá
usar StatTools Random Sample Utility para seleccionar una muestra aleatoria simple. Por ejemplo, en la columna A del conjunto de datos MetAreas se proporciona una lista de las 100 principales áreas metropolitanas de Estados Unidos y Canadá (Places Rated Almanac–The Millenium
Edition 2000). La columna B contiene la puntuación general asignada a cada área. Suponga que
quiere seleccionar una muestra aleatoria simple de 30 áreas metropolitanas con objeto de hacer
un estudio de profundidad sobre el costo de la vida en Estados Unidos y Canadá.
Se inicia con Data Set Manager a efecto de crear un conjunto de datos de StatTools utilizando el procedimiento descrito en el apéndice del capítulo 1. Los pasos siguientes se utilizan
para generar una muestra aleatoria simple de 30 áreas metropolitanas.
Paso 1. Dé clic en la ficha **StatTools sobre la cinta.
Paso 2. En el grupo Data Group, haga clic en **Data Utilities.
Paso 3. Seleccione la opción **Random Sample.
Paso 4. Cuando el cuadro de diálogo StatTools–Random Sample aparezca:
En la sección **Variables:
Seleccione Metropolitan Area.
Elija Rating.
En la sección Options:
Ingrese 1 en el cuadro Number of Samples.
Ingrese 30 en el cuadro Sample Size.
Haga clic en OK.
La muestra aleatoria de 30 áreas metropolitanas aparecerá en las columnas A y B de la hoja de
trabajo titulada Random Sample.