¶
1.1 APLICACIONES EN NEGOCIOS Y ECONOMIA
- Contabilidad
- Finanzas
- Marketing
- Producción
- Economía
1.2 DATOS
- Elementos, variables y observaciones
- Escalas de medición
- Datos categóricos y cuantitativos
- Datos de corte transversal y de series de tiempo
1.3 FUENTE DE DATOS
- Fuentes existentes
- Estudios estadísticos
- Errores en la adquisición de datos
1.4 ESTADÍSTICA DESCRIPTIVA
1.5 INFERENCIA ESTADISTICA
1.6 COMPUTADORAS Y ANÁLISIS ESTADÍSTICO
1.7 MINERÍA DE DATOS
1.8 LINEAMIENTOS ÉTICOS PARA LA PRÁCTICA ESTADÍSTICA
1.1 Aplicaciones en negocios y economía¶
En el entorno actual de negocios y economía, todos tienen acceso a grandes cantidades de información estadística. Los directivos y tomadores de decisiones exitosos entienden esta información y saben utilizarla de manera eficiente. En esta sección se proporcionan ejemplos que ilustran algunos usos de la estadística en los negocios y en la economía.
from IPython.display import YouTubeVideo
YouTubeVideo('https://www.youtube.com/watch?v=15VqjabLWJE&list=PL3lPU7IsdhynPFg9q77hI4OBWrFrWnWrz', width=900, height=515)
Contabilidad¶
Las empresas de contadores públicos utilizan procedimientos de muestreo estadístico al realizar auditorías para sus clientes. Por ejemplo, supongamos que una empresa de contadores desea determinar si las cantidades en cuentas por cobrar que aparecen en la hoja de balance del cliente representan la verdadera cantidad en cuentas por cobrar. Revisar el gran número de cuentas por cobrar tomaría demasiado tiempo y sería muy costoso. En estos casos, el personal encargado de la auditoría selecciona un subconjunto de las cuentas, conocido como muestra. Después de revisar la exactitud de las cuentas seleccionadas en la muestra, los auditores concluyen si la cantidad en cuentas por cobrar que aparece en la hoja de balance del cliente es aceptable.
Finanzas¶
Los analistas financieros utilizan información estadística para sus recomendaciones de inversión en acciones. Revisan datos como la relación precio/ganancia y el rendimiento de los dividendos. Comparan estos datos con el promedio del mercado de acciones para determinar si una acción está sobre o subvaluada.
Marketing¶
Los escáneres electrónicos en las cajas de los comercios minoristas recopilan datos para la investigación de mercado. Estos datos se venden a proveedores como ACNielsen e Information Research Inc., quienes los procesan y venden resúmenes estadísticos a los fabricantes. Estos datos son útiles para analizar la relación entre las actividades promocionales y las ventas, lo que ayuda a establecer estrategias de marketing.
Producción¶
En la producción, la calidad es importante y se utiliza la estadística para controlarla. Se emplean gráficas de control estadístico de calidad, como la gráfica x-barra, para vigilar los resultados promedio de los procesos de producción. Si los puntos en la gráfica están dentro de los límites de control, el proceso puede continuar sin ajustes.
Economía¶
Los economistas utilizan información estadística para hacer pronósticos sobre la economía. Por ejemplo, emplean indicadores como el índice de precios al consumidor, la tasa de desempleo y la utilización de la capacidad de producción para pronosticar las tasas de inflación. Estos indicadores se utilizan en modelos computarizados de pronósticos.
En este libro se presentan ejemplos que ejemplifican la diversidad de las aplicaciones estadísticas. Además, se incluyen los artículos "La estadística en la práctica" al comienzo de cada capítulo, donde se muestra el material que será estudiado. Estas aplicaciones demuestran la importancia de la estadística en situaciones relacionadas con los negocios y la economía.
1.2 Datos¶
Los datos son hechos o información recopilada, analizada y resumida para su presentación e interpretación. Todos los datos recopilados para un estudio en particular son considerados un conjunto de datos. En la tabla 1.1 se muestra un conjunto de datos que proporciona información sobre 25 empresas del S&P 500. El S&P 500 está compuesto por 500 empresas seleccionadas por Standard & Poor's y representa el 76% de la capitalización de mercado de todas las acciones en Estados Unidos. La actividad de las empresas del S&P 500 es estrechamente monitoreada por los inversionistas y analistas de Wall Street.
YouTubeVideo('uacITE-8k-E', width=950, height=515)
Contabilidad¶
Elementos son las entidades de las que se obtienen los datos. En el conjunto de datos de la tabla 1.1, cada acción de una empresa es un elemento. Hay 25 acciones en total. Una variable es una característica de los elementos que es de interés. En el conjunto de datos de la tabla 1.1 hay cinco variables: bolsa de valores, ticker, posición en BusinessWeek, precio por acción y ganancia por acción. El conjunto de datos contiene observaciones, que son las mediciones obtenidas para cada elemento. Hay 25 observaciones en total.
Elementos, variables y observaciones¶
La escala de medición determina la cantidad de información contenida en el dato y la manera más apropiada de analizar los datos. Hay cuatro escalas de medición: nominal, ordinal, de intervalo y de razón. Una escala nominal se utiliza cuando el dato de una variable es una etiqueta o un nombre que identifica un atributo. En la tabla 1.1, la variable bolsa de valores tiene una escala nominal. Una escala ordinal se utiliza cuando los datos tienen un orden o jerarquía. En la tabla 1.1, la posición en BusinessWeek es una variable con escala ordinal. Una escala de intervalo se utiliza cuando los datos tienen las características de los datos ordinales y el intervalo entre valores se expresa en términos de una unidad de medición fija. Un ejemplo de datos de intervalo son las calificaciones en una prueba de aptitudes escolares. Las puntuaciones obtenidas por tres alumnos en la prueba de matemáticas (620, 550 y 470) pueden ser ordenadas de mejor a peor. Las diferencias entre las calificaciones también tienen significado. Por ejemplo, el estudiante 1 obtuvo 70 puntos más que el estudiante 2, mientras que el estudiante 2 obtuvo 80 puntos más que el estudiante 3.
Tabla 1.1 Rendimientos de varios fondos de inversión ofrecidos por Fortaleza SAFI en Bolivia
Nombre del Fondo | Tipo de Moneda | Valor de la Cuota | Rendimiento T30d (%) | Rendimiento T360d (%) |
---|---|---|---|---|
Fondo Disponible | Bolivianos (Bs) | 593.7393 | 2.50 | 2.53 |
Fondo Inversión Internacional | Dólares (USD) | 1.0000 | 1.52 | 1.29 |
Fondo Interés + | Bolivianos (Bs) | 1,744.8408 | 2.42 | 2.42 |
Fondo UFV Rendimiento Total | UFV | 915.5883 | 2.47 | 2.61 |
Fondo Liquidez | Dólares (USD) | 267.7532 | 0.72 | 1.06 |
Fondo Produce Ganancia | Dólares (USD) | 182.9020 | 0.69 | 0.97 |
Fondo Planifica | Bolivianos (Bs) | 419.2739 | 2.43 | 2.48 |
Fondo Potencia Bolivianos | Bolivianos (Bs) | 6,495.4492 | 2.32 | 2.39 |
Fondo Renta Mixta Internacional | Dólares (USD) | 131.7955 | 0.87 | 1.22 |
Fondo Porvenir | Dólares (USD) | 203.8964 | 0.92 | 1.11 |
Escalas de medición¶
Una variable tiene una escala de razón si cumple con todas las propiedades de los datos de intervalo y la proporción entre dos valores tiene significado. Ejemplos de variables que utilizan esta escala son distancia, altura, peso y tiempo. Para que una variable tenga una escala de razón, debe tener un valor de cero que indique la ausencia de la variable. Por ejemplo, en el caso del costo de un automóvil, si el valor es cero significa que el automóvil es gratuito. Además, si se compara el costo de un automóvil de $30,000
con el costo de otro automóvil de $15,000
, la propiedad de razón nos muestra que el primer automóvil cuesta el doble que el segundo.
Datos categóricos y cuantitativos¶
Los datos se clasifican en cualitativos y cuantitativos. Los datos cualitativos incluyen etiquetas o nombres que se usan para identificar un atributo de cada elemento. Pueden ser numéricos o no y se emplean la escala nominal o la ordinal. Los datos cuantitativos requieren valores numéricos que indiquen cuánto o cuántos. Se obtienen utilizando las escalas de medición de intervalo o de razón.
En el caso de las variables cualitativas, el análisis estadístico es limitado. Se resumen contando el número de observaciones o calculando la proporción de observaciones en cada categoría cualitativa. No se pueden realizar operaciones aritméticas con estos datos. En cambio, en las variables cuantitativas sí se pueden realizar operaciones aritméticas como suma y promedio.
Datos de corte transversal y de series de tiempo¶
Existen dos tipos de datos según el tiempo en que se obtienen. Los datos de sección transversal se obtienen en el mismo momento o aproximadamente el mismo momento. Por otro lado, los datos de series de tiempo se obtienen a lo largo de varios periodos.
Las gráficas de series de tiempo son comunes en las publicaciones sobre negocios y economía. Estas gráficas ayudan a los analistas a entender lo que ocurrió en el pasado, identificar tendencias en el tiempo y proyectar niveles futuros. Son fáciles de entender e interpretar con un poco de estudio.
La gráfica (A) muestra las tasas de interés en Stafford Loans para estudiantes entre 2000 y 2006. Después de 2000, las tasas de interés disminuyen y alcanzan su nivel más bajo en 2004, pero a partir de ese año aumentan significativamente.
En la gráfica (B) se observa un aumento preocupante en la deuda promedio por hogar en tarjetas de crédito durante un período de 10 años, de 1995 a 2005. La deuda promedio aumenta constantemente, lo que dificulta a los hogares pagar sus deudas.
La gráfica (C) muestra las tasas de ocupación en los hoteles del sur de Florida durante un año. Las tasas más altas se encuentran en los meses de febrero y marzo, cuando el clima es atractivo para los turistas. Por otro lado, las tasas más bajas se observan de agosto a octubre, debido a las altas temperaturas y la temporada de huracanes. Gráfica (A): Tasas de interés en los Stafford Loans para estudiantes. Las tasas disminuyen después de 2000 y llegan al nivel más bajo en 2004, pero luego aumentan marcadamente en los años siguientes.
Gráfica (B): Adeudo promedio en tarjetas de crédito por hogar. Se observa un aumento constante en la deuda promedio durante un período de 10 años, de 1995 a 2005.
Gráfica (C): Tasas de ocupación en hoteles de Florida del sur. Se observan tasas de ocupación más altas en los meses de febrero y marzo, mientras que las tasas más bajas se encuentran de agosto a octubre.
Figura 1.1 Precio promedio por galón para la gasolina regular convencional en Estados Unidos
import matplotlib.pyplot as plt
import pandas as pd
# Puntos de datos, asumiendo una frecuencia mensual desde Marzo 2006 hasta Julio 2009
fechas = pd.date_range(start="2006-03-01", periods=41, freq='M')
precios = [
2.30, 2.25, 2.20, 2.20, 2.25, 2.35, 2.30, 2.35, 2.40, 2.45,
2.50, 2.60, 2.55, 2.50, 2.55, 2.60, 2.65, 2.70, 2.75, 2.80,
2.85, 3.00, 3.10, 3.25, 3.50, 3.60, 3.70, 3.80, 4.00, 4.10,
4.20, 4.35, 4.00, 3.75, 3.50, 3.25, 3.00, 2.75, 2.50, 2.30,
2.20
]
# Crear un DataFrame de los datos
datos = pd.DataFrame({'Fecha': fechas, 'Precio': precios})
# Configuración gráfica
plt.figure(figsize=(10, 5))
plt.plot(datos['Fecha'], datos['Precio'], marker='o', color='#009929')
plt.grid(True, which='both', linestyle='--', linewidth=0.5)
plt.title('Precio medio por galón')
plt.xlabel('Fecha')
plt.ylabel('Precio medio por galón')
plt.ylim(0, 4.5)
plt.xlim(datos['Fecha'].min(), datos['Fecha'].max())
# Color de fondo
ax = plt.gca()
ax.set_facecolor('#D4F8B7') # Color de fondo
fig = plt.gcf()
fig.patch.set_facecolor('#D4F8B7') # Color de fondo (figura)
# Mostrar la gráfica
plt.show()
Figura 1.2 Varias Gráficas de series de tiempo
import matplotlib.pyplot as plt
import pandas as pd
# Ajustamos las fechas para que coincidan con el número de valores proporcionados del Dow Jones
fechas = pd.date_range(start="1998-01-01", periods=15, freq='A-DEC')
# Valores aproximados del Promedio industrial Dow Jones extraídos del gráfico
valores_dow_jones = [
8200, 9100, 10700, 9800, 8800, 9000, 10200, 10400, 11000,
12400, 13000, 12800, 11800, 9000, 8500
]
# Crear un DataFrame con los datos ajustados
datos_dow_jones = pd.DataFrame({'Año': fechas, 'Promedio industrial Dow Jones': valores_dow_jones})
# Configuración de la gráfica
plt.figure(figsize=(10, 5))
plt.plot(datos_dow_jones['Año'], datos_dow_jones['Promedio industrial Dow Jones'], color='#009929')
plt.grid(True, which='both', linestyle='--', linewidth=0.5)
plt.title('(A) Promedio industrial Dow Jones')
plt.xlabel('Año', fontweight='bold')
plt.ylabel('Promedio industrial Dow Jones')
plt.ylim(5000, 14000) # Establecer los límites del eje y
plt.xlim(datos_dow_jones['Año'].min(), datos_dow_jones['Año'].max()) # Establecer los límites del eje x
# Color de fondo
ax = plt.gca()
ax.set_facecolor('#D4F8B7') # Color de fondo claro
fig = plt.gcf()
fig.patch.set_facecolor('#D4F8B7') # Color de fondo para la figura
# Mostrar la gráfica
plt.show()
import matplotlib.pyplot as plt
import pandas as pd
# Años representados en el gráfico
años = [2003, 2004, 2005, 2006, 2007, 2008, 2009]
# Valores aproximados de la utilidad neta de McDonald's (en millones de $) extraídos del gráfico
utilidades = [
1.5, 2.0, 2.5, 2.0, 3.5, 4.0, 5.5
]
# Crear un DataFrame para los datos
datos_utilidad_mcdonalds = pd.DataFrame({'Año': años, 'Utilidad neta (millones $)': utilidades})
# Configuración del gráfico de barras con bordes negros
plt.figure(figsize=(8, 6))
plt.bar(datos_utilidad_mcdonalds['Año'],
datos_utilidad_mcdonalds['Utilidad neta (millones $)'],
color='#5CCB5F',
edgecolor='black') # Agregar borde negro a las barras
plt.title('(B) Utilidad neta de McDonald’s Inc.')
plt.xlabel('Año', fontweight='bold')
plt.ylabel('Utilidad neta (millones $)')
plt.ylim(0, 6) # Establecer los límites del eje y
# Color de fondo
ax = plt.gca()
ax.set_facecolor('#D4F8B7') # Color de fondo claro
fig = plt.gcf()
fig.patch.set_facecolor('#D4F8B7') # Color de fondo para la figura
# Mostrar el gráfico de barras
plt.show()
import matplotlib.pyplot as plt
import pandas as pd
# Meses representados en el gráfico
meses = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']
# Valores aproximados de la tasa de ocupación de los hoteles del sur de Florida (en porcentaje)
tasas_ocupacion = [
70, 80, 82, 75, 68, 65, 60, 55, 58, 62, 68, 75
]
# Crear un DataFrame para los datos
datos_ocupacion_hoteles = pd.DataFrame({'Mes': meses, 'Porcentaje de ocupación': tasas_ocupacion})
# Configuración del gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(datos_ocupacion_hoteles['Mes'], datos_ocupacion_hoteles['Porcentaje de ocupación'], color='#5CCB5F', edgecolor='black')
plt.title('(C) Tasa de ocupación de los hoteles del sur de Florida')
plt.xlabel('Mes', fontweight='bold')
plt.ylabel('Porcentaje de ocupación')
plt.ylim(0, 100) # Establecer los límites del eje y
# Color de fondo
ax = plt.gca()
ax.set_facecolor('#D4F8B7') # Color de fondo claro
fig = plt.gcf()
fig.patch.set_facecolor('#D4F8B7') # Color de fondo para la figura
# Mostrar el gráfico de barras
plt.show()
1.3 Fuentes de datos¶
Los datos se obtienen de fuentes existentes o a través de encuestas y estudios experimentales.
YouTubeVideo('lY81LgDZvVI', width=950, height=515)
Datos de corte transversal y de series de tiempo¶
Las empresas suelen contar con bases de datos internas que contienen información sobre empleados, clientes y operaciones comerciales. Los registros internos de personal proporcionan datos como salarios, edades y años de experiencia de los empleados. Otros registros internos contienen información sobre ventas, publicidad, distribución, inventario y producción. Las empresas también pueden obtener datos externos económicos y comerciales a través de organizaciones especializadas en la recolección y almacenamiento de datos. Empresas como Dun & Bradstreet, Bloomberg, Dow Jones & Company, ACNielsen e Information Resources, Inc. proporcionan servicios de bases de datos a clientes. Otras fuentes de datos incluyen asociaciones industriales y organizaciones especializadas, como la asociación Travel Industry Association of America, que proporciona información sobre viajes, y el Graduate Management Admission Council, que tiene datos sobre calificaciones en exámenes y programas educativos para administradores. Internet se ha convertido en una fuente importante de datos y está disponible tanto a través de las páginas web de empresas como a través de plataformas especializadas que ofrecen una amplia variedad de información. Los gobiernos también son una fuente significativa de datos, como el Departamento del Trabajo de Estados Unidos, que proporciona datos sobre empleo, salarios, fuerza laboral, entre otros. Muchas agencias gubernamentales también ofrecen datos en línea a través de sus sitios web.
Tabla 1.2 Ejemplos de datos disponibles de los registros internos de una empresa
Fuente | Algunos datos comúnmente disponibles |
---|---|
Registros de empleados | Nombre, domicilio, número de Seguro Social, sueldo, número de días de vacaciones, número de días de incapacidad y bonos |
Registros de producción | Número de parte o de producto, cantidad producida, costo de mano de obra directa y costo de los materiales |
Registros de inventarios | Número de parte o de producto, cantidad de unidades disponible, punto de reorden, lote económico y programa de descuentos |
Registros de ventas | Número de producto, volumen de ventas, volumen de ventas por región y volumen de ventas por tipo de cliente |
Registros de crédito | Nombre del cliente, domicilio, número telefónico, límite de crédito y saldo de las cuentas por cobrar |
Perfiles de clientes | Edad, género, nivel de ingresos, número de miembros en la familia, domicilio y preferencias |
Tabla 1.3 Ejemplos de datos disponibles de algunas agencias gubernamentales
Agencia gubernamental | Algunos datos disponibles |
---|---|
Oficina del Censo | Datos poblacionales, número de familias e ingresos por familia |
Consejo de la Reserva Federal | Datos sobre la masa monetaria, crédito a plazo, tipos de cambio y tasas de descuento |
Oficina de Administración y Presupuesto | Datos sobre ingresos, gastos y deudas del gobierno federal |
Departamento de Comercio | Datos sobre la actividad comercial, valor de las remesas por industria, nivel de utilidades por industria e industrias en crecimiento y en declive |
Oficina de Estadísticas Laborales | Gasto de los consumidores, ganancias por hora, tasa de desempleo, registros de seguridad y estadísticas internacionales |
Estudios estadísticos¶
En algunos casos, los datos necesarios no están disponibles y se requiere realizar estudios estadísticos, ya sea experimentales u observacionales, para recopilar la información requerida. Los estudios experimentales buscan establecer una relación causal entre variables, mientras que los estudios observacionales se centran en la observación de fenómenos sin intervenir directamente en ellos. El análisis estadístico de los datos experimentales ayuda a determinar el efecto del nuevo medicamento sobre la presión sanguínea. En los estudios estadísticos no experimentales y observacionales, no se controlan las variables de interés. Un tipo común de estudio observacional es la encuesta, donde se presenta un cuestionario a los individuos de la muestra para obtener información. Los estudios observacionales son utilizados en diversos ámbitos, como la industria de restaurantes, para recopilar datos sobre la calidad de los alimentos, el servicio, etc. Los directivos deben ser conscientes del tiempo y costo requeridos para obtener datos, y en casos de limitaciones de tiempo, es preferible utilizar fuentes de datos existentes. Es importante considerar los posibles errores en la adquisición de datos y asegurarse de que los datos utilizados sean precisos y representativos. Los errores en la adquisición de datos ocurren en diferentes formas y pueden afectar la validez y utilidad de los análisis estadísticos. Es fundamental utilizar métodos precisos para evitar errores en la recopilación de datos
Errores en la adquisición de los datos¶
Los errores en la adquisición de datos pueden ocurrir de diversas formas, como errores de escritura, malinterpretación de preguntas o respuestas incorrectas dadas por el entrevistado. Los analistas de datos experimentados toman precauciones al recolectar y registrar los datos para evitar errores. Se utilizan procedimientos especiales para verificar la consistencia interna de los datos y revisar valores inusualmente altos o bajos, llamados observaciones atípicas, que pueden indicar posibles errores en los datos. Es importante adquirir datos precisos para evitar la toma de decisiones erróneas basadas en información desorientadora.
1.4 Estadistica Descriptiva¶
La estadística descriptiva es una forma de resumir y presentar datos en una forma fácil de leer y entender, a través de tablas, gráficos, o resúmenes numéricos. Vuelva al conjunto de datos de la tabla 1.1 que presenta 25 de las empresas de S&P 500. Los métodos de la estadística descriptiva pueden emplearse para resumir la información en este conjunto de datos:
Resumen tabular: En la tabla 1.4 se presenta un resumen tabular de los datos de la variable bolsa de valores. Porcentualmente, se observa que el 80% de las acciones cotizan en la bolsa de Nueva York, mientras que el 20% cotiza en el Nasdaq.
Resumen gráfico de barras: La figura 1.5 muestra un resumen gráfico de barras de los datos de la variable bolsa de valores. Este tipo de gráfico facilita la interpretación y muestra claramente que la mayor parte de las acciones cotizan en la bolsa de Nueva York.
Resumen gráfico de histograma: En la figura 1.6 se presenta un histograma de los datos de la variable cuantitativa precio por acción. El histograma muestra que los precios por acción varían de
$0
a$100
, con una mayor concentración entre$20
y$60
.Estadística descriptiva numérica: Además de los resúmenes tabulares y gráficos, se emplea la estadística descriptiva numérica. El estadístico descriptivo más común es el promedio o media. En el caso de los datos de la variable ganancia por acción de las acciones S&P, se calcula el promedio sumando las ganancias por acción de las 25 acciones y dividiendo entre 25.
YouTubeVideo('https://www.youtube.com/watch?v=Xq3thcQqwbc&list=PLsBNzHAbhO2n5wfw0wAJgt-EsXMjDxhua', width=950, height=515)
Tabla 1.4 Cuestionario de opinión del cliente usado por el restaurante Chops City Grill en Naples, Florida
Tipo de fondo de inversión | Frecuencia | Frecuencia porcentual |
---|---|---|
Capital nacional | 16 | 64 |
Capital internacional | 4 | 16 |
Renta fija | 5 | 20 |
Totales | 25 | 100 |
Figura 1.5 Gráfica de barras para el tipo de fondo de inversión
import matplotlib.pyplot as plt
funds = ['Capital nacional', 'Capital internacional', 'Renta fija']
frequencies = [60, 20, 30]
plt.figure(figsize=(10, 5))
bars = plt.bar(funds, frequencies, color='#5CCB5F', edgecolor='black')
plt.title('Frecuencia porcentual por Tipo de fondo', fontsize=14)
plt.xlabel('Tipo de fondo', fontsize=12)
plt.ylabel('Frecuencia porcentual', fontsize=12)
plt.yticks(range(0, 71, 10))
for bar in bars:
yval = bar.get_height()
plt.text(bar.get_x() + bar.get_width()/2, yval + 1, round(yval, 1), ha='center', va='bottom')
plt.tight_layout()
ax = plt.gca()
ax.set_facecolor('#D4F8B7') # Color de fondo claro
fig = plt.gcf()
fig.patch.set_facecolor('#D4F8B7') # Color de fondo para la figura
plt.show()
Figura 1.6 Histograma del valor de los activos netos para 25 fondos de inversión
import matplotlib.pyplot as plt
import numpy as np
asset_values = np.array([15, 30, 45, 60, 75])
frequencies = np.array([9, 8, 5, 2, 1])
plt.figure(figsize=(10, 5))
bars = plt.bar(asset_values, frequencies, width=15, color='#5CCB5F', edgecolor='black', align='center')
plt.title('Frecuencia por Valor de los activos netos ($)', fontsize=14)
plt.xlabel('Valor de los activos netos ($)', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.xlim(0, 85)
plt.ylim(0, 10)
ax = plt.gca()
ax.set_facecolor('#D4F8B7') # Color de fondo claro
fig = plt.gcf()
fig.patch.set_facecolor('#D4F8B7') # Color de fondo para la figura
plt.tight_layout()
plt.show()
1.5 Inferencia Estadistica¶
es utilizada cuando se necesita obtener información sobre grupos grandes de elementos, como individuos, empresas, hogares, etc. Sin embargo, debido a limitaciones de tiempo, costo y otros factores, solo es posible recolectar datos de una pequeña parte de este grupo. A esta gran cantidad de elementos se le denomina población, mientras que al grupo pequeño seleccionado se le llama muestra. En términos formales, se definen estos conceptos de la siguiente manera:
- Muestra: Es un subconjunto representativo de la población, obtenido para realizar un estudio o análisis.
- Población: Es el conjunto completo de todos los elementos de interés en un estudio específico.
YouTubeVideo('https://www.youtube.com/watch?v=SJL3wLC62EM&list=PLaJK82VXGZpTPr_FooaurRL7qLOW_-uau', width=950, height=515)
La figura 1.6 muestra un histograma de los precios por acción de 25 acciones S&P, donde se observa la frecuencia de los diferentes valores. Esta representación visual facilita identificar la concentración de precios en un rango específico. Considerar tanto medidas descriptivas numéricas como gráficas es fundamental en la estadística descriptiva para resumir y presentar de manera clara la información obtenida. La estadística desempeña un papel importante en la inferencia estadística, que consiste en utilizar datos de una muestra para hacer estimaciones y probar hipótesis sobre las características de una población. Este proceso puede ser realizado a través de un censo, que recolecta datos de toda la población, o a través de una encuesta muestral, que recolecta datos de una muestra representativa de la población.
Un ejemplo concreto de inferencia estadística es un estudio realizado por Norris Electronics, donde se fabricaron 200 focos utilizando un nuevo filamento. Los datos recolectados de esta muestra, que indican la duración de cada foco antes de que el filamento se queme, se utilizan para hacer inferencias sobre la duración promedio de todos los focos fabricados con el nuevo filamento. En este caso, se calcula un promedio muestral de 76 horas, lo que sugiere que el tiempo de vida promedio de la población de focos es de 76 horas.
Es importante destacar que los estadísticos proporcionan información sobre la calidad o precisión de las estimaciones. En el ejemplo de Norris, se informa que la estimación puntual del tiempo de vida promedio de los focos nuevos es de 76 horas, con un margen de error de ±4 horas. Esto significa que el intervalo de estimación del tiempo de vida promedio de los focos fabricados con el nuevo filamento es de 72 a 80 horas. Además, el estadístico puede indicar el nivel de confianza que tiene en que este intervalo contiene el promedio poblacional.
En resumen, la inferencia estadística es un proceso fundamental que permite realizar estimaciones y pruebas sobre características de una población utilizando datos de una muestra representativa. Esta herramienta estadística proporciona información valiosa y precisa para la toma de decisiones.
Tabla 1.5 Horas hasta que el filamento se funde para una muestra de 200 focos en el ejemplo de Norris Electronics
107 | 73 | 68 | 97 | 76 | 79 | 94 | 59 | 98 | 57 |
54 | 65 | 71 | 70 | 84 | 88 | 62 | 61 | 79 | 98 |
66 | 62 | 79 | 86 | 68 | 74 | 61 | 82 | 65 | 98 |
62 | 116 | 65 | 88 | 64 | 79 | 78 | 79 | 77 | 86 |
74 | 85 | 73 | 80 | 68 | 78 | 89 | 72 | 58 | 69 |
92 | 78 | 88 | 77 | 103 | 88 | 63 | 68 | 88 | 81 |
75 | 90 | 62 | 89 | 71 | 71 | 74 | 70 | 74 | 70 |
65 | 81 | 75 | 62 | 94 | 71 | 85 | 84 | 83 | 63 |
81 | 62 | 79 | 83 | 93 | 61 | 65 | 62 | 92 | 65 |
83 | 70 | 70 | 81 | 77 | 72 | 84 | 67 | 59 | 58 |
78 | 66 | 66 | 94 | 77 | 63 | 66 | 75 | 68 | 76 |
90 | 78 | 71 | 101 | 78 | 43 | 59 | 67 | 61 | 71 |
96 | 75 | 64 | 76 | 72 | 77 |
1.6 Computadoras y análisis estadístico¶
En el análisis estadístico, se utilizan grandes cantidades de datos, por lo que los analistas emplean software para facilitar este trabajo. Por ejemplo, en el caso del estudio de Norris Electronics, el cálculo del tiempo promedio de vida útil de los focos sería tedioso sin el uso de una computadora. Para facilitar su manejo, los datos utilizados en este libro se proporcionan en un disco compacto, en formatos compatibles con programas como Minitab y Excel.
1.7 Minería de datos¶
La minería de datos es el proceso de convertir estos grandes volúmenes de datos en información útil para la toma de decisiones. Utiliza técnicas de estadística, matemáticas y ciencias de la computación para "extraer" información de los datos almacenados. Kurt Thearling, un experto en el campo, define la minería de datos como la extracción automatizada de información predictiva de grandes bases de datos. Esta práctica es especialmente prevalente en sectores orientados al consumidor, como el comercio minorista y las telecomunicaciones.
Las aplicaciones de la minería de datos incluyen la identificación de patrones de compra en sitios como Amazon, donde se sugieren productos adicionales a los clientes, o la identificación de consumidores propensos a gastar más en ciertas compras. La minería de datos se basa en métodos estadísticos como la regresión múltiple y logística, pero también requiere una integración creativa de inteligencia artificial y aprendizaje automático.
La implementación de software de minería de datos, desarrollado por empresas como Oracle, Teradata y SAS, implica una inversión significativa de tiempo y dinero. Los modelos estadísticos desempeñan un papel crucial en el desarrollo de modelos predictivos en la minería de datos, pero también presentan desafíos como la confiabilidad y el riesgo de sobreajustar los modelos a los datos disponibles. La minería de datos supera algunos de estos desafíos mediante la partición de los datos en conjuntos de entrenamiento y prueba para validar la confiabilidad de los modelos. Sin embargo, se requiere una interpretación cuidadosa y pruebas adicionales para evitar conclusiones erróneas.
1.8 Lineamientos éticos para la práctica estadística¶
Se recomienda actuar con justicia, meticulosidad, objetividad y neutralidad en todas las fases del trabajo estadístico, incluyendo la recopilación de datos, análisis, presentaciones y redacción de informes. Además, como consumidores de estadísticas, se aconseja mantener un escepticismo saludable sobre la información recibida, prestando atención a su origen, propósito y objetividad.
La American Statistical Association ha elaborado "Ethical Guidelines for Statistical Practice", un documento que establece pautas éticas para profesionales y estudiantes en estadística. Estas pautas cubren áreas como profesionalismo, responsabilidades hacia fundadores, clientes, empleadores, sujetos de investigación, colegas, otros profesionales y cuestiones relacionadas con acusaciones de conducta poco ética.
Un ejemplo ilustrativo de comportamiento poco ético es la manipulación de resultados en estudios estadísticos, como en el caso de Norris Electronics, donde se altera la muestra para lograr un resultado deseado (vida útil promedio de focos). Este tipo de manipulación es considerada poco ética y un uso incorrecto de la estadística.
Otra práctica poco ética mencionada es el sesgo intencionado en la selección de muestras, como en el ejemplo de estudios sobre fumadores en restaurantes. Tales prácticas pueden llevar a conclusiones engañosas si se ignora el contexto de cómo se recopiló la muestra.
El texto concluye sugiriendo que la lectura del informe de la American Statistical Association puede proporcionar una perspectiva más amplia sobre los problemas éticos en estadística, siendo útil tanto para expertos como para consumidores de estadísticas. También insta a asegurar que las normas éticas se mantengan en la práctica de la estadística.
Resumen¶
La estadística es el arte y la ciencia de recopilar, analizar, presentar e interpretar datos. Es una materia que, en su mayoría, es necesaria para los estudiantes de negocios y economía. En este libro, se describen las aplicaciones típicas de la estadística en estos campos.
Ejercicios complementarios¶
Ejercicio 1. Comente las diferencias entre la estadística como hechos numéricos y las estadística como una disciplina o campo de estudio.
Ejercicio 2. El departamento de energia de Estados Unidos proporciona información sobre economía de combustible para diversos vehiculos de motor. Una muestra de 10 automóviles se presenta en la tabla 1.6 (sitio web Fuel Economy, 22 de febrero de 2008). Los datos indican el tamaño de automóvil (compacto, mediano o grande), el número de cilindros de motor, las millas por galón en la ciudad, las millas por galón en autopista y el combustible recomendado(diesel, premium o regular).
a) ¿Cuátos elementos hay en este banco de datos?
b) ¿Cuántas variables hay e este banco de datos?
c) ¿Cuáles variables son categóricas y cúales son cuantitativas?
d) ¿Qué tipo de escala de medición se usa ara cada una de las variables?
a)
b)
c)
d)
- Tamaño: Ordinal.
- Cilindros: de razón.
- MPG Ciudad: de razón
- MPG Autopista: de razón
- Combustible: Nominal
Ejercicio 3. Consulta la tabla 1.6
a) ¿Cuántas millas por galó se consumen en la ciudad?
b) En promedio, ¿cuántas millas más por galón se obtinen al conducir en autopista que en la ciudad?
c) ¿Qué porcentaje de los automóviles tiene motores de cuatro cilindros?
d) ¿Qué porcentaje de los vehículos usa combustible regular?
# Datos de la tabla
vehiculos = [
{"modelo": "Audi A8", "cilindros": 12, "ciudad": 13, "autopista": 19, "combustible": "Premium"},
{"modelo": "BMW 328Xi", "cilindros": 6, "ciudad": 17, "autopista": 25, "combustible": "Premium"},
{"modelo": "Cadillac CTS", "cilindros": 6, "ciudad": 16, "autopista": 25, "combustible": "Regular"},
{"modelo": "Chrysler 300", "cilindros": 8, "ciudad": 13, "autopista": 18, "combustible": "Premium"},
{"modelo": "Ford Focus", "cilindros": 4, "ciudad": 24, "autopista": 33, "combustible": "Regular"},
{"modelo": "Hyundai Elantra", "cilindros": 4, "ciudad": 25, "autopista": 33, "combustible": "Regular"},
{"modelo": "Jeep Grand Cherokee", "cilindros": 6, "ciudad": 17, "autopista": 26, "combustible": "Diesel"},
{"modelo": "Pontiac G6", "cilindros": 6, "ciudad": 15, "autopista": 22, "combustible": "Regular"},
{"modelo": "Toyota Camry", "cilindros": 4, "ciudad": 21, "autopista": 31, "combustible": "Regular"},
{"modelo": "Volkswagen Jetta", "cilindros": 5, "ciudad": 21, "autopista": 29, "combustible": "Regular"},
]
# a) Millas por galón en la ciudad
millas_ciudad = [13,17,16,13,24,25,17,15,21,21]
suma_millas_ciudad = sum(millas_ciudad)
# b) Diferencia de millas por galón en autopista y ciudad
diferencia_millas = [19,25,25,18,33,33,26,22,31,29]
suma_millas_autopista=sum(diferencia_millas)
promedio_diferencia_millas = 7.9
# c) Porcentaje de automóviles con motores de cuatro cilindros
cuatro_cilindros = [vehiculo for vehiculo in vehiculos if vehiculo["cilindros"] == 4]
porcentaje_cuatro_cilindros = (len(cuatro_cilindros) / len(vehiculos)) * 100
# d) Porcentaje de vehículos que usan combustible regular
combustible_regular = [vehiculo for vehiculo in vehiculos if vehiculo["combustible"] == "Regular"]
porcentaje_combustible_regular = (len(combustible_regular) / len(vehiculos)) * 100
# Mostrar resultados
print("a) Millas por galón en la ciudad:", suma_millas_ciudad)
print ("182/10 = ",(suma_millas_ciudad/10),"mpg")
print("\nb) Millas por galón en autopista:",suma_millas_autopista)
print("261/10 =",(suma_millas_autopista/10),"mpg")
print(f"\nPromedio de millas más por galón en autopista que en ciudad: {promedio_diferencia_millas:.1f} millas por galón(mpg)")
print(f"\nc) Porcentaje de automóviles con motores de cuatro cilindros: {porcentaje_cuatro_cilindros:.2f}%")
print(f"d) Porcentaje de vehículos que usan combustible regular: {porcentaje_combustible_regular:.2f}%")
a) Millas por galón en la ciudad: 182 182/10 = 18.2 mpg b) Millas por galón en autopista: 261 261/10 = 26.1 mpg Promedio de millas más por galón en autopista que en ciudad: 7.9 millas por galón(mpg) c) Porcentaje de automóviles con motores de cuatro cilindros: 30.00% d) Porcentaje de vehículos que usan combustible regular: 60.00%
Tabla 1.6 Información sobre economía de combustible para 10 automóviles
Ciudad |
Autopista |
||||
---|---|---|---|---|---|
Audi A8 | Grande | 12 | 13 | 19 | Premium |
BMW 238Xi | Compacto | 6 | 17 | 25 | Premium |
Cadillac CTS | Mediano | 6 | 16 | 25 | Regular |
Chrysler 300 | Grande | 8 | 13 | 18 | Premium |
Ford Focus | Compacto | 4 | 24 | 33 | Regular |
Hyundai Elantra | Mediano | 4 | 25 | 33 | Regular |
Jeep Grand Cherokee | Mediano | 6 | 17 | 26 | Diesel |
Pontiac G6 | Compacto | 6 | 15 | 22 | Regular |
Toyota Camry | Mediano | 4 | 21 | 31 | Regular |
Volkswagen Jetta | Compacto | 5 | 21 | 29 | Regular |
Tabla 1.7 Datos para siete colegios y universidades
($ miles de millones) |
solicitantes admitidos |
de la NCAA |
|||
---|---|---|---|---|---|
Amherst College | Massachusetts | Pueblo: pequeño | 1.7 | 18 | III |
Duke | Carolina del Norte | Ciudad: mediana | 5.9 | 21 | I-A |
Universidad de Harvard | Massachusetts | Ciudad: mediana | 34.6 | 9 | I-AA |
Swarthmore Collage | Pennsylvania | Suburbio: grande | 1.4 | 18 | III |
Universidad de Pennsylvania | Pennsylvania | Ciudad: grande | 6.6 | 18 | I-AA |
Williams Collage | Massachusetts | Pueblo: pequeño | 1.9 | 18 | III |
Universidad de Yale | Connecticut | Ciudad: mediana | 22.5 | 9 | I-AA |
Ejercicio 4. La Tabla 1.7 muestra datos para siete colegios y universidades considerando la inversión(en miles de millones de dólares) y el porcentaje de solicitantes admitido(USA Today, 3 de febrero de 2008). El estado en que se localiza cada escuela, el campus y la División de NCAA para los equipos colegiales se obtuvieron del sitio web National Center of Education Statistics (22 de febrero de 2008).
a) ¿Cuántos elementos hay en el banco de datos?
b) ¿Cuántas variables hay en el banco de datos?
c) ¿Cuáles variables son categóricas y cuáles son cuantitativas?
a)
b)
c) - Variables cuantitativas:
1. Activos 2. % de solicitantes admitidos - Variables categóricas:
1. Estado 2. Campo de juego 3. División NCAA
Ejercicio 5. Considere el banco de datos de la tabla 7.1
a) Calcule la inversión promedio para la muestra.
b) Calcule el porcentaje promedio de solicitantes admitidos.
c) ¿Qué porcentajes de las escuelas tiene equipos colegiales de división III de la NCAA?
d) ¿Qué porcentaje de las escuelas tiene un campus en una ciudad mediana?
a) - Hay 7 elementos en este banco de datos, ya que la tabla presenta datos para siete colegios y universidades.
b) - Hay 6 variables en este banco de datos. Las variables son:
1. Escuela
2. Estado
3. Campus
4. Inversión ($ miles de millones)
5. % de solicitantes admitidos
6. División de la NCAA
c) - Variables categóricas:
- Escuela
- Estado
- Campus
- División de la NCAA
Variables cuantitativas:
- Inversión ($ miles de millones)
- % de solicitantes admitidos
d) - Escala nominal: - Escuela
- Estado
- Campus
- División de la NCAA
Escala de intervalo:
- Inversión ($ miles de millones)
- % de solicitantes admitidos
Ejercicio 6. La revista Foreign Affairs realizó una encuesta para desarrollar un perfil de sus suscriptores (sitio web Foreign Affairs, 23 de febrero de 2008).Se formularon las preguntas siguientes.
a) ¿Cuántas noches ha permanecido en un hotel en los 12 meses anteriores?
b) ¿Dónde adquiere sus libros? Se listaron tres opciones: Bookstore, Internet y Book Club.
c) ¿Posee o alquila un vehículo de lujo? (Sí o No)
d) ¿Qué edad tiene?
e) Para los viajes al extranjero realizados en los tres años pasados ¿cuál fue su destino? Se listaron siste destinos internacionales.
Comente si cada pregunta proporciona datos categóricos o cuantitativos
a) - Respuesta: Datos cuantitativos
b) - Respuesta: Datos categóricos (nominales)
c) - Respuesta: Datos categóricos (nominales)
d) - Respuesta: Datos cuantitativos
e) - Respuesta: Datos categóricos (nominales)
Ejercicio 7. El hotel Ritz-Carlton aplicó un cuestionario de opinión del cliente para obtener datos sobre el desempeño de sus servicios de comedor y entretenimiento(The Ritz-Carlton Hotel, Naples, Florida, febrero de 2006). Se pidió a los clientes que se calificaran seis factores: bienvenida, servicion, alimentos, atractivo del menú, atmósfera y experiencia general. Se registraron datos para cada factor con las calificaiones de 1 para aceptable, 2 para normal, 3 para bueno y 4 para excelente.
a) Las respuestas de los clientes proporcionaron datos para seis variables. ¿Estas variables son categóricas o cuantitativas?
b) ¿Qué escala de medición se utiliza?
a) - Respuesta: Las variables son categóricas, ya que representan la calificación de factores como bienvenida, servicio, alimentos, atractivo del menú, atmósfera y experiencia general con valores discretos de 1 a 4.
b) - Respuesta: Se utiliza una escala ordinal, ya que los valores (1, 2, 3, 4) indican un orden de menor a mayor, pero la diferencia entre los valores no es necesariamente uniforme. Además, la escala es discreta, ya que los clientes seleccionan valores específicos (1, 2, 3, 4) en lugar de tener opciones continuas.
Ejercicio 8. El programa FinancialTimes/Harris Poll es una encuesta mensual en línea para adultos de seis países de Europa y Estados Unidos. Una encuesta de enero incluyó a 1015 adultos de Estados Unidos. Una de las preguntas fue: "¿Cómo calificaría usted al Federal Bank en el manejo de los problemas de crédito en los mercados financieros?" Las respuestas posibles fueron excelente, bueno, aceptable, malo y muy malo(sitio web Harris Interactive, enero de 2008).
a) ¿De qué tamaño fue la muestra para esta encuesta?
b) ¿Los datos son categóricos o cuantitativos?
c) ¿Tendría más sentido usar promedios o porcentajes como resumen de los datos para esta pregunta?
d) De los encuestados en Estados Unidos, 10% dijo que el Federal Bank está efectuando un buen trabajo. ¿Cuántas personas proporcionaron esta respuesta?
a) - Respuesta: La información proporcionada no especifica el tamaño exacto de la muestra. Sería necesario tener esa información específica para responder a esta pregunta.
b) - Respuesta: Los datos son categóricos, ya que las respuestas posibles son categorías como "excelente", "bueno", "aceptable", "malo" y "muy malo".
c) - Respuesta: Dado que las respuestas son categorías ordinales, tendría más sentido utilizar porcentajes para resumir los datos. Calificar el desempeño en términos de porcentajes permitiría comprender la proporción de personas que eligieron cada categoría en relación con el total de encuestados.
d) - Respuesta: La cantidad de personas que proporcionaron esta respuesta no se puede determinar sin conocer el tamaño total de la muestra. Para calcular el número exacto, necesitarías el tamaño total de la muestra y calcular el 10% de esa cifra.
Ejercicio 9. El Departamento de Comercio informó que recibió las aplicaciones siguientes para el Premio Nacional de Calidad Malcolm Baldrige: 23 de las empresas de manufactura grandes, 18 de las empresas de servicios grandes y 30 de las pequeñas empresas.
a) ¿El tipo de empresa es una variable categórica o cuantitativa?
b) ¿Qué porcentaje de las aplicaciones proviene de las pequeñas empresas?
a) - Respuesta: El tipo de empresa es una variable categórica, ya que se clasifica en categorías discretas: empresas de manufactura grandes, empresas de servicios grandes y pequeñas empresas.
b) - Respuesta: Para calcular el porcentaje de aplicaciones provenientes de las pequeñas empresas, podemos utilizar la fórmula:
$$ \text{Porcentaje de pequeñas empresas} = \left( \frac{\text{Número de aplicaciones de pequeñas empresas}}{\text{Total de aplicaciones}} \right) \times 100 $$
Dado que el número de aplicaciones de pequeñas empresas es 30 y el total de aplicaciones es la suma de los tres tipos de empresas (23 + 18 + 30 = 71), podemos calcular el porcentaje:
$$ \text{Porcentaje de pequeñas empresas} = \left( \frac{30}{71} \right) \times 100 \approx 42.25\% $$
Por lo tanto, aproximadamente el 42.25% de las aplicaciones proviene de las pequeñas empresas.
Ejercicio 10. La encuesta a suscriptores de The Wall Street Journal (WSJ) (13 de octubre de 2003) formuló 46 preguntas sobre las características y los intereses de los lectores. Determine si cada una de las
preguntas siguientes proporcionó datos categóricos o cuantitativos, e indique la escala de medición apropiada para cada uno.
a) ¿Qué edad tiene?
b) ¿Es usted hombre o mujer?
c) ¿Cuándo empezó a leer el WSJ? ¿En secundaria, bachillerato, a principios de la carrera, a mitad de la carrera, a finales de la carrera o en el retiro?
d) ¿Cuánto tiempo lleva en su empleo o puesto actual?
e) ¿Qué tipo de vehículo está considerando para su compra siguiente? Nueve categorías de respuesta incluyen automóviles sedán, automóviles deportivos, vehículos todo terreno, minivans, etcétera.
# Creando un diccionario con las preguntas y sus respectivas respuestas
respuesta_encuesta = {
"a. ¿Cuál es su edad?": {
"Tipo de Datos": "Cuantitativos",
"Escala de Medición": "Razón"
},
"b. ¿Es usted hombre o mujer?": {
"Tipo de Datos": "Cualitativos",
"Escala de Medición": "Nominal"
},
"c. ¿Cuándo empezó a leer el WSJ?": {
"Tipo de Datos": "Cualitativos",
"Escala de Medición": "Ordinal"
},
"d. ¿Cuánto tiempo hace que tiene su trabajo o cargo actual?": {
"Tipo de Datos": "Cuantitativos",
"Escala de Medición": "Razón"
},
"e. ¿Qué tipo de automóvil piensa comprarse la próxima vez que compre uno?": {
"Tipo de Datos": "Cualitativos",
"Escala de Medición": "Nominal"
}
}
# Imprimir las respuestas
for pregunta, info in respuesta_encuesta.items():
print(pregunta)
for clave, valor in info.items():
print(f" - {clave}: {valor}")
print()
a. ¿Cuál es su edad? - Tipo de Datos: Cuantitativos - Escala de Medición: Razón b. ¿Es usted hombre o mujer? - Tipo de Datos: Cualitativos - Escala de Medición: Nominal c. ¿Cuándo empezó a leer el WSJ? - Tipo de Datos: Cualitativos - Escala de Medición: Ordinal d. ¿Cuánto tiempo hace que tiene su trabajo o cargo actual? - Tipo de Datos: Cuantitativos - Escala de Medición: Razón e. ¿Qué tipo de automóvil piensa comprarse la próxima vez que compre uno? - Tipo de Datos: Cualitativos - Escala de Medición: Nominal
Ejercicio 11. Determine si cada una de las variables siguientes es categórica o cuantitativa, e indique su escala de medición.
a) Ventas anuales.
b) Tamaño de bebida refrescante (pequeño, mediano, grande).
c) Clasificación de empleados (de gs1 a gs18).
d) Utilidades por acción.
e) Método de pago (efectivo, cheques, tarjeta de crédito).
# Creando un diccionario con las variables y sus respectivas clasificaciones
clasificacion_variables = {
"a. Ventas anuales": {
"Tipo de Dato": "Cuantitativo",
"Escala de Medición": "Razón"
},
"b. Tamaño de los refrescos (pequeño, mediano, grande)": {
"Tipo de Dato": "Cualitativo",
"Escala de Medición": "Ordinal"
},
"c. Clasificación como empleado (GS 1 a GS 18)": {
"Tipo de Dato": "Cuantitativo",
"Escala de Medición": "Ordinal"
},
"d. Ganancia por acción": {
"Tipo de Dato": "Cuantitativo",
"Escala de Medición": "Razón"
},
"e. Modo de pago (al contado, cheque, tarjeta de crédito)": {
"Tipo de Dato": "Cualitativo",
"Escala de Medición": "Nominal"
}
}
# Imprimir las clasificaciones
for variable, info in clasificacion_variables.items():
print(variable)
for clave, valor in info.items():
print(f" - {clave}: {valor}")
print()
a. Ventas anuales - Tipo de Dato: Cuantitativo - Escala de Medición: Razón b. Tamaño de los refrescos (pequeño, mediano, grande) - Tipo de Dato: Cualitativo - Escala de Medición: Ordinal c. Clasificación como empleado (GS 1 a GS 18) - Tipo de Dato: Cuantitativo - Escala de Medición: Ordinal d. Ganancia por acción - Tipo de Dato: Cuantitativo - Escala de Medición: Razón e. Modo de pago (al contado, cheque, tarjeta de crédito) - Tipo de Dato: Cualitativo - Escala de Medición: Nominal
Ejercicio 12. La agencia Hawaii Visitors Bureau recaba datos sobre los visitantes a Hawaii. Las preguntas siguientes se incluyeron entre las 16 formuladas en un cuestionario que se proporcionó a los pasajeros durante los vuelos entrantes de la aerolínea en junio de 2003.
- Este viaje a Hawaii es mi: 1o., 2o., 3o., 4o., etcétera.
- La razón principal para este viaje es: (10 categorías que incluyen vacaciones, convención, luna de miel).
- Dónde planeo hospedarme: (11 categorías que incluyen hotel, departamento, parientes, acampar).
- Días totales en Hawaii.
a) ¿Qué población se estudia?
b) ¿El uso de un cuestionario es una buena manera de llegar a la población de pasajeros en los vuelos de aerolíneas entrantes?
c) Comente si cada una de las cuatro preguntas le proporcionará datos categóricos o cuantitativos.
# Definición de las respuestas
respuestas = {
'a': "La población que se estudia son todos los pasajeros de un vuelo de llegada a Hawai en junio de 2003.",
'b': "El uso de un cuestionario puede ser una buena manera de obtener información de los pasajeros en los vuelos de llegada, ya que permite recopilar datos estandarizados de una muestra representativa de manera eficiente.",
'c': {
'Este viaje a Hawai es mi 1o., 2o., 3o., 4o. etc.': 'Cuantitativo - Datos de conteo que representan la frecuencia de visitas.',
'La principal razón de este viaje es:': 'Cualitativo - Datos categóricos que representan la razón del viaje.',
'Dónde voy a alojarme:': 'Cualitativo - Datos categóricos que representan el tipo de alojamiento.',
'Total de días en Hawai': 'Cuantitativo - Datos numéricos que representan la duración de la estancia.'
}
}
# Imprimir las respuestas
for pregunta, respuesta in respuestas.items():
if isinstance(respuesta, dict):
print(f'{pregunta}:')
for subpregunta, subrespuesta in respuesta.items():
print(f' - {subpregunta}: {subrespuesta}')
else:
print(f'{pregunta}: {respuesta}')
a: La población que se estudia son todos los pasajeros de un vuelo de llegada a Hawai en junio de 2003. b: El uso de un cuestionario puede ser una buena manera de obtener información de los pasajeros en los vuelos de llegada, ya que permite recopilar datos estandarizados de una muestra representativa de manera eficiente. c: - Este viaje a Hawai es mi 1o., 2o., 3o., 4o. etc.: Cuantitativo - Datos de conteo que representan la frecuencia de visitas. - La principal razón de este viaje es:: Cualitativo - Datos categóricos que representan la razón del viaje. - Dónde voy a alojarme:: Cualitativo - Datos categóricos que representan el tipo de alojamiento. - Total de días en Hawai: Cuantitativo - Datos numéricos que representan la duración de la estancia.
Ejercicio 13. . La figura 1.8 proporciona una gráfica de barras que muestra la cantidad de gasto federal para los años 2002 a 2008 (USA Today, 5 de febrero de 2008).
a) ¿Cuál es la variable de interés?
b) ¿Los datos son categóricos o cuantitativos?
c) ¿Los datos son series de tiempo o de corte transversal?
d) Comente sobre la tendencia en el gasto federal con respecto al tiempo.
Figura 1.8 Gastos Federales
import matplotlib.pyplot as plt
# Asumiendo que tenemos los siguientes datos ficticios para las ganancias de millones de euros
# Estos valores son inventados y no reflejan los datos de la imagen real
ganancias = [2.0, 2.2, 2.3, 2.4,2.6, 2.7, 2.9]
años = ['2002', '2003', '2004', '2005','2006','2007','2008']
# Crear una gráfica de barras
plt.figure(figsize=(10, 5))
plt.bar(años, ganancias, color='#5CCB5F', edgecolor='black',linewidth=1.5, width=0.45)
plt.xlabel('Año',fontsize=10, fontweight='bold')
plt.ylabel('Gasto federal ($billones)',fontsize=10, fontweight='bold')
plt.xticks(rotation=45)
ax = plt.gca()
ax.set_facecolor('#D4F8B7') # Color de fondo claro
fig = plt.gcf()
fig.patch.set_facecolor('#D4F8B7') # Color de fondo para la figura
plt.tight_layout()
respuestas = {
'a': "La variable de interés sería la cantidad de gasto federal.",
'b': "Para determinar si los datos son categóricos o cuantitativos, necesitaría saber si la cantidad de gasto federal se mide en términos de cantidades numéricas (cuantitativo) o si se clasifica en categorías (categórico). Si la cantidad se expresa en números, entonces es cuantitativa.",
'c': "La distinción entre series de tiempo y datos de corte transversal depende de cómo se recopilan los datos. Si la información se recopila a lo largo del tiempo para los años 2002 a 2008, entonces se trata de datos de series temporales.",
'd': "La tendencia en el gasto federal con respecto al tiempo puede ser evaluada observando la dirección general de los datos a lo largo de los años. Si la cantidad de gasto federal aumenta o disminuye de manera consistente a medida que pasa el tiempo, se puede identificar una tendencia."
}
# Imprimir las respuestas
for pregunta, respuesta in respuestas.items():
print(f'{pregunta}: {respuesta}')
a: La variable de interés sería la cantidad de gasto federal. b: Para determinar si los datos son categóricos o cuantitativos, necesitaría saber si la cantidad de gasto federal se mide en términos de cantidades numéricas (cuantitativo) o si se clasifica en categorías (categórico). Si la cantidad se expresa en números, entonces es cuantitativa. c: La distinción entre series de tiempo y datos de corte transversal depende de cómo se recopilan los datos. Si la información se recopila a lo largo del tiempo para los años 2002 a 2008, entonces se trata de datos de series temporales. d: La tendencia en el gasto federal con respecto al tiempo puede ser evaluada observando la dirección general de los datos a lo largo de los años. Si la cantidad de gasto federal aumenta o disminuye de manera consistente a medida que pasa el tiempo, se puede identificar una tendencia.
Ejercicio 14. CSM Worldwide efectúa pronósticos de la producción global para todos los fabricantes de automóviles. Los siguientes datos de CSM muestran el pronóstico de la producción global de automóviles para General Motors, Ford, DaimlerChrysler y Toyota para los años 2004 a 2007 (USA Today, 21 de diciembre de 2005). Los datos están en millones de vehículos.
a) Elabore una gráfica de series de tiempo para los años 2004 a 2007 que muestre el número de vehículos fabricados por cada compañía automotriz. Muestre las series de tiempo para los cuatro fabricantes en la misma gráfica.
b) General Motors ha sido el líder indiscutible en la producción de automóviles desde 1931. ¿Qué muestra la gráfica de serie de tiempo sobre cuál es la compañía automotriz más importante del mundo? Comente.
c) Elabore una gráfica de barras que muestre los vehículos producidos por los fabricantes de automóviles usando los datos de 2007. ¿Esta gráfica se basa en datos de corte transversal o de series de tiempo?
import matplotlib.pyplot as plt
import pandas as pd
# Datos de producción de vehículos por fabricante y año
datos_produccion = {
'General Motors': {'2004': 8.9, '2005': 9.0, '2006': 8.9, '2007': 8.8},
'Ford': {'2004': 7.8, '2005': 7.7, '2006': 7.8, '2007': 7.9},
'DaimlerChrysler': {'2004': 4.1, '2005': 4.2, '2006': 4.3, '2007': 4.6},
'Toyota': {'2004': 7.8, '2005': 8.3, '2006': 9.1, '2007': 9.6},
}
# Convertir los datos a un DataFrame
df_produccion = pd.DataFrame(datos_produccion)
# Establecer el color de fondo del gráfico
plt.figure(figsize=(10, 5), facecolor='#D4F8B7')
ax = plt.gca()
ax.set_facecolor('#D4F8B7') # Color de fondo claro
# Colores para cada fabricante
colores = {'General Motors': '#009929', 'Ford': 'green', 'DaimlerChrysler': '#5ccb5f', 'Toyota': '#98f84a'}
# Crear una gráfica de líneas para cada fabricante con colores personalizados
for fabricante in df_produccion.columns:
plt.plot(df_produccion.index, df_produccion[fabricante], marker='o', label=fabricante, color=colores[fabricante])
plt.title('Producción de Vehículos (2004-2007)')
plt.xlabel('Año')
plt.ylabel('Producción (en millones)')
plt.legend()
plt.grid(True)
plt.tight_layout()
# Guardar la gráfica en un archivo
plt.savefig('produccion_vehiculos.png')
plt.show()
# Respuestas a las preguntas
respuestas = {
'a': "La gráfica de series de tiempo para los años 2004 a 2007 se ha generado arriba.",
'b': "Según la gráfica, Toyota ha mostrado un aumento significativo en la producción y es el mayor productor en 2007.",
'c': "La gráfica de sección transversal para el año 2007 mostraría la producción de vehículos de ese año para cada fabricante. Los datos son de sección transversal porque representan un corte en un punto en el tiempo, en este caso, el año 2007."
}
# Imprimir las respuestas
for pregunta, respuesta in respuestas.items():
print(f'{pregunta}: {respuesta}')
a: La gráfica de series de tiempo para los años 2004 a 2007 se ha generado arriba. b: Según la gráfica, Toyota ha mostrado un aumento significativo en la producción y es el mayor productor en 2007. c: La gráfica de sección transversal para el año 2007 mostraría la producción de vehículos de ese año para cada fabricante. Los datos son de sección transversal porque representan un corte en un punto en el tiempo, en este caso, el año 2007.
Ejercicio 15. La Food and Drug Administration (Administración de Alimentos y Fármacos, FDA) reportó el número de fármacos nuevos aprobados durante un periodo de ocho años (The Wall Street Journal, 12 de enero de 2004). La figura 1.9 muestra una gráfica de barras que resume el número de medicamentos nuevos aprobado cada año.
a) ¿Los datos son categóricos o cuantitativos?
b) ¿Los datos son de series de tiempo o de corte transversal?
c) ¿Cuántos medicamentos nuevos se aprobaron en 2003?
d) ¿En qué año se aprobó el menor número de fármacos nuevos? ¿Cuántos fueron?
e) Comente la tendencia en el número de medicamentos nuevos aprobados por la fda durante el periodo de ocho años.
Figura 1.9 Número de fármacos nuevos aprobados por la FDA
import matplotlib.pyplot as plt
# Asumiendo que tenemos los siguientes datos ficticios que representan la cantidad de medicamentos nuevos
# aprobados por la FDA de 1996 a 2003. Estos valores son inventados para el propósito de este ejemplo.
datos_medicamentos = {
'Año': ['1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003'],
'Cantidad de medicamentos nuevos': [52, 45, 35, 38, 32, 28, 23, 18] # Estos datos son hipotéticos
}
# Crear una gráfica de barras para representar los datos
plt.figure(figsize=(10, 5), facecolor='#D4F8B7')
ax = plt.gca()
ax.set_facecolor('#D4F8B7') # Color de fondo claro
plt.bar(datos_medicamentos['Año'], datos_medicamentos['Cantidad de medicamentos nuevos'], color='#5CCB5f',edgecolor='black',linewidth=1.5, width=0.45)
plt.xlabel('Año',fontsize=10, fontweight='bold')
plt.ylabel('Cantidad de Medicamentos Nuevos',fontsize=10, fontweight='bold')
plt.tight_layout()
# Mostrar la gráfica
plt.show()
# Encontrar el año con el menor número de medicamentos aprobados
min_medicamentos = min(datos_medicamentos['Cantidad de medicamentos nuevos'])
año_min_medicamentos = datos_medicamentos['Año'][datos_medicamentos['Cantidad de medicamentos nuevos'].index(min_medicamentos)]
# Respuestas a las preguntas
respuestas = {
'a': "Los datos son cuantitativos, ya que representan conteos numéricos de eventos.",
'b': "Son datos de series de tiempo, porque se registran a lo largo de varios años consecutivos.",
'c': f"En 2003, fueron aprobados {datos_medicamentos['Cantidad de medicamentos nuevos'][-1]} medicamentos.", # Asumiendo que el último valor corresponde a 2003
'd': f"El año con menos medicamentos aprobados es {año_min_medicamentos} con {min_medicamentos} medicamentos.",
'e': "Se necesitaría analizar la gráfica generada para comentar sobre la tendencia."
}
# Imprimir las respuestas
for pregunta, respuesta in respuestas.items():
print(f'{pregunta}: {respuesta}')
a: Los datos son cuantitativos, ya que representan conteos numéricos de eventos. b: Son datos de series de tiempo, porque se registran a lo largo de varios años consecutivos. c: En 2003, fueron aprobados 18 medicamentos. d: El año con menos medicamentos aprobados es 2003 con 18 medicamentos. e: Se necesitaría analizar la gráfica generada para comentar sobre la tendencia.
Ejercicio 16. La Oficina de Información del Departamento de Energía de Estados Unidos proporcionó datos de series de tiempo para el precio promedio de gasolina regular convencional en dólares por galón entre julio de 2006 y junio de 2009 (sitio web Energy Information Administration, junio de 2009). Use Internet para obtener el precio medio por galón de gasolina regular convencional desde junio de 2009.
a) Amplíe la gráfica de la serie de tiempo mostrada en la figura 1.1.
b) ¿Qué interpretaciones puede hacer acerca del precio por galón de gasolina regular convencional desde junio de 2009?
c) ¿La serie de tiempo sigue mostrando un incremento en verano en el precio promedio por galón? Explique por qué.
# Definición de respuestas para la planificación de marketing de un nuevo refresco dietético
respuestas = {
'a': ("el sitio web de la Energy Information Administration proporciona información sobre los precios de la gasolina en los Estados Unidos. Según el RACE, el precio de la gasolina regular en los Estados Unidos es de $2.99 por galón el 28 de noviembre de 2023."),
'b': (" Interpretaciones sobre el precio por galón de gasolina regular convencional desde junio de 2009 pueden incluir análisis de tendencias a largo plazo, identificación de picos y valles, y evaluación de factores económicos y eventos mundiales que podrían haber afectado los precios del petróleo y, por ende, los precios de la gasolina."),
'c': ("Respecto a si la serie de tiempo muestra un incremento en verano en el precio promedio por galón, podrías realizar un análisis estacional para determinar patrones recurrentes en diferentes períodos del año. Los precios de la gasolina a menudo tienden a aumentar durante la temporada de viajes de verano debido a la mayor demanda de combustible. Sin embargo, esto puede variar según la región y otros factores económicos.")
}
# Imprimir las respuestas
for pregunta, respuesta in respuestas.items():
print(f'{pregunta}: {respuesta}\n')
a: el sitio web de la Energy Information Administration proporciona información sobre los precios de la gasolina en los Estados Unidos. Según el RACE, el precio de la gasolina regular en los Estados Unidos es de $2.99 por galón el 28 de noviembre de 2023. b: Interpretaciones sobre el precio por galón de gasolina regular convencional desde junio de 2009 pueden incluir análisis de tendencias a largo plazo, identificación de picos y valles, y evaluación de factores económicos y eventos mundiales que podrían haber afectado los precios del petróleo y, por ende, los precios de la gasolina. c: Respecto a si la serie de tiempo muestra un incremento en verano en el precio promedio por galón, podrías realizar un análisis estacional para determinar patrones recurrentes en diferentes períodos del año. Los precios de la gasolina a menudo tienden a aumentar durante la temporada de viajes de verano debido a la mayor demanda de combustible. Sin embargo, esto puede variar según la región y otros factores económicos.
Ejercicio 17. Un gerente de una corporación grande recomienda que se otorgue un aumento de sueldo de $10 000 para evitar que un subordinado valioso se vaya a otra empresa. ¿Qué fuentes de datos internas y externas podrían usarse para decidir si es apropiado este incremento?
Para decidir si es apropiado el incremento de salario, se pueden utilizar las siguientes fuentes de datos:
- Internas: Historial salarial del empleado, evaluaciones de rendimiento, contribuciones al éxito de la empresa, y comparación con salarios de empleados en puestos similares.
- Externas: Estándares de la industria para el puesto, tasas de retención de empleados en la industria, ofertas salariales de empresas competidoras y tendencias del mercado laboral.
Ejercicio 18. Una encuesta a 430 viajeros de negocios reveló que 155 de ellos usaron una agencia para hacer sus arreglos de viaje (USA Today, 20 de noviembre de 2003).
a) Desarrolle una estadística descriptiva que se pueda usar para estimar el porcentaje de todos los viajeros de negocios que contratan una agencia de viajes para hacer sus arreglos respectivos.
b) La encuesta reveló que la manera más frecuente en que los viajeros de negocios hacen sus arreglos de viaje es por medio de un sitio de viajes en línea. Si 44% de los encuestados preparó sus arreglos de esta manera, ¿cuántos de los 430 viajeros de egocios usaron un sitio de viajes en línea?
c) ¿Los datos sobre cómo se hacen los arreglos de viaje son categóricos o cuantitativos?
def porcentaje_usaron_agencia(n_total, n_usaron_agencia):
"""
Calcula el porcentaje de viajeros que utilizaron una agencia de viajes.
Args:
n_total: El número total de viajeros.
n_usaron_agencia: El número de viajeros que utilizaron una agencia de viajes.
Returns:
El porcentaje de viajeros que utilizaron una agencia de viajes.
"""
return n_usaron_agencia / n_total * 100
n_total = 430
n_usaron_agencia = 155
porcentaje_usaron_agencia = porcentaje_usaron_agencia(n_total, n_usaron_agencia)
print("Porcentaje de viajeros que usaron una agencia de viajes:", porcentaje_usaron_agencia)
def numero_viajeros_sitio_en_linea(porcentaje, n_total):
"""
Calcula el número de viajeros que utilizaron un sitio de viajes en línea.
Args:
porcentaje: El porcentaje de viajeros que utilizaron un sitio de viajes en línea.
n_total: El número total de viajeros.
Returns:
El número de viajeros que utilizaron un sitio de viajes en línea.
"""
return porcentaje * n_total
porcentaje = 0.44
n_total = 430
n_usaron_sitio_en_linea = numero_viajeros_sitio_en_linea(porcentaje, n_total)
print("Número de viajeros que usaron un sitio de viajes en línea:", n_usaron_sitio_en_linea)
def tipo_datos(datos):
"""
Determina el tipo de datos de un conjunto de datos.
Args:
datos: El conjunto de datos a analizar.
Returns:
El tipo de datos del conjunto de datos.
"""
if isinstance(datos[0], str):
return "categórico"
else:
return "numérico"
datos = ["agencia de viajes", "sitio de viajes en línea", "agencia de viajes", "sitio de viajes en línea"]
tipo_datos = tipo_datos(datos)
print("Tipo de datos:", tipo_datos)
Porcentaje de viajeros que usaron una agencia de viajes: 36.04651162790697 Número de viajeros que usaron un sitio de viajes en línea: 189.2 Tipo de datos: categórico
Ejercicio 19. Un estudio sobre los suscriptores de BusinessWeek en Norteamérica recabó datos de una muestra de 2 861 clientes. El 59% de los encuestados indicó un ingreso anual de $75 000 o más, y
50% informó tener una tarjeta de crédito de American Express.
a) ¿Cuál es la población de interés en este estudio?
b) ¿El ingreso anual es una variable categórica o cuantitativa?
c) ¿La propiedad de una tarjeta American Express es una variable categórica o cuantitativa?
d) ¿Este estudio involucra datos de corte transversal o de series de tiempo?
e) Describa cualquier inferencia estadística que BusinessWeek podría hacer sobre la base de la encuesta.
import numpy as np
# Datos de la encuesta
ingreso_anual = np.array([1, 0, 1, 1, 0, 1, 1, 1, 0, 1])
tarjeta_amex = np.array([1, 1, 0, 0, 1, 0, 1, 1, 1, 1])
# Obtener la proporción de suscriptores con un ingreso anual de $75 000 o más
proporcion_ingreso_alto = np.sum(ingreso_anual) / len(ingreso_anual)
# Obtener la proporción de suscriptores con una tarjeta de crédito de American Express
proporcion_tarjeta_amex = np.sum(tarjeta_amex) / len(tarjeta_amex)
# Imprimir las proporciones
print("Proporción de suscriptores con un ingreso anual de $75 000 o más:", proporcion_ingreso_alto)
print("Proporción de suscriptores con una tarjeta de crédito de American Express:", proporcion_tarjeta_amex)
# Calcular la correlación entre el ingreso anual y la propiedad de una tarjeta American Express
correlacion = np.corrcoef(ingreso_anual, tarjeta_amex)[0, 1]
# Imprimir la correlación
print("Correlación entre el ingreso anual y la propiedad de una tarjeta American Express:", correlacion)
Proporción de suscriptores con un ingreso anual de $75 000 o más: 0.7 Proporción de suscriptores con una tarjeta de crédito de American Express: 0.7 Correlación entre el ingreso anual y la propiedad de una tarjeta American Express: -0.42857142857142844
Ejercicio 20. Una consulta a 131 administradores de inversiones en la encuesta Big Money de Barron reveló lo siguiente:
- 43% de los gerentes se clasificó a sí mismo como a la alza o muy a la alza en el mercado de valores.
- El rendimiento promedio esperado durante los 12 meses siguientes para los valores de renta variable fue 11.2%.
- El 21% seleccionó la asistencia médica como el sector con más probabilidades de dirigir el mercado en los 12 meses siguientes.
- Cuando se les pidió que estimaran cuánto tiempo tardarían las acciones de tecnología y telecomunicaciones en reanudar un crecimiento sostenido, la respuesta promedio de los gerentes fue 2.5 años.
a) Cite dos estadísticas descriptivas.
b) Desarrolle una inferencia sobre la población de todos los administradores de inversiones con respecto al rendimiento promedio esperado sobre los valores de renta variable durante los 12 meses siguientes.
c) Haga una inferencia sobre el tiempo que tardarán las acciones de tecnología y telecomunicaciones en reanudar un crecimiento sostenido
import numpy as np
# Datos de la encuesta
clasificacion_mercado = np.array([1, 1, 1, 1, 1, 1, 0, 0, 0, 0])
rendimiento_esperado = np.array([11.2, 11.2, 11.2, 11.2, 11.2, 11.2, 10.5, 10.5, 10.5, 10.5])
tiempo_recuperacion = np.array([2.5, 2.5, 2.5, 2.5, 2.5, 2.5, 3.25, 3.25, 3.25, 3.25])
# Obtener la proporción de administradores de inversiones que se clasifican a sí mismos como a la alza o muy a la alza
proporcion_alza = np.sum(clasificacion_mercado) / len(clasificacion_mercado)
# Obtener el rendimiento promedio esperado
rendimiento_promedio = np.mean(rendimiento_esperado)
# Obtener el intervalo de confianza para el rendimiento promedio esperado
intervalo_confianza = 1.96 * np.std(rendimiento_esperado) / np.sqrt(len(rendimiento_esperado))
# Imprimir la proporción de administradores de inversiones que se clasifican a sí mismos como a la alza o muy a la alza
print("Proporción de administradores de inversiones a la alza:", proporcion_alza)
# Imprimir el rendimiento promedio esperado
print("Rendimiento promedio esperado:", rendimiento_promedio)
# Imprimir el intervalo de confianza para el rendimiento promedio esperado
print("Intervalo de confianza para el rendimiento promedio esperado:", (rendimiento_promedio - intervalo_confianza, rendimiento_promedio + intervalo_confianza))
# Obtener el tiempo promedio de recuperación
tiempo_promedio = np.mean(tiempo_recuperacion)
# Obtener el intervalo de confianza para el tiempo promedio de recuperación
intervalo_confianza = 1.96 * np.std(tiempo_recuperacion) / np.sqrt(len(tiempo_recuperacion))
# Imprimir el tiempo promedio de recuperación
print("Tiempo promedio de recuperación:", tiempo_promedio)
# Imprimir el intervalo de confianza para el tiempo promedio de recuperación
print("Intervalo de confianza para el tiempo promedio de recuperación:", (tiempo_promedio - intervalo_confianza, tiempo_promedio + intervalo_confianza))
Proporción de administradores de inversiones a la alza: 0.6 Rendimiento promedio esperado: 10.919999999999998 Intervalo de confianza para el rendimiento promedio esperado: (10.707450673960135, 11.132549326039861) Tiempo promedio de recuperación: 2.8 Intervalo de confianza para el tiempo promedio de recuperación: (2.5722685792430036, 3.027731420756996)
Ejercicio 21. Un estudio de investigación médica de siete años reveló que las mujeres cuyas madres tomaron el fármaco DES durante el embarazo, respecto de las mujeres cuyas madres no tomaron el fármaco, tenían el doble de probabilidad de desarrollar anormalidades en el tejido que podrían provocar cáncer.
a) Este estudio involucró la comparación de dos poblaciones. ¿Cuáles fueron éstas?
b) ¿Dónde supone usted que se obtuvieron los datos: en una encuesta o en un experimento?
c) Para la población de mujeres cuyas madres tomaron el fármaco DES durante el embarazo, una muestra de 3 980 mujeres mostró que 63 desarrollaron anormalidades en el tejido que podrían provocar cáncer. Proporcione una estadística descriptiva que podría usarse para estimar el número de mujeres por cada 1000 en esta población que presentan anormalidades en el tejido.
d) Para la población de mujeres cuyas madres no tomaron el fármaco des durante el embarazo, ¿cuál es la estimación del número de mujeres por cada 1000 que esperarían presentar anormalidades en el tejido?
e) Los estudios médicos usan con frecuencia una muestra relativamente grande (en este caso, 3 980). ¿Por qué?
import numpy as np
# Datos del estudio
madre_des = np.array([1] * 3980)
anormalidad = np.array([1] * 63)
# Obtener la tasa de incidencia
tasa_incidencia = np.sum(anormalidad) / len(anormalidad)
# Imprimir la tasa de incidencia
print("Tasa de incidencia:", tasa_incidencia)
# Obtener el intervalo de confianza para la tasa de incidencia
intervalo_confianza = 1.96 * np.sqrt(tasa_incidencia * (1 - tasa_incidencia) / len(anormalidad))
# Imprimir el intervalo de confianza para la tasa de incidencia
print("Intervalo de confianza para la tasa de incidencia:", (tasa_incidencia - intervalo_confianza, tasa_incidencia + intervalo_confianza))
Tasa de incidencia: 1.0 Intervalo de confianza para la tasa de incidencia: (1.0, 1.0)
Ejercicio 22. a firma Nielsen encuestó a consumidores de 47 mercados de Europa, Asia-Pacífico, el continente americano y el Oriente Medio con el propósito de establecer cuáles factores son los más importantes para determinar dónde realizan sus compras. Utilizando una escala de 1 (baja) a 5 (alta), el factor con mayor calificación fue gran valor por su dinero, con una calificación media de 4.32 puntos. El factor que calificó en segundo lugar fue mejor selección de marcas y productos de alta calidad, con una calificación promedio de 3.78 puntos, y el factor con menor
calificación fue utiliza bolsas y empaques reciclables, con una calificación promedio de 2.71 (sitio web de Nielsen, 24 de febrero de 2008). Suponga que una cadena de tiendas de abarrotes lo contrató para que realice un estudio parecido para determinar qué factores consideran los clientes de la cadena en Charlotte, Carolina del Norte, que son los más importantes para determinar dónde efectúan sus compras.
a) ¿Cuál es la población para la encuesta que usted realizará?
b) ¿Cómo recolectará los datos para este estudio?
a) La población para la encuesta sería todos los clientes de la cadena de tiendas en Charlotte, Carolina del Norte. Esto se debe a que el objetivo del estudio es determinar qué factores consideran los clientes de la cadena de tiendas en esa ciudad que son los más importantes para determinar dónde efectúan sus compras.
La población se puede definir como el conjunto de todos los elementos que cumplen con una serie de características específicas. En este caso, la característica específica es ser un cliente de la cadena de tiendas en Charlotte, Carolina del Norte.
Para determinar la población, se debe realizar un censo o una encuesta. Un censo es un recuento completo de la población, mientras que una encuesta es una recopilación de datos de una muestra de la población.
En este caso, se podría realizar una encuesta para determinar la población. La encuesta podría preguntar a los participantes si son clientes de la cadena de tiendas en Charlotte, Carolina del Norte.
Por ejemplo, la encuesta podría tener la siguiente pregunta:
¿Es usted cliente de la cadena de tiendas [nombre de la cadena] en Charlotte, Carolina del Norte?
Los participantes podrían responder la pregunta con un simple "sí" o "no".
b) Hay varias maneras de recolectar datos para este estudio. Una opción sería realizar una encuesta en línea. Esto sería una forma eficiente de llegar a un gran número de personas. Otra opción sería realizar entrevistas en persona. Esto permitiría a los investigadores obtener una comprensión más profunda de las opiniones de los clientes.
Encuesta en línea
Si se elige realizar una encuesta en línea, se debe diseñar una encuesta que sea clara y concisa. La encuesta debe incluir una variedad de preguntas para que los investigadores puedan obtener una comprensión completa de los factores que son importantes para los clientes.
Las preguntas de la encuesta deben ser redactadas de manera clara y concisa para que sean fáciles de entender. Las preguntas deben ser relevantes para el objetivo del estudio y deben cubrir una variedad de factores que son importantes para los clientes.
La encuesta debe incluir una variedad de opciones de respuesta para que los participantes puedan expresar sus opiniones con precisión. Las opciones de respuesta deben ser mutuamente excluyentes para que los participantes no puedan seleccionar más de una opción.
Por ejemplo, la encuesta podría incluir las siguientes preguntas:
Factores más importantes
¿Cuál es el factor más importante para usted al elegir una tienda de abarrotes?
- Precio
- Selección de productos
- Ubicación de la tienda
- Servicio al cliente
Las opciones de respuesta para esta pregunta podrían ser:
- Precio (1)
- Selección de productos (2)
- Ubicación de la tienda (3)
- Servicio al cliente (4)
Entrevistas en persona
Si se elige realizar entrevistas en persona, se debe seleccionar una muestra representativa de clientes. Los investigadores deben preparar preguntas que sean abiertas y que permitan a los clientes expresar sus opiniones con libertad.
Las preguntas de las entrevistas deben ser redactadas de manera abierta para que los participantes puedan expresar sus opiniones con sus propias palabras. Las preguntas deben ser relevantes para el objetivo del estudio y deben cubrir una variedad de factores que son importantes para los clientes.
Por ejemplo, la entrevista podría incluir las siguientes preguntas:
Factores más importantes
¿Qué factores son los más importantes para usted al elegir una tienda de abarrotes?
Los participantes podrían responder esta pregunta con sus propias palabras.
Los investigadores deben preparar un guión para las entrevistas para asegurarse de que cubren todos los temas relevantes. Los investigadores deben practicar las entrevistas antes de realizarlas para asegurarse de que pueden realizarlas de manera fluida y profesional.
Ejercicio 23. Nielsen Media Research efectúa encuestas semanales de los programas de televisión que se ven en todo Estados Unidos, y publica datos tanto de la audiencia como de la participación de mercado. El índice de audiencia de Nielsen es el porcentaje de familias con televisión que ve un programa, mientras que la participación de mercado es el porcentaje de familias que ve un programa entre aquellas con televisión en uso. Por ejemplo, los resultados de Nielsen Media Research para la Serie Mundial de Beisbol de 2003 entre los Yankees de Nueva York y los Marlins de Florida reportó una audiencia de 12.8% y una participación de 22% (Associated Press, 27 de octubre de 2003). Por tanto, 12.8% de las familias con televisión y 22% de las familias con televisión en uso vieron la Serie Mundial. Con base en la audiencia y la información de participación de los programas más importantes, Nielsen publica una calificación semanal tanto de programas de televisión como de las cuatro cadenas principales: ABC, CBS, NBC y Fox.
a) ¿Qué intenta medir Nielsen Media Research?
b) ¿Cuál es la población?
c) ¿Por qué se usaría una muestra en esta situación?
d) ¿Qué tipos de decisiones o acciones se basan en las calificaciones de Nielsen?
import numpy as np
# Definir la población
poblacion = np.array([1, 1, 1, 1, 1, 1, 0, 0, 0, 0])
# Definir la muestra
muestra = np.array([1, 1, 1, 0, 0, 0])
# Obtener la audiencia de la muestra
audiencia_muestra = np.sum(muestra) / len(muestra)
# Obtener la participación de mercado de la muestra
participacion_mercado_muestra = audiencia_muestra / np.sum(poblacion)
# Imprimir los resultados
print("Audiencia de la muestra:", audiencia_muestra)
print("Participación de mercado de la muestra:", participacion_mercado_muestra)
Audiencia de la muestra: 0.5 Participación de mercado de la muestra: 0.08333333333333333
Ejercicio 24. Una muestra de las calificaciones obtenidas en los exámenes parciales de cinco estudiantes mostró los resultados siguientes: 72, 65, 82, 90 y 76. ¿Cuáles de los enunciados listados enseguida son correctos y cuáles deben considerarse demasiado generalizados?
a) La calificación promedio de los exámenes parciales para la muestra de cinco estudiantes es 77.
b) La calificación promedio de los exámenes parciales para los cinco estudiantes que presentaron el examen es 77.
c) Una estimación de la calificación promedio de los exámenes parciales para todos los estudiantes que presentaron el examen es 77
d) Más de la mitad de los estudiantes que presentaron este examen obtendrá una calificación de entre 70 y 85.
e) Si otros cinco estudiantes se incluyen en la muestra, obtendrán calificaciones de entre 65 y 90.
import numpy as np
# A)
calificaciones = np.array([72, 65, 82, 90, 76])
# Obtener la calificación promedio de la muestra
calificacion_promedio = np.mean(calificaciones)
# Imprimir la calificación promedio de la muestra
print("Calificación promedio de la muestra:", calificacion_promedio)
# B)
calificaciones = np.array([72, 65, 82, 90, 76])
# Obtener el tamaño de la muestra
tamaño_muestra = len(calificaciones)
# Imprimir el tamaño de la muestra
print("Tamaño de la muestra:", tamaño_muestra)
# C)
calificaciones = np.array([72, 65, 82, 90, 76])
# Obtener la distribución de las calificaciones
distribucion_calificaciones = np.histogram(calificaciones)
# Imprimir la distribución de las calificaciones
print(distribucion_calificaciones)
# D)
calificaciones = np.array([72, 65, 82, 90, 76])
# Generar cinco calificaciones adicionales
calificaciones_adicionales = np.random.randint(65, 91, size=5)
# Imprimir las calificaciones adicionales
print(calificaciones_adicionales)
Calificación promedio de la muestra: 77.0 Tamaño de la muestra: 5 (array([1, 0, 1, 0, 1, 0, 1, 0, 0, 1], dtype=int64), array([65. , 67.5, 70. , 72.5, 75. , 77.5, 80. , 82.5, 85. , 87.5, 90. ])) [66 78 69 86 69]