Comparar muestras: medidas de tendencia central y de dispersión
Las medidas de tendencia central (media, mediana, moda) dan un valor "típico", pero no dicen qué tan juntos o separados están los datos. Para eso están las medidas de dispersión:
- Rango: la diferencia entre el dato mayor y el menor, $\text{rango} = x_{\max} - x_{\min}$. Es la más simple, pero solo mira los dos extremos.
- Varianza ($\sigma^2$): el promedio de los cuadrados de las distancias de cada dato a la media: $\sigma^2 = \dfrac{\sum (x_i - \bar{x})^2}{n}$. Como eleva al cuadrado, queda en "unidades al cuadrado" (pesos², cm²), poco intuitiva.
- Desviación estándar ($\sigma$): la raíz de la varianza, $\sigma = \sqrt{\sigma^2}$. Vuelve a las unidades originales y se interpreta como "cuánto se aleja en promedio un dato de la media". Es la reina de la dispersión.
Clave para comparar muestras: a igual media, mayor $\sigma$ significa datos más dispersos (disparejos); menor $\sigma$, datos más concentrados (parejos, homogéneos).
Calcular la desviación estándar, paso a paso
Notas de cinco evaluaciones: $2,\;4,\;6,\;8,\;10$. Calculemos la dispersión.
- Paso 1. La media. $\bar{x} = \dfrac{2+4+6+8+10}{5} = \dfrac{30}{5} = 6$.
- Paso 2. Las distancias a la media, al cuadrado. $(2-6)^2=16$, $(4-6)^2=4$, $(6-6)^2=0$, $(8-6)^2=4$, $(10-6)^2=16$.
- Paso 3. La varianza (promedio de esos cuadrados): $\sigma^2 = \dfrac{16+4+0+4+16}{5} = \dfrac{40}{5} = 8$.
- Paso 4. La desviación estándar (raíz de la varianza): $\sigma = \sqrt{8} \approx 2{,}83$.
El rango, en cambio, es $10 - 2 = 8$. La desviación estándar ($2{,}83$) dice que, en promedio, las notas se alejan unos $2{,}8$ puntos de la media $6$.
Dar como "desviación estándar" el valor de la varianza (o al revés). Recuerda: la varianza está al cuadrado (unidades²) y casi siempre es un número mayor; la desviación estándar es su raíz y queda en las unidades originales. En el ejemplo, varianza $= 8$ pero $\sigma = \sqrt{8} \approx 2{,}83$. Si el problema pide la dispersión "en las mismas unidades que los datos", es la desviación estándar.
- A) La afirmación es correcta: con la misma media, ambos conjuntos de datos son estadísticamente equivalentes.
- B) La objeción debe basarse en la moda, que es distinta en cada curso y por eso los rendimientos difieren.
- C) No se puede comparar, porque para hablar de dispersión se necesita conocer también la mediana de cada curso.
- D) La media oculta la dispersión: el 3°B tiene una desviación estándar mucho mayor, con notas extremas, mientras el 3°A es homogéneo.
- A) Entregó la varianza en lugar de la desviación estándar; debió sacarle raíz: $\sqrt{2{,}67} \approx 1{,}63$.
- B) Ninguno: $\frac{8}{3}$ es efectivamente la desviación estándar de esos tres datos.
- C) Debió dividir por $n-1 = 2$ y entregar $\frac{8}{2} = 4$ como desviación estándar.
- D) El error es usar la media; la dispersión se calcula respecto de la mediana, no del promedio.