Datos y azar · Dossier ECEP Media Matemática - Francisco Javier Núñez Valenzuela

Datos y azar: medidas estadísticas y modelos de probabilidad, hasta la distribución normal.

Subdominio 4.1 · Estadística

Comparar, ubicar y describir con variables aleatorias

En la media, la estadística deja de "resumir un solo conjunto" para comparar dos o más: dos cursos pueden tener la misma media y ser muy distintos si uno es parejo y el otro disparejo. Por eso aparecen las medidas de dispersión (rango, varianza, desviación estándar), que cuentan la otra mitad de la historia, y las de posición (cuartiles, percentiles), que ubican un dato dentro del conjunto. Al final, el subdominio prepara el lenguaje de las variables aleatorias, con el que se interpretan las probabilidades en 4.2. Cada tarjeta trae al menos un desarrollo paso a paso, porque la prueba premia el procedimiento, no solo el resultado.

4.1

Comparar muestras: medidas de tendencia central y de dispersión

Desde cero

Las medidas de tendencia central (media, mediana, moda) dan un valor "típico", pero no dicen qué tan juntos o separados están los datos. Para eso están las medidas de dispersión:

Rango: la diferencia entre el dato mayor y el menor, $\text{rango} = x_{\max} - x_{\min}$. Es la más simple, pero solo mira los dos extremos.
Varianza ($\sigma^2$): el promedio de los cuadrados de las distancias de cada dato a la media: $\sigma^2 = \dfrac{\sum (x_i - \bar{x})^2}{n}$. Como eleva al cuadrado, queda en "unidades al cuadrado" (pesos², cm²), poco intuitiva.
Desviación estándar ($\sigma$): la raíz de la varianza, $\sigma = \sqrt{\sigma^2}$. Vuelve a las unidades originales y se interpreta como "cuánto se aleja en promedio un dato de la media". Es la reina de la dispersión.

Clave para comparar muestras: a igual media, mayor $\sigma$ significa datos más dispersos (disparejos); menor $\sigma$, datos más concentrados (parejos, homogéneos).

Figura 1. Dos muestras con la misma media ($5$) y muy distinta dispersión: A está concentrada ($\sigma \approx 0{,}6$) y B está estirada ($\sigma = 2$). La tendencia central por sí sola no las distingue; la desviación estándar sí.

Calcular la desviación estándar, paso a paso

Ejemplo resuelto: varianza y desviación estándar

Notas de cinco evaluaciones: $2,\;4,\;6,\;8,\;10$. Calculemos la dispersión.

Paso 1. La media. $\bar{x} = \dfrac{2+4+6+8+10}{5} = \dfrac{30}{5} = 6$.
Paso 2. Las distancias a la media, al cuadrado. $(2-6)^2=16$, $(4-6)^2=4$, $(6-6)^2=0$, $(8-6)^2=4$, $(10-6)^2=16$.
Paso 3. La varianza (promedio de esos cuadrados): $\sigma^2 = \dfrac{16+4+0+4+16}{5} = \dfrac{40}{5} = 8$.
Paso 4. La desviación estándar (raíz de la varianza): $\sigma = \sqrt{8} \approx 2{,}83$.

El rango, en cambio, es $10 - 2 = 8$. La desviación estándar ($2{,}83$) dice que, en promedio, las notas se alejan unos $2{,}8$ puntos de la media $6$.

Error típico: confundir varianza con desviación estándar

Dar como "desviación estándar" el valor de la varianza (o al revés). Recuerda: la varianza está al cuadrado (unidades²) y casi siempre es un número mayor; la desviación estándar es su raíz y queda en las unidades originales. En el ejemplo, varianza $= 8$ pero $\sigma = \sqrt{8} \approx 2{,}83$. Si el problema pide la dispersión "en las mismas unidades que los datos", es la desviación estándar.

Auto-chequeo Datos: $3,\;5,\;7$. Calcula media, varianza y desviación estándar.

Media $= \frac{3+5+7}{3} = 5$. Distancias al cuadrado: $(3-5)^2=4$, $(5-5)^2=0$, $(7-5)^2=4$. Varianza $= \frac{4+0+4}{3} = \frac{8}{3} \approx 2{,}67$. Desviación estándar $= \sqrt{2{,}67} \approx 1{,}63$. El rango sería $7-3 = 4$.

Auto-chequeo Dos cursos tienen media $5{,}0$ en una prueba. El curso A tiene $\sigma = 0{,}4$ y el curso B, $\sigma = 1{,}8$. ¿Cuál curso es más parejo?

El curso A. A igual media, una menor desviación estándar significa que las notas están más concentradas en torno al $5{,}0$ (curso homogéneo). En B, $\sigma = 1{,}8$ indica notas más dispersas: hay estudiantes bastante por encima y por debajo del promedio.

Pregunta tipo ECEP

Dos terceros medios rinden la misma prueba y ambos obtienen un promedio de $5{,}0$. En el 3°A las notas son $4{,}8;\;5{,}0;\;5{,}0;\;5{,}2$ y en el 3°B son $2{,}5;\;5{,}0;\;5{,}0;\;7{,}5$. Una docente afirma: "como tienen el mismo promedio, los dos cursos rindieron igual". ¿Qué objeción estadística es correcta?

A) La afirmación es correcta: con la misma media, ambos conjuntos de datos son estadísticamente equivalentes.
B) La objeción debe basarse en la moda, que es distinta en cada curso y por eso los rendimientos difieren.
C) No se puede comparar, porque para hablar de dispersión se necesita conocer también la mediana de cada curso.
D) La media oculta la dispersión: el 3°B tiene una desviación estándar mucho mayor, con notas extremas, mientras el 3°A es homogéneo.

Correcta: D. La media es idéntica, pero el 3°A está muy concentrado (notas casi iguales, $\sigma$ pequeña) y el 3°B está disperso (un $2{,}5$ y un $7{,}5$ tiran de los extremos, $\sigma$ grande): las medidas de dispersión revelan que no rindieron igual. A ignora justamente eso. B apela a la moda, que no mide dispersión (y aquí la moda es $5{,}0$ en ambos). C es falsa: con la desviación estándar (o el rango) ya se compara la dispersión.

Pregunta tipo ECEP

Un estudiante calcula la dispersión de las temperaturas $18,\;20,\;22$ (en °C) y entrega como resultado "la desviación estándar es $\dfrac{8}{3} \approx 2{,}67$". ¿Qué error cometió?

A) Entregó la varianza en lugar de la desviación estándar; debió sacarle raíz: $\sqrt{2{,}67} \approx 1{,}63$.
B) Ninguno: $\frac{8}{3}$ es efectivamente la desviación estándar de esos tres datos.
C) Debió dividir por $n-1 = 2$ y entregar $\frac{8}{2} = 4$ como desviación estándar.
D) El error es usar la media; la dispersión se calcula respecto de la mediana, no del promedio.

Correcta: A. Con media $20$, las distancias al cuadrado son $(18-20)^2=4$, $0$, $(22-20)^2=4$, así que la varianza es $\frac{4+0+4}{3} = \frac{8}{3} \approx 2{,}67$. Pero eso está en °C²: la desviación estándar es su raíz, $\sqrt{2{,}67} \approx 1{,}63$ °C. El estudiante confundió varianza con desviación. B acepta el error. C introduce la varianza muestral ($n-1$), que no corrige el problema de fondo (igual faltaría la raíz). D es falsa: varianza y $\sigma$ se definen respecto de la media.

4.1

Medidas de posición: cuartiles y percentiles

Desde cero

Las medidas de posición dividen un conjunto ordenado en partes iguales para ubicar dónde "cae" un dato:

Cuartiles: parten los datos en cuatro grupos del $25\%$ cada uno. $Q_1$ deja por debajo el $25\%$ de los datos; $Q_2$ es la mediana (el $50\%$); $Q_3$ deja por debajo el $75\%$.
Percentiles: parten los datos en cien grupos del $1\%$. El percentil $P_{k}$ deja por debajo el $k\%$ de los datos. Así, $P_{25}=Q_1$, $P_{50}=Q_2$ y $P_{75}=Q_3$.

El rango intercuartílico $\text{RIC} = Q_3 - Q_1$ contiene al $50\%$ central de los datos: una medida de dispersión que ignora los extremos. Todo esto se visualiza con un diagrama de caja (box-plot).

Figura 2. El diagrama de caja resume cinco números: mínimo, $Q_1$, mediana ($Q_2$), $Q_3$ y máximo. La caja contiene el $50\%$ central de los datos; cada tramo (bigote o mitad de caja) reúne aproximadamente un $25\%$.

Ejemplo resuelto: hallar los cuartiles

Datos ya ordenados ($11$ valores): $4,\;6,\;7,\;9,\;10,\;12,\;14,\;15,\;17,\;19,\;20$.

$Q_2$ (mediana). Con $11$ datos, el central es el sexto: $Q_2 = 12$. Deja $5$ datos a cada lado.
$Q_1$. Es la mediana de la mitad inferior $\{4,6,7,9,10\}$: el central es $7$. Entonces $Q_1 = 7$.
$Q_3$. Es la mediana de la mitad superior $\{14,15,17,19,20\}$: el central es $17$. Entonces $Q_3 = 17$.

El rango intercuartílico es $\text{RIC} = Q_3 - Q_1 = 17 - 7 = 10$: el $50\%$ central de los datos está entre $7$ y $17$. Un dato en $Q_3 = 17$ supera al $75\%$ del grupo.

Leer un percentil sin calcularlo

En la prueba muchas veces el percentil viene dado y solo hay que interpretarlo. Si un niño está en el percentil $80$ de estatura, significa que es más alto que el $80\%$ de los niños de su edad (y más bajo que el $20\%$ restante). Cuidado: el percentil $80$ no es "el $80\%$ de la estatura" ni "le falta un $80\%$ por crecer": es una posición relativa dentro del grupo.

Auto-chequeo Datos ordenados: $3,\;5,\;6,\;8,\;9,\;11,\;14$. Halla $Q_1$, $Q_2$ y $Q_3$.

$Q_2$ (mediana, $7$ datos, el cuarto) $= 8$. Mitad inferior $\{3,5,6\}$: $Q_1 = 5$. Mitad superior $\{9,11,14\}$: $Q_3 = 11$. El $\text{RIC} = 11 - 5 = 6$ contiene la mitad central de los datos.

Auto-chequeo En una prueba estandarizada, Ana quedó en el percentil $95$. ¿Qué significa exactamente?

Que Ana superó al $95\%$ de quienes rindieron la prueba (solo un $5\%$ obtuvo un puntaje mayor o igual al de ella). No significa que respondió el $95\%$ de las preguntas bien: es su posición respecto del resto, no su porcentaje de logro.

Pregunta tipo ECEP

Un control de salud informa que un niño de $4$ años está en el percentil $25$ de peso para su edad. Sus padres concluyen que "pesa el $25\%$ de lo normal y está gravemente desnutrido". ¿Qué interpretación del percentil $25$ es la correcta?

A) Significa que su peso equivale al $25\%$ del peso ideal de un niño de su edad.
B) Significa que el $25\%$ de los niños de su edad pesa más que él, y el $75\%$ pesa menos.
C) Significa que el $25\%$ de los niños de su edad pesa igual o menos que él, y el $75\%$ pesa más.
D) Significa que le falta un $75\%$ de peso para alcanzar lo esperado a su edad.

Correcta: C. El percentil $25$ es una posición relativa: el $25\%$ de los niños de su edad pesa igual o menos que él y el $75\%$ pesa más. Es un peso bajo dentro del rango normal, no una "desnutrición grave" automática. A y D cometen el error de leer el percentil como "porcentaje del peso" o "lo que le falta". B invierte la relación (confunde quién está por encima y por debajo).

Pregunta tipo ECEP

Para los datos ordenados $4,\;6,\;7,\;9,\;10,\;12,\;14,\;15,\;17,\;19,\;20$, un estudiante debe construir el diagrama de caja. Afirma que "$Q_1 = 9$ porque es el cuarto dato y $Q_3 = 15$ porque es el octavo". ¿Cuál es la corrección correcta?

A) Tiene razón: $Q_1$ y $Q_3$ son siempre el cuarto y el octavo dato de la lista.
B) $Q_1$ es la mediana de la mitad inferior $\{4,6,7,9,10\}$, que es $7$, y $Q_3$ la de la superior $\{14,15,17,19,20\}$, que es $17$.
C) $Q_1 = 4$ y $Q_3 = 20$, porque los cuartiles extremos son el mínimo y el máximo del conjunto.
D) No se pueden calcular cuartiles con $11$ datos, porque $11$ no es divisible por $4$.

Correcta: B. Con $11$ datos, $Q_2 = 12$ es el sexto. $Q_1$ es la mediana de la mitad inferior $\{4,6,7,9,10\}$, es decir $7$, y $Q_3$ la de la mitad superior $\{14,15,17,19,20\}$, es decir $17$. A usa una "posición fija" que no corresponde. C confunde los cuartiles con los extremos (esos son mínimo y máximo, los bigotes). D es falsa: los cuartiles se obtienen partiendo el orden en mitades, no exige divisibilidad por $4$.

4.1

Interpretar probabilidades con el lenguaje de las variables aleatorias

Desde cero

Una variable aleatoria ($X$) es una función que asigna un número a cada resultado de un experimento aleatorio. En lugar de hablar de "salió cara, cara, sello", contamos: $X = $ "número de caras". El lenguaje de variables aleatorias permite escribir preguntas de probabilidad de forma compacta:

$P(X = 2)$: probabilidad de que la variable tome exactamente el valor $2$.
$P(X \leq 2)$: probabilidad de que sea $2$ o menos (acumulada).
$P(X \geq 1)$: probabilidad de que sea $1$ o más.

Hay dos tipos: discretas (toman valores aislados: $0, 1, 2, \dots$; número de caras, de goles) y continuas (toman cualquier valor de un intervalo: estatura, tiempo, peso). Para las continuas, la probabilidad de un valor exacto es $0$; siempre se mide sobre un intervalo (área bajo una curva, como veremos en la normal).

Figura 3. Una variable aleatoria discreta toma valores aislados que se cuentan ($0, 1, 2, 3$); una continua puede tomar cualquier valor de un intervalo, y su probabilidad se mide sobre tramos, no sobre un punto.

Ejemplo resuelto: traducir al lenguaje de $X$

Se lanza una moneda $3$ veces y $X$ cuenta el número de caras. Los valores posibles son $X \in \{0,1,2,3\}$. Traducimos enunciados:

"Salieron exactamente dos caras" $\to P(X=2)$.
"Salió al menos una cara" $\to P(X \geq 1)$, que conviene calcular como $1 - P(X=0)$.
"Salieron a lo más dos caras" $\to P(X \leq 2) = P(X=0)+P(X=1)+P(X=2)$.

El idioma de las variables aleatorias convierte frases en castellano en expresiones que luego se calculan con Laplace, la binomial o la normal.

Error típico: tratar una continua como discreta

Preguntar "¿cuál es la probabilidad de que una persona mida exactamente $170{,}000\dots$ cm?". En una variable continua esa probabilidad es $0$: hay infinitos valores posibles. La pregunta con sentido es por un intervalo: "¿probabilidad de medir entre $168$ y $172$ cm?". Por eso, en la normal, las probabilidades son áreas bajo la curva, nunca la altura en un punto.

Auto-chequeo Clasifica como discreta o continua: (a) número de hermanos; (b) duración de una llamada; (c) cantidad de autos que pasan en una hora; (d) temperatura del agua.

Discretas (se cuentan, valores aislados): (a) número de hermanos y (c) cantidad de autos. Continuas (se miden, cualquier valor de un intervalo): (b) duración de la llamada y (d) temperatura del agua. La pista: si "se cuenta" es discreta; si "se mide con regla, reloj o termómetro", es continua.

Pregunta tipo ECEP

Una docente pide a su curso traducir al lenguaje de la variable aleatoria $X = $ "número de aciertos en una prueba de $5$ preguntas" la frase: "el estudiante respondió correctamente al menos $3$ preguntas". ¿Cuál es la expresión correcta?

A) $P(X = 3)$, porque "al menos $3$" indica exactamente tres aciertos.
B) $P(X \leq 3)$, porque considera los casos con $3$ aciertos o menos.
C) $P(X \geq 3) = P(X=3) + P(X=4) + P(X=5)$, porque "al menos $3$" incluye $3$ o más.
D) $P(X = 5)$, porque para responder bien hay que acertar todas.

Correcta: C. "Al menos $3$" significa $3$ o más: $P(X \geq 3)$, que con $5$ preguntas equivale a $P(X=3)+P(X=4)+P(X=5)$. A confunde "al menos $3$" con "exactamente $3$". B ($X \leq 3$) es "a lo más $3$", lo contrario del enunciado. D ($X=5$) sería "todas correctas", un solo caso de los varios que cumplen "al menos $3$".

Subdominio 4.2 · Probabilidad

De contar casos a modelar distribuciones

La probabilidad en la media va más allá de "favorables sobre posibles". Primero se relaciona la probabilidad teórica (la que se calcula) con la empírica (la que se observa al repetir). Luego se describe el azar con la función de probabilidad de una variable discreta, se afinan el modelo de Laplace y la probabilidad condicionada (sucesos dependientes e independientes), y se llega a dos grandes modelos: la distribución binomial (cuentas de éxitos en $n$ intentos) y la distribución normal (la campana de Gauss). Saber cuál modelo aplica es tan importante como saber calcular. Todo paso a paso, sin calculadora.

4.2

Distribución teórica vs. distribución empírica

Desde cero

Hay dos maneras de hablar de la probabilidad de los resultados de un experimento:

Distribución teórica: la que se calcula a priori, suponiendo el modelo (un dado equilibrado: cada cara con probabilidad $\frac{1}{6}$). No hace falta lanzar nada.
Distribución empírica: la que se obtiene experimentando, anotando las frecuencias relativas observadas al repetir muchas veces (lanzo el dado $600$ veces y veo qué proporción cayó en cada cara).

La ley de los grandes números las conecta: a medida que se repite más el experimento, la distribución empírica se acerca a la teórica. Con pocas repeticiones, ambas pueden diferir bastante (azar de la muestra); con muchas, casi coinciden.

Figura 4. Al lanzar un dado, la frecuencia relativa de una cara (curva azul) oscila mucho con pocos lanzamientos, pero a medida que aumentan se estabiliza en torno al valor teórico $\frac{1}{6} \approx 0{,}167$ (ley de los grandes números).

Ejemplo resuelto: comparar teórica y empírica

Un dado se lanza $600$ veces. Teóricamente, cada cara debería salir $\frac{1}{6}$ de las veces, es decir, $\frac{600}{6} = 100$ veces. Al experimentar se obtiene la cara $4$ en $88$ ocasiones.

Probabilidad teórica de la cara $4$: $\frac{1}{6} \approx 0{,}167$.
Probabilidad empírica (frecuencia relativa observada): $\frac{88}{600} \approx 0{,}147$.

No coinciden exactamente, y está bien: es la variación propia del azar. La diferencia ($0{,}167$ vs. $0{,}147$) no prueba que el dado esté cargado; con $600$ lanzamientos esa pequeña brecha es esperable. Con $60\,000$ lanzamientos, la empírica se pegaría aún más a $0{,}167$.

Error típico: esperar coincidencia exacta

Creer que, como la probabilidad teórica de cara es $\frac{1}{2}$, al lanzar una moneda $10$ veces "tienen que" salir exactamente $5$ caras. La teórica es el valor al que tiende la empírica en el largo plazo, no una garantía para pocas repeticiones. Salir $7$ caras en $10$ tiros es perfectamente normal; no significa que la moneda esté trucada.

Auto-chequeo Se lanza una moneda equilibrada $200$ veces y salen $108$ caras. ¿Cuál es la probabilidad teórica y cuál la empírica de "cara"?

Teórica: $\frac{1}{2} = 0{,}5$ (moneda equilibrada, calculada a priori). Empírica: $\frac{108}{200} = 0{,}54$ (frecuencia relativa observada). Son cercanas; la pequeña diferencia es azar de la muestra. Con más lanzamientos, la empírica se acercaría más a $0{,}5$.

Pregunta tipo ECEP

Un curso lanza una chinche $30$ veces y obtiene "punta arriba" en $21$ ocasiones, por lo que un estudiante concluye: "la probabilidad teórica de punta arriba es $\frac{21}{30} = 0{,}7$". ¿Qué precisión conceptual corresponde hacer?

A) El valor $0{,}7$ es la probabilidad empírica (frecuencia relativa observada), no la teórica; la teórica no se conoce de antemano para una chinche.
B) El estudiante tiene razón: $0{,}7$ es la probabilidad teórica, porque se obtuvo de un experimento.
C) La probabilidad teórica de la chinche es siempre $\frac{1}{2}$, como en una moneda, así que el cálculo está mal.
D) El valor $0{,}7$ es incorrecto porque una probabilidad no puede calcularse con solo $30$ repeticiones.

Correcta: A. $\frac{21}{30} = 0{,}7$ es una frecuencia relativa, es decir, la probabilidad empírica estimada del experimento. La teórica de una chinche no se puede deducir a priori (su geometría es irregular): solo se estima experimentando. B confunde empírica con teórica. C inventa un $\frac{1}{2}$ que no aplica (la chinche no tiene dos caras simétricas). D es falsa: con $30$ tiros sí se estima, aunque con menos precisión que con más repeticiones.

4.2

La función de probabilidad de una variable aleatoria discreta

Desde cero

La función de probabilidad de una variable discreta $X$ es la tabla (o regla) que asigna a cada valor posible su probabilidad $P(X=x)$. Para que sea válida, debe cumplir dos condiciones:

Cada probabilidad está entre $0$ y $1$: $0 \leq P(X=x) \leq 1$.
La suma de todas las probabilidades es $1$: $\sum P(X=x) = 1$ (algún resultado tiene que ocurrir).

Con la función completa se responde cualquier pregunta: $P(X=2)$ es directo, y $P(X \geq 1) = 1 - P(X=0)$ usa que el total es $1$ (complemento).

Figura 5. Función de probabilidad de $X = $ "número de caras en $2$ lanzamientos": $P(X{=}0)=\frac{1}{4}$, $P(X{=}1)=\frac{1}{2}$, $P(X{=}2)=\frac{1}{4}$. Las alturas (probabilidades) suman $1$, requisito de toda función de probabilidad.

Ejemplo resuelto: construir la función

Se lanzan dos monedas. $X = $ número de caras. El espacio muestral es $\{$CC, CS, SC, SS$\}$, $4$ casos igualmente posibles.

$X=0$ (ninguna cara): solo SS $\to P(X=0) = \frac{1}{4}$.
$X=1$ (una cara): CS y SC $\to P(X=1) = \frac{2}{4} = \frac{1}{2}$.
$X=2$ (dos caras): solo CC $\to P(X=2) = \frac{1}{4}$.

Verificación: $\frac{1}{4} + \frac{1}{2} + \frac{1}{4} = 1$. ✓ Ahora cualquier pregunta es directa: $P(X \geq 1) = 1 - P(X=0) = 1 - \frac{1}{4} = \frac{3}{4}$.

Hallar una probabilidad que falta

Si una función de probabilidad tiene una casilla incógnita, se usa que todo suma $1$. Por ejemplo, si $P(X{=}0)=0{,}2$, $P(X{=}1)=0{,}5$ y $P(X{=}2)=p$, entonces $0{,}2 + 0{,}5 + p = 1$, de donde $p = 0{,}3$. Este "completar para llegar a $1$" es una pregunta clásica de la prueba.

Auto-chequeo Una variable $X$ tiene $P(X{=}1)=0{,}3$, $P(X{=}2)=0{,}45$ y $P(X{=}3)=p$. ¿Cuánto vale $p$ y por qué?

Como las probabilidades deben sumar $1$: $0{,}3 + 0{,}45 + p = 1$, entonces $p = 1 - 0{,}75 = 0{,}25$. Toda función de probabilidad reparte exactamente una unidad de "certeza" entre los valores posibles.

Pregunta tipo ECEP

Se propone como función de probabilidad de una variable $X$ la siguiente tabla: $P(X{=}0)=0{,}3$, $P(X{=}1)=0{,}5$, $P(X{=}2)=0{,}4$. Un estudiante la da por válida. ¿Qué objeción corresponde?

A) Es válida, porque cada probabilidad individual está entre $0$ y $1$.
B) No es válida porque falta el valor $X{=}3$ en la tabla.
C) No es válida: las probabilidades suman $0{,}3+0{,}5+0{,}4 = 1{,}2 > 1$, y deben sumar exactamente $1$.
D) Es válida si se interpreta $P(X{=}1)=0{,}5$ como la mediana de la distribución.

Correcta: C. Una función de probabilidad exige que la suma total sea $1$; aquí $0{,}3+0{,}5+0{,}4 = 1{,}2$, que excede $1$, así que no puede ser una distribución válida. A revisa solo una condición (cada valor en $[0,1]$) e ignora la otra. B inventa una exigencia: la tabla puede tener solo los valores que la variable toma. D confunde una probabilidad con una medida de posición.

4.2

Modelo de Laplace: calcular, inferir y refutar conjeturas

Desde cero

Cuando todos los resultados son igualmente posibles, el modelo de Laplace calcula la probabilidad contando:

$$P(A) = \frac{\text{casos favorables}}{\text{casos posibles}}.$$

En la media, Laplace no solo sirve para "sacar un número": se usa para inferir y verificar o refutar conjeturas. Si alguien afirma "este juego es justo" o "el dado está cargado", se calcula la probabilidad teórica bajo el supuesto de equiprobabilidad y se contrasta con lo observado. Si lo observado se aleja mucho de lo teórico (y hay muchas repeticiones), la conjetura de equiprobabilidad se refuta.

Figura 6. Diagrama de Venn de dos sucesos: la unión (A o B), la intersección (A y B a la vez) y el complemento (no A). La regla de la suma resta la intersección para no contarla dos veces: P(A∪B) = P(A) + P(B) − P(A∩B).

Ejemplo resuelto: verificar si un juego es justo

Se lanzan dos dados y se suman. Un juego dice: "ganas si la suma es $7$; pierdes si es $2$". ¿Es justo (igual chance de ganar y perder)?

Casos posibles: por el principio multiplicativo, $6 \times 6 = 36$ resultados igualmente posibles.
Suma $7$: $(1,6),(2,5),(3,4),(4,3),(5,2),(6,1)$ son $6$ casos $\to P(7) = \frac{6}{36} = \frac{1}{6}$.
Suma $2$: solo $(1,1)$, $1$ caso $\to P(2) = \frac{1}{36}$.

Conclusión: $P(7) = \frac{6}{36}$ es seis veces mayor que $P(2) = \frac{1}{36}$. El juego no es justo: ganar es mucho más probable que perder. Así Laplace refuta la conjetura "es parejo".

Error típico: aplicar Laplace cuando los casos NO son equiprobables

Al sumar dos dados, creer que las sumas $2, 3, \dots, 12$ son todas igualmente probables y dar $P(\text{suma}) = \frac{1}{11}$. Falso: las sumas no son equiprobables (hay una sola forma de obtener $2$, pero seis de obtener $7$). El truco es contar sobre los $36$ pares igualmente posibles, no sobre las $11$ sumas. Antes de usar Laplace: "¿son estos casos igualmente posibles?".

Auto-chequeo Se lanzan dos dados. ¿Cuál es la probabilidad de que la suma sea $5$?

Casos posibles: $36$. Suma $5$: $(1,4),(2,3),(3,2),(4,1)$, son $4$. $P(5) = \frac{4}{36} = \frac{1}{9}$. Hay que contar los pares ordenados, no suponer que cada suma vale $\frac{1}{11}$.

Auto-chequeo En una caja hay $5$ fichas numeradas del $1$ al $5$. Se saca una. ¿Probabilidad de que sea un número primo?

Primos entre $1$ y $5$: $2, 3, 5$ (el $1$ no es primo), son $3$ favorables. Posibles: $5$. $P(\text{primo}) = \frac{3}{5} = 0{,}6$. Las fichas son igualmente posibles, así que Laplace aplica directamente.

Pregunta tipo ECEP

Una docente propone a su curso un juego: se lanzan dos dados y se suman; un equipo gana si la suma es $7$ y el otro si la suma es $11$. Antes de jugar, pide conjeturar si el juego es justo. ¿Qué análisis con el modelo de Laplace permite decidirlo?

A) No es justo: sobre $36$ casos, la suma $7$ tiene $6$ y la suma $11$ solo $2$, de modo que $P(7)=\frac{6}{36}$ triplica a $P(11)=\frac{2}{36}$.
B) Es justo, porque hay dos sumas posibles ($7$ y $11$) y cada equipo tiene una asignada.
C) Es justo, porque ambas sumas son números impares y tienen igual probabilidad por simetría.
D) No se puede decidir sin lanzar los dados muchas veces y comparar las frecuencias observadas.

Correcta: A. Con $36$ resultados igualmente posibles, la suma $7$ se logra de $6$ formas y la suma $11$ solo de $2$ ($(5,6)$ y $(6,5)$): $P(7)=\frac{6}{36}$ es el triple de $P(11)=\frac{2}{36}$, así que el juego no es justo. B y C suponen, sin contar, que "dos opciones" o "ambas impares" implican igual chance. D ignora que aquí sí se puede calcular la probabilidad teórica con Laplace (resultados equiprobables), sin necesidad de experimentar.

4.2

Sucesos dependientes e independientes y probabilidad condicionada

Desde cero

Dos sucesos son independientes si el resultado de uno no afecta la probabilidad del otro (lanzar dos monedas: una no influye en la otra). Son dependientes si uno cambia la probabilidad del otro (sacar dos cartas sin reponer: la primera modifica lo que queda).

Probabilidad condicionada $P(A \mid B)$: probabilidad de $A$ sabiendo que ya ocurrió $B$. Se calcula $P(A \mid B) = \dfrac{P(A \cap B)}{P(B)}$.
Probabilidad conjunta $P(A \cap B)$: que ocurran ambos. Si son independientes, $P(A \cap B) = P(A)\cdot P(B)$. Si son dependientes, $P(A \cap B) = P(A)\cdot P(B \mid A)$.

Regla práctica: si hay reposición (se devuelve lo extraído), los sucesos son independientes; si no hay reposición, son dependientes.

Figura 7. Árbol sin reposición: tras sacar una roja, quedan $2$ rojas de $4$ bolitas, así que $P(\text{2ª roja} \mid \text{1ª roja}) = \frac{2}{4}$. La probabilidad de ambas rojas es $\frac{3}{5}\cdot\frac{2}{4} = \frac{3}{10}$. Si hubiera reposición, la segunda rama volvería a $\frac{3}{5}$ (independencia).

Ejemplo resuelto: con y sin reposición

Una urna tiene $3$ bolitas rojas y $2$ azules ($5$ en total). Se sacan dos, una tras otra.

Sin reposición (dependientes). $P(\text{1ª roja}) = \frac{3}{5}$. Ya sacada una roja, quedan $2$ rojas de $4$: $P(\text{2ª roja} \mid \text{1ª roja}) = \frac{2}{4} = \frac{1}{2}$. Ambas rojas: $\frac{3}{5}\cdot\frac{2}{4} = \frac{6}{20} = \frac{3}{10}$.
Con reposición (independientes). Se devuelve la primera, así que siguen siendo $3$ de $5$: $P(\text{ambas rojas}) = \frac{3}{5}\cdot\frac{3}{5} = \frac{9}{25}$.

La diferencia entre $\frac{3}{10}$ y $\frac{9}{25}$ nace solo de reponer o no: eso decide si los sucesos son dependientes o independientes.

Error típico: confundir $P(A \cap B)$ con $P(A \mid B)$

$P(A \cap B)$ es "que ocurran ambos"; $P(A \mid B)$ es "$A$ dado que ya pasó $B$". No son lo mismo: en la urna, $P(\text{ambas rojas}) = \frac{3}{10}$, pero $P(\text{2ª roja} \mid \text{1ª roja}) = \frac{1}{2}$. La condicionada "parte" de que $B$ ya sucedió, por eso su denominador es el mundo reducido a $B$, no el total.

Auto-chequeo Se lanza una moneda dos veces. ¿Son independientes "cara en el 1°" y "cara en el 2°"? ¿Cuál es $P(\text{ambas caras})$?

Sí, independientes: el primer lanzamiento no altera el segundo (no hay "reposición" que perder). Por eso $P(\text{ambas caras}) = P(\text{cara})\cdot P(\text{cara}) = \frac{1}{2}\cdot\frac{1}{2} = \frac{1}{4}$.

Auto-chequeo En un curso, $P(\text{usa lentes}) = 0{,}3$ y, entre quienes usan lentes, $P(\text{es mujer} \mid \text{usa lentes}) = 0{,}6$. ¿Cuál es $P(\text{mujer y usa lentes})$?

Por la regla del producto: $P(\text{mujer} \cap \text{lentes}) = P(\text{lentes}) \cdot P(\text{mujer} \mid \text{lentes}) = 0{,}3 \times 0{,}6 = 0{,}18$. El $18\%$ del curso es mujer y usa lentes.

Pregunta tipo ECEP

De una urna con $3$ bolitas rojas y $2$ azules se extraen dos bolitas, una tras otra y sin reposición. Se sabe que la primera fue roja. ¿Cuál es la probabilidad de que la segunda también sea roja?

A) $\frac{3}{5}$, porque al inicio había $3$ rojas de $5$ bolitas.
B) $\frac{2}{4} = \frac{1}{2}$, porque ya salió una roja: quedan $2$ rojas entre las $4$ bolitas restantes.
C) $\frac{3}{10}$, porque es la probabilidad de que ambas extracciones sean rojas.
D) $\frac{9}{25}$, multiplicando $\frac{3}{5}\cdot\frac{3}{5}$ como si hubiera reposición.

Correcta: B. Es una probabilidad condicionada: como la primera fue roja y no se repuso, quedan $2$ rojas entre $4$ bolitas, así que $P(\text{2ª roja} \mid \text{1ª roja}) = \frac{2}{4} = \frac{1}{2}$. A usa la composición inicial, ignorando que ya se extrajo una. C da $P(\text{ambas rojas})$ ($\frac{3}{10}$), que es la conjunta, no la condicionada. D trata el caso como con reposición (independiente), que no corresponde aquí.

Pregunta tipo ECEP

Un estudiante afirma: "lanzar dos veces un dado y sacar un $6$ en cada lanzamiento son sucesos dependientes, porque el segundo viene después del primero". ¿Qué corrección es adecuada?

A) Tiene razón: como ocurren en orden, el segundo lanzamiento depende del primero.
B) Son independientes: el dado "no tiene memoria"; el resultado del primer lanzamiento no altera la probabilidad del segundo, que sigue siendo $\frac{1}{6}$.
C) Son dependientes, porque al sacar un $6$ ese número "se gasta" y ya no puede volver a salir.
D) Es imposible determinarlo sin saber cuántas caras tiene el dado.

Correcta: B. Los lanzamientos de un dado son independientes: el dado no "recuerda" lo anterior, así que el segundo $6$ sigue teniendo probabilidad $\frac{1}{6}$ sin importar el primero. La dependencia surge cuando algo cambia entre eventos (extraer sin reponer), no por el mero orden temporal. A confunde "ocurrir después" con "depender". C imagina que el número "se gasta", lo cual no pasa en un dado. D es innecesaria: la independencia no depende del número de caras.

4.2

Distribución binomial: contar éxitos en $n$ intentos

Desde cero

La distribución binomial modela el número de éxitos en $n$ intentos cuando se cumplen cuatro condiciones: (1) hay un número fijo de intentos $n$; (2) cada intento es independiente; (3) cada intento tiene solo dos resultados (éxito/fracaso); (4) la probabilidad de éxito $p$ es constante. La probabilidad de obtener exactamente $k$ éxitos es:

$$P(X = k) = \binom{n}{k}\, p^{k}\, q^{\,n-k}, \quad \text{con } q = 1 - p.$$

El factor $\binom{n}{k}$ (combinatoria) cuenta de cuántas maneras pueden ubicarse los $k$ éxitos entre los $n$ intentos; $p^{k}$ es la probabilidad de esos éxitos y $q^{\,n-k}$ la de los fracasos restantes.

Calcular $\binom{n}{k}$ sin calculadora

$\binom{n}{k} = \dfrac{n!}{k!\,(n-k)!}$. Casos útiles: $\binom{n}{0} = \binom{n}{n} = 1$; $\binom{n}{1} = n$; $\binom{4}{2} = \dfrac{4\cdot 3}{2\cdot 1} = 6$; $\binom{5}{2} = \dfrac{5\cdot 4}{2\cdot 1} = 10$; $\binom{3}{1} = 3$. Conviene saberlos de memoria para los $n$ chicos típicos de la prueba.

Ejemplo resuelto: exactamente $2$ caras en $4$ lanzamientos

Se lanza una moneda $4$ veces ($n=4$). "Éxito" = cara, con $p = \frac{1}{2}$ y $q = \frac{1}{2}$. ¿$P(\text{exactamente } 2 \text{ caras})$?

Paso 1. Combinatoria: $\binom{4}{2} = 6$ (las $6$ formas de ubicar $2$ caras en $4$ tiros).
Paso 2. Probabilidad de cada configuración: $p^{2}\,q^{2} = \left(\frac{1}{2}\right)^{2}\left(\frac{1}{2}\right)^{2} = \frac{1}{16}$.
Paso 3. $P(X=2) = 6 \cdot \frac{1}{16} = \frac{6}{16} = \frac{3}{8} = 0{,}375$.

Es la probabilidad más alta de la distribución (más que $0, 1, 3$ o $4$ caras), como espera la intuición: lo más frecuente es "la mitad de caras".

Figura 8. La distribución binomial de "caras en 4 lanzamientos" (p = ½): las barras P(X=k) = (4 sobre k)·(½)⁴ suman 1 y son simétricas, con la moda en 2 caras (6/16). El coeficiente combinatorio fija la altura de cada barra.

Ejemplo resuelto: control de calidad

El $10\%$ de unas ampolletas sale fallada ($p = 0{,}1$, $q = 0{,}9$). Se eligen $3$ al azar ($n=3$). ¿$P(\text{al menos una fallada})$?

Conviene el complemento: $P(X \geq 1) = 1 - P(X=0)$.
$P(X=0) = \binom{3}{0}(0{,}1)^{0}(0{,}9)^{3} = 1 \cdot 1 \cdot 0{,}729 = 0{,}729$.
$P(X \geq 1) = 1 - 0{,}729 = 0{,}271$.

Hay un $27{,}1\%$ de probabilidad de que al menos una de las tres esté fallada. El complemento ahorra sumar los casos $X=1$, $X=2$ y $X=3$ por separado.

Error típico: olvidar la combinatoria $\binom{n}{k}$

Calcular $P(\text{2 caras en 4 tiros})$ como $p^{2}q^{2} = \frac{1}{16}$, sin multiplicar por $\binom{4}{2}=6$. Eso cuenta una sola disposición (por ejemplo, cara-cara-sello-sello), pero las dos caras pueden caer en $6$ posiciones distintas. La binomial siempre incluye el factor $\binom{n}{k}$, salvo en los extremos $k=0$ o $k=n$, donde vale $1$.

Auto-chequeo Se lanza un dado $3$ veces. ¿Cuál es la probabilidad de obtener exactamente un $6$? (Éxito = sacar $6$, $p=\frac{1}{6}$.)

$n=3$, $k=1$, $p=\frac{1}{6}$, $q=\frac{5}{6}$. $P(X=1) = \binom{3}{1}\left(\frac{1}{6}\right)^{1}\left(\frac{5}{6}\right)^{2} = 3 \cdot \frac{1}{6} \cdot \frac{25}{36} = \frac{75}{216} \approx 0{,}347$. El factor $\binom{3}{1}=3$ cuenta en cuál de los tres tiros cae el $6$.

Auto-chequeo Un estudiante responde al azar $5$ preguntas de verdadero/falso. ¿Probabilidad de acertar las $5$? (Éxito $p=\frac{1}{2}$.)

$P(X=5) = \binom{5}{5}\left(\frac{1}{2}\right)^{5}\left(\frac{1}{2}\right)^{0} = 1 \cdot \frac{1}{32} \cdot 1 = \frac{1}{32} \approx 0{,}031$. Solo un $3{,}1\%$: acertar todo al azar es muy poco probable.

Pregunta tipo ECEP

En una línea de producción, el $20\%$ de los artículos sale defectuoso. Se toman $5$ artículos al azar (de forma independiente). ¿Cuál es la probabilidad de que exactamente $2$ sean defectuosos?

A) $\binom{5}{2}(0{,}2)^{2}(0{,}8)^{3} \approx 0{,}205$, aplicando la fórmula binomial con $n=5$, $k=2$, $p=0{,}2$.
B) $(0{,}2)^{2} = 0{,}04$, multiplicando solo las probabilidades de los dos defectuosos.
C) $\frac{2}{5} = 0{,}4$, dividiendo los $2$ defectuosos esperados entre los $5$ artículos.
D) $\binom{5}{2}(0{,}2)^{2} \approx 0{,}4$, sin considerar la probabilidad de los artículos no defectuosos.

Correcta: A. Es binomial con $n=5$, $k=2$, $p=0{,}2$, $q=0{,}8$: $P(X=2) = \binom{5}{2}(0{,}2)^{2}(0{,}8)^{3} = 10 \cdot 0{,}04 \cdot 0{,}512 \approx 0{,}205$. B olvida la combinatoria y los $3$ no defectuosos. D incluye $\binom{5}{2}$ pero omite $q^{3}=(0{,}8)^{3}$, lo que da más de $1$ en intención y un resultado inflado. C confunde la probabilidad con la proporción esperada de defectuosos.

4.2

Distribución normal: campana, regla 68-95-99,7 y cuándo usarla

Desde cero

La distribución normal (campana de Gauss) modela variables continuas que se agrupan en torno a un valor central: estaturas, pesos, puntajes. Tiene forma de campana simétrica, y queda totalmente descrita por dos parámetros:

$\mu$ (media): el centro de la campana, donde está el pico. La curva es simétrica respecto de $\mu$, así que $P(X < \mu) = P(X > \mu) = 0{,}5$.
$\sigma$ (desviación estándar): el "ancho" de la campana. Un $\sigma$ chico la hace alta y angosta (datos concentrados); un $\sigma$ grande, baja y ancha (datos dispersos).

Como es continua, la probabilidad es siempre el área bajo la curva en un intervalo. El área total bajo la campana es $1$.

Figura 9. La regla empírica de la normal: cerca del $68\%$ de los datos cae entre $\mu \pm \sigma$, cerca del $95\%$ entre $\mu \pm 2\sigma$ y cerca del $99{,}7\%$ entre $\mu \pm 3\sigma$. Por simetría, cada mitad ($\mu-\sigma$ a $\mu$, y $\mu$ a $\mu+\sigma$) reúne la mitad de ese porcentaje.

Estandarizar: el puntaje Z

¿Cuántas desviaciones estándar?

Para comparar o ubicar un dato, se lo estandariza: se mide a cuántas desviaciones estándar está de la media con el puntaje Z:

$$Z = \frac{X - \mu}{\sigma}.$$

Un $Z=0$ es justo la media; $Z=1$ está a una $\sigma$ por encima; $Z=-2$, a dos $\sigma$ por debajo. La regla $68\text{-}95\text{-}99{,}7$ se lee directo en $Z$: el $95\%$ de los datos tiene $-2 \leq Z \leq 2$.

Figura 10. Decidir el modelo: la binomial cuenta éxitos discretos en un número fijo de intentos ("¿cuántos de $n$?"); la normal describe una magnitud continua que se agrupa en torno a una media (estatura, peso, puntaje).

Ejemplo resuelto: aplicar la regla empírica

La estatura de los recién nacidos de un hospital se distribuye normal con $\mu = 46$ cm y $\sigma = 2$ cm. ¿Qué porcentaje mide entre $44$ y $48$ cm?

Paso 1. $44 = 46 - 2 = \mu - \sigma$ y $48 = 46 + 2 = \mu + \sigma$.
Paso 2. El intervalo es exactamente $\mu \pm \sigma$.
Paso 3. Por la regla empírica, entre $\mu \pm \sigma$ está el $\approx 68\%$ de los datos.

Cerca del $68\%$ de los recién nacidos mide entre $44$ y $48$ cm. Y como $P(X < 46) = 0{,}5$ (mitad de la campana), la mitad mide menos de la media $46$ cm.

Ejemplo resuelto: estandarizar y leer la cola

Un puntaje se distribuye $N(\mu=500,\;\sigma=100)$. ¿Qué porcentaje supera los $700$ puntos?

Paso 1. Estandarizo: $Z = \dfrac{700 - 500}{100} = \dfrac{200}{100} = 2$. El $700$ está a dos $\sigma$ sobre la media.
Paso 2. Entre $\mu \pm 2\sigma$ está el $95\%$, así que fuera de esa banda queda el $5\%$, repartido en las dos colas.
Paso 3. Por simetría, una cola es la mitad: $P(X > 700) \approx \dfrac{5\%}{2} = 2{,}5\%$.

Cerca del $2{,}5\%$ supera los $700$ puntos. Estandarizar convierte el problema en "¿a cuántas $\sigma$ estoy?" y la regla empírica hace el resto.

Error típico: usar binomial cuando corresponde normal (y viceversa)

Aplicar la fórmula binomial $\binom{n}{k}p^{k}q^{n-k}$ a una variable continua ("¿probabilidad de que una persona pese entre $70$ y $75$ kg?") es un error: el peso no es un conteo de éxitos en intentos, sino una magnitud continua $\to$ normal. Al revés, modelar "¿cuántas de $10$ semillas germinan?" con la normal ignora que es un conteo discreto de éxitos $\to$ binomial. La pregunta clave: ¿estoy contando éxitos en $n$ intentos (binomial) o midiendo una magnitud (normal)?

Auto-chequeo El peso de unos paquetes se distribuye $N(\mu=500,\;\sigma=20)$ gramos. ¿Entre qué valores está el $95\%$ central de los paquetes?

El $95\%$ central cae entre $\mu \pm 2\sigma = 500 \pm 2(20) = 500 \pm 40$, es decir, entre $460$ y $540$ gramos. Solo un $5\%$ queda fuera de ese rango (un $2{,}5\%$ por debajo de $460$ y un $2{,}5\%$ por sobre $540$).

Auto-chequeo En $N(\mu=170,\;\sigma=8)$, ¿cuál es el puntaje $Z$ de una estatura de $186$ cm? ¿Qué significa?

$Z = \frac{186 - 170}{8} = \frac{16}{8} = 2$. La estatura de $186$ cm está a dos desviaciones estándar por encima de la media. Por la regla empírica, solo un $\approx 2{,}5\%$ de la población supera ese valor: es una estatura bastante alta.

Pregunta tipo ECEP

La masa de unas manzanas se distribuye normal con media $\mu = 150$ g y desviación estándar $\sigma = 10$ g. ¿Qué porcentaje, aproximadamente, tiene una masa entre $130$ y $170$ g?

A) Aproximadamente $68\%$, porque $130$ y $170$ corresponden a $\mu \pm \sigma$.
B) Aproximadamente $95\%$, porque $130$ y $170$ corresponden a $\mu \pm 2\sigma$.
C) Aproximadamente $99{,}7\%$, porque cubren $\mu \pm 3\sigma$.
D) Exactamente $50\%$, porque el intervalo está centrado en la media.

Correcta: B. $130 = 150 - 2(10) = \mu - 2\sigma$ y $170 = 150 + 2(10) = \mu + 2\sigma$: el intervalo es $\mu \pm 2\sigma$, que por la regla empírica reúne el $\approx 95\%$. A usaría $\mu \pm \sigma$ ($140$ a $160$). C usaría $\mu \pm 3\sigma$ ($120$ a $180$). D confunde "centrado en la media" con "$50\%$": el $50\%$ sería $P(X < \mu)$, no un intervalo simétrico amplio.

Pregunta tipo ECEP

Una docente plantea dos situaciones: (I) "de $8$ tiros libres, ¿cuántos encesta un jugador con $50\%$ de acierto?" y (II) "¿qué probabilidad hay de que una persona elegida al azar mida más de $1{,}80$ m, si las estaturas se agrupan en torno a $1{,}70$ m?". ¿Qué modelo conviene en cada caso?

A) Ambas con distribución normal, porque las dos hablan de probabilidades.
B) (I) normal y (II) binomial, porque la estatura toma pocos valores y los tiros muchos.
C) Ambas con distribución binomial, porque en las dos hay dos resultados posibles.
D) (I) binomial, porque cuenta éxitos (encestes) en un número fijo de intentos; (II) normal, porque la estatura es una magnitud continua agrupada en torno a una media.

Correcta: D. (I) es un conteo discreto de éxitos en $n=8$ intentos independientes con $p=0{,}5$: binomial. (II) es una magnitud continua (estatura) que se agrupa en torno a una media: normal, donde la probabilidad es un área bajo la campana. A y C fuerzan un solo modelo para ambas. B invierte los criterios: la estatura es continua (normal) y los tiros son conteos (binomial).