revista de cultura científica FACULTAD DE CIENCIAS, UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
Busca ampliar la cultura científica de la población, difundir información y hacer de la ciencia
un instrumento para el análisis de la realidad, con diversos puntos de vista desde la ciencia.
Ciencias88Editado Ciencias88Editado2
     
Entre encuestas, números grandes
y tamaños de muestra

Los números grandes, son objetos matemáticos que están vinculados con el cálculo de los tamaños de muestra, en las encuestas de opinión pública.
Conrado Ruiz Martínez
     
HTML ↓ PDF ←Regresar al índiceartículo siguiente→
     
     
¿Se ha preguntado por qué los tamaños de muestra empleados en las encuestas electorales o de opinión respecto de algún asunto en especial se parecen mucho en todo el mundo, y poseen referentes de seguridad estadística semejantes, a pesar de que el número de electores es diferente en cada país? La respuesta es que bajo determinada condición de cálculo (Z0.9772 = 2 y varianza = 0.25; esto es cuando se considera que la probabilidad de ocurrencia es igual a la probabilidad de no ocurrencia, es decir 0.5 × 0.5) la población toda —independientemente de su tamaño y de los objetos de que se trate— se considera igual a la unidad, esto es, 1. Tal situación ocurre cuando, al graficar estos datos, el área de la curva normal que se alcanza —una campana— abarca 97.72% del total, y la significación o desconfianza que se tiene en este caso, un ensayo de dos colas, es de 4.56% (figura 1). En este tipo de ensayos el área que se toma como referente es la confianza estadística, en este caso, 95.44%, más la mitad de la significación o desconfianza estadística que el observador estime. Si consideramos como porcentajes los resultados obtenidos del cálculo del área bajo la curva tenemos entonces que 95.44 + (4.56/2) = 97.72%; y que el área completa equivale a 100 por ciento.
FIG1
De aquí que, en muestreo aleatorio, no sólo simple sino también simplificado, los tamaños de muestra para encuestas públicas convencionales se calculan dividiendo la unidad —propiamente una población virtual validada por la probabilidad— entre un error estimado en proporción al cuadrado. Por ejemplo, si el error estimado es de 0.05, tenemos: 1/0.052 = 400 personas; si es de 0.025, entonces 1/0.0252 = 1600 personas; si de 0.02, entonces 1/0.022 = 2 500 personas; y si de 0.01, entonces 1/0.012 = 10 000 personas; y así sucesivamente. Es decir, los errores estimados —respecto de una confianza estadística determinada— o “exactitudes” —que se elevan al cuadrado— son los divisores, por lo que la seguridad estadística de todos estos cálculos, para los tamaños de muestra aquí señalados, es de 95.44%, algo que muy rara vez se hace saber al público. Pero, ¿cómo se relaciona esto con el hecho de que las encuestas comerciales normalmente se realizan con muestras de entre mil a dos mil quinientas personas?, ¿por qué motivo ocurre esto así?

El trasfondo de los números grandes

En las postrimerías de la Edad Media, los matemáticos dedicados al estudio de las fracciones y de secuencias numéricas del tipo:

1 1 1 1
∑— = — + — + — + … = ∞
n 1 2 3

lo que se conoce como serie armónica, y cuya suma diverge hacia el infinito, encontraron que algunas de éstas convergían hacia un valor numérico finito o límite, lo cual constituyó verdaderamente un hecho sorprendente. El primer descubrimiento importante al respecto lo realizó Nicole Oresme a mediados del siglo xiv, quien encontró que la suma de la serie:
 
 
n 1 2 3 4
∑— = — + — + — + — + … = 2
2n 2 22 23 24

 

 
A estos números, o mejor dicho a los conjuntos compuestos por una serie interminable de términos —como se denominan las partes, separadas por un signo de adición o sustracción, y que indican los cómputos independientes en una operación seriada o polinomio—, en donde la suma de las fracciones debe converger en un valor numérico finito, es a lo que se conoce como “números grandes”. En este campo de las series infinitas, a finales del siglo xvii y comienzos del xviii, el matemático suizo Jakob Bernoulli realizó indagaciones relevantes, y él mismo descubrió el límite de algunas de ellas; pero también hizo aportes en la determinación del límite de números grandes organizados en una distribución de tipo binomial:
 
X
∑—
n
 
en donde X es siempre menor o igual a n. De hecho, la proba­bilidad clásica corresponde a este mismo tipo de distribución.

El estudio de estos objetos matemáticos tuvo repercusiones importantes en la comprensión de los números irracionales (en particular para el conocimiento de los guarismos e y p) y en el establecimiento del límite en distribuciones de datos como lo es la curva normal, la coloquialmente llamada campana de Gauss. En este último caso el límite de la serie implicada, esto es, una distribución de datos de tamaño finito o infinito, converge en la unidad (con valor = 1), en donde pueden tenerse interpretaciones que dependen del método empleado para el cálculo del área bajo la curva normal o integral de la misma; así es como se fundamentan las pruebas estadísticas de Z, t, Ji 2, F y otras más.
 
Esto último tiene vinculación con la ley de los números grandes (basada en la cualidad de estos objetos matemáticos, ya mencionados), que planteó Jakob Bernoulli, la cual estipula que la frecuencia relativa de un suceso, cuando el número de observaciones se hace grande, con tendencia hacia el infinito, se estabiliza o converge en un valor finito, lo cual constituye la probabilidad del suceso. Así: X por 1 = X y X por 0 = 0. Este principio matemático se aplica en cierto modo en el cálculo de los tamaños de muestra.

Conectividad de las series infinitas

Todas las series infinitas, en las que se tenga comprobado que convergen en un límite finito, se relacionan entre sí, lo cual se puede apreciar si se examina un par de ellas. La primera fue obtenida en 1671 por el monje escocés James Gregory, quien encontró el límite de la siguiente serie infinita:
 
1 1 1 1 p
— – — + — – — + … = —
1 3 5 7 4
 
Este hallazgo, que revolucionó la concepción del número p, ya que al haber un algoritmo no geométrico que lo generara, se abría la posibilidad de aproximar su cálculo por medio de las series infinitas con cuyos límites está relacionado. La comprobación del vínculo de éstas con el número p por medio de desarrollos matemáticos exhaustivos fue llevado a cabo por Leonhard Euler, partiendo del denominado “problema de Basilea”, planteado en 1689 por el mismo Jakob Bernoulli, el cual buscaba el límite de la serie infinita compuesta por la suma de los recíprocos del conjunto de los números naturales elevados al cuadrado, esto es:
 
1 1 1 1
(— – — + — – — + …)
12 22 32 42

 
un hallazgo espectacular logrado por Euler en 1735, y que es equivalente a
 
p2

6
En realidad, Euler desarrolló dos soluciones al problema de Basilea, la segunda de ellas publicada en 1748. Una que agrupaba a los recíprocos de todos los naturales elevados al cuadrado (p2/6= 1/12+1/22+1/32+1/42+…), y otra que incluía sólo los recíprocos de impares de los naturales elevados al cuadrado (p 2/8 = 1/12+1/32+1/52+1/72+…). Entre ambos límites se guardan las relaciones siguientes:
3 p2 p2
— ⋅ — = —
4 6 8
 
y consecuentemente:
4 p2 p2
— ⋅ — = —
3 8 6
¿Con cuál de ambos límites habrá mayor relación estructural respecto de la serie infinita cuyo límite es p/4? Si hacemos el análisis de:

 
p 1 1 1 1
— = — – — + — – — …
4 1 3 5 7
Al elevar ambos miembros de la ecuación al cuadrado y factorizar término a término, se tiene entonces:
 
p 1 1 1 1 p2 1 1 1
[—=(—)(–—)(+—)(–—)+…]2=—=E(1+—+—+—+…)
4 1 3 5 7 16 9 25 49

 

 
Este polinomio corresponde exactamente a la serie infinita cuyo límite es:
p2
 
8
 
El factor E es necesario para asegurar la igualdad buscada y éste se calcula de la siguiente manera:
p2

16 1
E=—=—
p2 2

8
 
Por lo que:
1 1 1 1 1 1 1 1 1
(— – — + — – — + …)2 = — (— + — + — + — + …)
1 3 5 7 2 12 32 52 72
 
serie de James Gregory serie de Leonhard Euler
cuyo límite es: p/4 cuyo límite es: p 2/8

 
Con lo que se demuestra la identidad entre ambas (Quot erat demostrandum):
 
p2 1 p2
(—) = — (—)
4 2 8
¿Y las encuestas?

Después de todo el periplo que hicimos sobre los números grandes, queda en el aire la duda de si la población —para los efectos del cálculo de un tamaño de muestra— puede ser considerada como un número grande. En realidad no, lo que sí constituye un número grande es la distribución binomial en su representación como curva normal. El convencionalismo estadístico que se aplica —que no es un principio matemático en un sentido estricto—, es el de reducir la población a un valor relativo —representado en valores de Z— del área que alcance la confianza en la curva normal y de su multiplicación por la variancia estimada (probabilidad de ocurrencia × probabilidad de no ocurrencia, es decir, pq); en donde, adicionalmente, participa también el error estimado. Por lo que el tamaño de una muestra es igual al valor de Z al cuadrado —para el área bajo la curva estimada o confianza— multiplicado por pq/el error estimado —en proporción— al cuadrado. Se trata de la ecuación más común para estimar el tamaño de las muestras en un muestreo aleatorio simple, algo que emplean las empresas que se dedican a efectuar encuestas para realizar sus cálculos. Es importante señalar que, dado el hecho de que el tamaño real de una población completa puede ser inasible, este convencionalismo permite realizar cálculos estandarizados con apego al pragmatismo y no a un teorema matemático, y que, en realidad, este mismo convencionalismo se adopta incluso en los campos científicos.
 
Por lo tanto, hay que tener cuidado al leer encuestas o escuchar sus resultados. No hay que olvidar que son indicadores, señalan hacia algo, se acercan, pero no son datos definitivos o que sea seguro que ocurran. Cuando en una de esas encuestas típicas difundidas en los medios impresos o electrónicos se diga al lector que los datos tienen una confiabilidad de 95% y una exactitud (medida para el margen de error estimado) de 2%, más vale interpretarlo de la manera siguiente. Si hay un margen de 2% de error estimado, se reconoce teóricamente un intervalo de confianza para dichos resultados entre 93% y 97%, con 5% de probabilidad de que los entrevistados estén fuera del intervalo de confianza establecido. Dicho de otra manera, en una encuesta la “exactitud” —una forma elegante de referirnos al error estimado— es sólo respecto de la confiabilidad estadística; que como ya lo sabemos siempre será cercana a 95%, con la excepción de aquellas estimaciones —con una mayor orientación científica— que sí buscan la “certidumbre moral” (99.9% o más). Este último concepto lo estableció Jakob Bernoulli en 1713 y, bajo este criterio, una muestra que considere una exactitud de 1% —dudo que este personaje aceptara un margen de error mayor—, sería del orden de 23 870 personas. Es por ello que el tamaño de las muestras es pequeño y el error un poco mayor, lo cual, ciertamente, es más práctico, pero no confiable en 100 por ciento.
 
Para efectos prácticos, si se considera el error estimado de 2% y una confianza estadística de 95%, para el caso de preferencias electorales de 40% para un candidato y de 42% para otro, si la diferencia se encuentra al filo del margen de error no es posible considerar que uno de ellos tiene garantizado el triunfo. Gran parte de la parafernalia dizque estadística que padecimos en las pasadas elecciones presidenciales no fue más que mera especulación, pues careció de fundamento científico. Aquí debería preguntarse uno si lo que se piensa de un candidato, en el fuero interno de cada quien, es un dato o razonamiento duro o no lo es.
 
Por supuesto, nuestro tema está muy alejado de la fi­sico­quí­mica o de la astronomía —disciplina en la que, por primera vez, a principios del siglo xix, astrónomos como Legendre y Gauss aplicaron con éxito procedimientos estadísticos, el método de los mínimos cuadrados, para calcular la trayectoria de cometas.
FIG2
Conrado Ruiz Hernández
Facultad de Estudios Superiores Iztacala,
Universidad Nacional Autónoma de México.
Referencias bibliográficas

Clawson, C. (ed.). 1999. Misterios matemáticos. Magia y belleza de los números, Diana, México.
Devlin, K. 1998. The Language of Mathematics. Making the Invisible Visible, W. H. Freeman, Nueva York.
Dunham, W. 1999. Euler. The Master of Us All, Mathematical Association of America, Washington, D. C.
Mankiewics, R. 2000. The Story of Mathematics, Cassell, Londres.
Méndez, I., D. Namihira, L. Moreno y C. Sosa. 2001. El protocolo de investigación: lineamientos para su elaboración y análisis, Trillas, México.
Naiman, A., R. Rosenfeld y G. Zirkel. 1996. Understanding statistics, McGraw-Hill, Nueva York.
Ruiz, H. C. 2005. “¿Y dónde queda la población en un muestreo estadístico?”, en Ciencia y Desarrollo, vol. 30, núm. 184, pp. 6-13.
_______________________________________________________________
Conrado Ruiz es Biólogo, y Maestro en Ciencias por la Facultad de Ciencias de la Universidad Nacional Autónoma de México (unam). Es candidato a Doctor en Educación en la Universidad Pedagógica Nacional (upn) Unidad Ajusco. Sus intereses son la educación ambiental y la alfabetización matemática. Es profesor de carrera en la Facultad de Estudios Superiores (fes) Iztacala de la unam.
 

como citar este artículo

Ruiz Hernández, Conrado. (2007). Entre encuestas, números grandes y tamaños de muestra. Ciencias 88, octubre-diciembre, 64-69. [En línea]
    ←Regresar al índiceartículo siguiente→

You are here: Inicio Búsqueda Titulo revistas revista ciencias 88 Entre encuestas, números grandes y tamaños de muestra