Introducción a la inferencia estadística, definiciones básicas
Para comenzar con esta asignatura debemos partir de
construir una definición de los que se entenderá por Inferencia Estadística
para los fines del curso, por lo tanto se comenzará este proceso por darle un
significado válido a los dos términos o palabras que la compones el nombre de la asignatura, Inferencia y Estadística
Inferencia: Según el Diccionario de la Real Academia de la
Lengua Española (DRAE) define inferencia como “(De inferir). 1. f. Acción y
efecto de inferir” y define la palabra inferir como “(Del lat. inferre, llevar
a). 1. tr. Sacar una consecuencia o deducir algo de otra cosa. U. t. c. prnl.
2. tr. Llevar consigo, ocasionar, conducir a un resultado. 3. tr. Producir o
causar ofensas, agravios, heridas, etc.”
Como puede apreciarse el significado 1 y el 2 son los que se
aproximan o van a servir para establecer una definición de Inferencia
Estadística y es el primer significado es que aporta la mejor aproximación.
Así en primer lugar se tiene como inferir: “Sacar una
consecuencia o deducir algo de otra cosa” (DRAE, 2001)
Por otra parte el mismo DRAE contiene los siguientes
significados para la palabra estadística: 1. f. Estudio de los datos
cuantitativos de la población, de los recursos naturales e industriales, del
tráfico o de cualquier otra manifestación de las sociedades humanas. 2. f.
Conjunto de estos datos. 3. f. Rama de la matemática que utiliza grandes
conjuntos de datos numéricos para obtener inferencias basadas en el cálculo de
probabilidades.
Como se puede apreciar, el primer significado se refiere al
estudio de datos cuantitativos de diversos géneros de la población, mientras
que el segundo significado se circunscribe al conjunto de datos y el tercer
significado agrega que la estadística es una rama de la matemática, utiliza
datos cuantitativos, obtiene inferencias en probabilidad. Por lo tanto se
tomará este último significado, para en combinación del significado de inferir
hacer una construcción preliminar de una definición para el nombre de esta
asignatura.
Así, Inferir “Sacar una consecuencia o deducir algo de otra
cosa”
Y, estadística “Rama de la matemática que utiliza grandes
conjuntos de datos numéricos para obtener inferencias basadas en el cálculo de
probabilidades”
Pueden combinar estos dos significados para construir la
siguiente definición preliminar: Estadística Inferencial es la rama de la
matemática que utiliza grandes conjuntos de datos numéricos para sacar una
consecuencia o deducir algo de otra cosa y obtener inferencias basadas en el
cálculo de probabilidades. Definición que tiene muy poco sentido pero que para
comenzar es un buen inicio para ir dándole forma concreta al significado válido
para el curso.
En este sentido se emplearán definiciones aportadas por
otras autores, buscar elementos comunes y nuevos aportes para construir el
significado definitivo de Estadística Inferencia.
Por una parte Rivas, (2000) dice que la Estadística Inferencia
o Inductiva “es la que trata de estimar las características del universo
estadístico o población total a través del estudio de una parte de este
universo”
Igualmente, Pestaña (1996) define Estadística Inferencial o
Inductiva como “la estadística que tiene por objeto estimar las característica
de una población a partir de los datos referentes a una muestra”.
En este contexto Chao (1999) dice que la “Inferencia
Estadística es el proceso de hacer predicciones acerca de un todo o tomar
decisiones al basarse en la información contenida en una muestra”.
Tomando los elementos comunes de estas definiciones se construye
la siguiente definición
Estadística inferencial es la rama de la estadística que se
encarga de estudiar los procesos mediantes los cuales es posible estimar y
hacer predicciones del comportamiento de una población o universo estadística,
con base a los resultados obtenidos de una muestra o fracción representativa de
dicho universo.
A su vez, la estadística inferencia estadística comprende los
métodos de muestreo, la teoría de estimaciones y las pruebas de hipótesis
estadística
Muestreo, descripción y Tipos
Van a existir ocasiones en que no es posible o conveniente observar
a todos los elementos del universo o realizar un censo por varios motivos, los
cuales pueden ser:
- No
se dispone del los recursos económicos y financiero para cubrir toda la
población.
- El
tiempo del cual se dispone para tomar una decisión es muy corto.
- La
población se encuentra demasiada dispersa sobre un espacio geográfico y algunos
de sus elementos se encuentra en sitios remotos o de difícil acceso.
- El
proceso de observación es destructivo para el elemento observado y se hace
imposible estudiar a la población completa.
Así, cuando se presenta alguna de estas circunstancias o
razones de peso para el investigador, se selecciona una muestra, entendiendo
por tal una parte representativa de la población. El muestreo es por lo tanto
una herramienta de la investigación científica, cuya función básica es
determinar que parte de una población debe examinarse, con la finalidad de
hacer inferencias sobre dicha población.
Por lo tanto, la muestra debe lograr una representación
adecuada de la población, en la que se reproduzca de la mejor manera los rasgos
esenciales de dicha población que son importantes para la investigación. Para
que una muestra sea representativa, y por lo tanto útil, debe reflejar lo más
aproximadamente, las similitudes y diferencias encontradas en la población, es
decir ejemplificar las características de ésta.
Cabe destacar que con las estimaciones obtenidas a partir
del uso de muestras es muy probable que se cometan algunos errores, los cuales
pueden ser errores muestrales y errores ajenos al muestreo.
Los errores más comunes que se pueden cometer son:
1. Hacer
conclusiones muy generales a partir de la observación de sólo una parte de la
Población, se denomina error de muestreo.
2. Hacer
conclusiones hacia una Población mucho más grandes de la que originalmente se
tomo la muestra.
3. Error
de Inferencia. En la estadística se usa la palabra población para referirse no
sólo a personas si no a todos los elementos que han sido escogidos para su
estudio y el término muestra se usa para describir una porción escogida de la
población.
Tipos de Muestreo
Existen diferentes criterios de clasificación de los
diferentes tipos de muestreo, aunque en general pueden dividirse en dos grandes
grupos: métodos de muestreo probabilísticos y métodos de muestreo no
probabilísticos.
Muestreo probabilístico
Los métodos de muestreo probabilísticos son aquellos que se
basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos
los individuos tienen la misma probabilidad de ser elegidos para formar parte
de una muestra y, consiguientemente, todas las posibles muestras de tamaño n
tienen la misma probabilidad de ser seleccionadas.
Sólo estos métodos de muestreo probabilísticos aseguran la
representatividad de la muestra extraída y son, por tanto, los más
recomendables. Dentro de los métodos de muestreo probabilísticos se encuentra
los siguientes tipos
1. Muestreo aleatorio simple
El
procedimiento empleado es el siguiente: Primero se asigna un número a cada
individuo de la población y segundo a través de algún medio mecánico, ya sean bolas
dentro de una bolsa, tablas de números aleatorios, números aleatorios generados
con una calculadora u computadora, etc. se eligen tantos sujetos como sea
necesario para completar el tamaño de muestra requerido. Este procedimiento,
atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la
población que se está estudiando es muy grande.
2. Muestreo aleatorio sistemático
Este procedimiento exige, como el anterior, numerar todos
los elementos de la población, pero en lugar de extraer n números aleatorios
sólo se extrae uno. Se parte de ese número aleatorio i, que es un número
elegido al azar, y los elementos que integran la muestra son los que ocupa los
lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k
en k, siendo k el resultado de dividir el tamaño de la población entre el
tamaño de la muestra: k = N/n.
El número i que se emplea como punto de partida será un
número al azar entre 1 y k. El riesgo este tipo de muestreo está en los casos
en que se dan periodicidades en la población ya que al elegir a los miembros de
la muestra con una periodicidad constante (k) puede introducirse una
homogeneidad que no se da en la población.
Imagínese que se está seleccionando una muestra sobre listas
de 1.000 individuos en los que los 50 primeros son varones y los 50 siguientes
mujeres, si se emplea un muestreo aleatorio sistemático con k = 100 siempre se
seleccionarán o sólo hombres o sólo mujeres, no podría haber una representación
de los dos sexos.
3. Muestreo aleatorio estratificado
Trata
de obviar las dificultades que presentan los anteriores ya que simplifican los
procesos y suelen reducir el error muestral para un tamaño dado de la muestra.
Consiste en considerar categorías típicas diferentes entre sí o estratos que
poseen gran homogeneidad respecto a alguna característica, se puede
estratificar, por ejemplo, según la profesión, el municipio de residencia, el
sexo, el estado civil, etc.
De
este modo, lo que se pretende con este tipo de muestreo es asegurarse que todos
los estratos de interés estarán representados adecuadamente en la muestra. Cada
estrato funciona independientemente, pudiendo aplicarse dentro de ellos el
muestreo aleatorio simple o el estratificado para elegir los elementos
concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean
son demasiado grandes, pues exige un conocimiento detallado de la población.
Tamaño geográfico, sexos, edades, entre otras.
Es
por eso que la distribución de la muestra en función de los diferentes estratos
se denomina afijación, y puede ser de diferentes tipos:
- Afijación
Simple: A cada estrato le corresponde igual número de elementos muéstrales.
- Afijación
Proporcional: La distribución se hace de acuerdo con el peso o tamaño de la
población en cada estrato.
- Afijación
Óptima: Se tiene en cuenta la previsible dispersión de los resultados, de modo
que se considera la proporción y la desviación típica.
Tiene
poca aplicación ya que no se suele conocer la desviación.
4. Muestreo aleatorio por conglomerados
Los métodos presentados hasta ahora están pensados para
seleccionar directamente los elementos de la población, es decir, que las
unidades muéstrales son los elementos de la población. En el muestreo por
conglomerados la unidad muestral es un grupo de elementos de la población que
forman una unidad, a la que se llamarán conglomerado. Las unidades
hospitalarias, los departamentos universitarios, una caja de determinado
producto, un estado del país, un municipio o una parroquia, son conglomerados
naturales.
En otras ocasiones se pueden utilizar conglomerados no
naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados
son áreas geográficas suele hablarse de muestreo
por áreas.
Así, el muestreo por conglomerados consiste en seleccionar
aleatoriamente un cierto número de conglomerados, el necesario para alcanzar el
tamaño muestral establecido y en investigar después todos los elementos
pertenecientes a los conglomerados elegidos.
Métodos de muestreo no probabilísticos
A veces, para
estudios exploratorios, el muestreo probabilístico resulta excesivamente
costoso y se acude a métodos no probabilísticos, aun siendo conscientes de que
no sirven para realizar generalizaciones, estimaciones inferenciales sobre la
población, pues no se tiene certeza de que la muestra extraída sea representativa,
ya que no todos los sujetos de la población tienen la misma probabilidad de ser
elegidos.
En general, se
seleccionan a los sujetos siguiendo determinados criterios procurando, en la
medida de lo posible, que la muestra sea representativa. En algunas circunstancias
los métodos estadísticos y epidemiológicos permiten resolver los problemas de
representatividad aun en situaciones de muestreo no probabilístico, por ejemplo
los estudios de caso-control, donde los casos no son seleccionados
aleatoriamente de la población.
Entre los métodos
de muestreo no probabilísticos más utilizados en investigación se encuentran:
1.
Muestreo
por cuotas
También denominado
en ocasiones accidental. Se asienta
generalmente sobre la base de un buen conocimiento de los estratos de la
población o de los individuos más representativos
o adecuados para los fines de la
investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio
estratificado, pero no tiene el carácter de aleatoriedad de aquél.
En este tipo de
muestreo se fijan unas cuotas que
consisten en un número de individuos que reúnen unas determinadas condiciones,
por ejemplo: 20 individuos de 25 a 40 años, de sexo femenino y residentes en Maracay.
Una vez determinada la cuota se eligen los primeros que se encuentren que
cumplan esas características. Este método se utiliza mucho en las encuestas de
opinión.
2.
Muestreo
intencional o de conveniencia
Este tipo de
muestreo se caracteriza por un esfuerzo deliberado de obtener muestras representativas mediante la inclusión en
la muestra de grupos supuestamente típicos. Es muy frecuente su utilización en
sondeos preelectorales de zonas que en anteriores votaciones han marcado
tendencias de voto.
También puede ser
que el investigador seleccione directa e intencionadamente los individuos de la
población. El caso más frecuente de este procedimiento el utilizar como muestra
los individuos a los que se tienen fácil acceso, los profesores universitarios
emplean con mucha frecuencia a sus propios alumnos.
3.
Técnica
de Bola de nieve
Se localiza a
algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta
conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando
se hacen estudios con poblaciones marginales,
delincuentes, sectas, determinados tipos de enfermos, en aquellos casos en que
las características a ser observadas o las características mismas del observado
no son comunes y fáciles de encontrar en la población, como buscar músicos,
lectores de cierto material bibliográfico, deportistas o amantes de ciertos
deportes extremos, entre otros.
4.
Muestreo Discrecional
A criterio del
investigador los elementos son elegidos sobre lo que él cree que pueden aportar
al estudio.
Ventajas e inconvenientes de los distintos tipos de muestreo probabilístico
Tipo de Muestreo
|
Características
|
Ventajas
|
Inconvenientes
|
Aleatorio
simple
|
Se
selecciona una muestra de tamaño n de una población de N unidades, cada
elemento tiene una probabilidad de inclusión igual y conocida de n/N.
|
Sencillo
y de fácil comprensión.
Cálculo
rápido de medias y varianzas.
Se
basa en la teoría estadística, y por tanto existen paquetes informáticos para
analizar los datos
|
|
Sistemático
|
Conseguir
un listado de los N elementos de la población
Determinar
tamaño muestral n.
Definir
un intervalo k= N/n.
Elegir
un número aleatorio, r, entre 1 y k (r= arranque aleatorio).
Seleccionar
los elementos de la lista.
|
Fácil
de aplicar.
No
siempre es necesario tener un listado de toda la población.
Cuando
la población está ordenada siguiendo una tendencia conocida, asegura una
cobertura de unidades de todos los tipos.
|
Si
la constante de muestreo está asociada con el fenómeno de interés, las
estimaciones obtenidas a partir de la muestra pueden contener sesgo de
selección
|
Estratificado
|
En
ciertas ocasiones resultará conveniente estratificar la muestra según ciertas
variables de interés. Para ello debemos conocer la composición estratificada
de la población objetivo a hacer un muestreo. Una vez calculado el tamaño
muestral apropiado, este se reparte de manera proporcional entre los
distintos estratos definidos en la población usando una simple regla de tres.
|
Tiende
a asegurar que la muestra represente adecuadamente a la población en función
de unas variables seleccionadas.
Se
obtienen estimaciones más precisa
Su
objetivo es conseguir una muestra lo más semejante posible a la población en
lo que a la o las variables estratificadoras se refiere.
|
Se
ha de conocer la distribución en la población de las variables utilizadas
para la estratificación.
|
Conglomerados
|
Se
realizan varias fases de muestreo sucesivas (polietápico)
La
necesidad de listados de las unidades de una etapa se limita a aquellas
unidades de muestreo seleccionadas en la etapa anterior.
|
Es
muy eficiente cuando la población es muy grande y dispersa.
No
es preciso tener un listado de toda la población, sólo de las unidades
primarias de muestreo.
|
El
error estándar es mayor que en el muestreo aleatorio simple o estratificado.
El
cálculo del error estándar es complejo.
|
Errores estándares de algunos estimadores.Fuente: Tomado de Chao, Lincoln (1999) Estadística para las Ciencias
Administrativas. Colombia. McGraw-Hill. Página 196
Propiedades deseables de un estimador
Estimación de parámetros
- Estimar: Proceso que consiste en
encontrar una función de las variables aleatorias de una muestra, tal que al
ser evaluada con los valores obtenidos en la selección y extracción de la
muestra, da un valor que refleja adecuadamente el valor del parámetro
poblacional.
- Estimador: Es una función de las
variables aleatorias que componen la muestra aleatoria y representa una
característica de la población.
- Estimación: Es una función particular de
las observaciones de la muestra, es decir que es el cálculo del estimador para
una muestra en particular.
La estimación estadística se
divide en dos grandes grupos: la estimación puntual y la estimación por
intervalos.
La estimación puntual
- Consiste en obtener un único número,
calculado a partir de las observaciones muestrales, y que es utilizado como
estimación del valor del parámetro q. Se le llama estimación puntual porque a ese número,
que se utiliza como estimación del parámetro q,
se le puede asignar un punto sobre la recta real.
La estimación por intervalos
-
En esta estimación se obtienen dos puntos, un extremo inferior y un extremo superior,
que definen un intervalo sobre la recta real, el cual contendrá con cierta
seguridad, o nivel de confianza, el valor del parámetro q.
A continuación en la Figura Nº 1
se presenta un esquema de la estimación puntual, en donde la población viene
representada por su función de distribución F(x; q), siendo q el
parámetro poblacional desconocido que tomará valores en el espacio paramétrico W y la
muestra aleatoria de tamaño n, está compuesta por las n variables aleatorias X1,
X2, ..., Xn
Propiedades de un buen estimador
Para
poder utilizar la información que se tenga de la mejor forma posible, se
necesita identificar los estadísticos que sean buenos estimadores. En este sentido, existen cuatro criterios que
se suelen aplicar para determinar si un estadístico es un buen estimador;
insesgamiento, eficiencia, consistencia y suficiencia.
Es
bueno destacar que además de las propiedades que se acaban de mencionar para un
buen estimador, existe otra que en
cierta forma comprende conjuntamente con las propiedades de insesgamiento y
eficiencia. Se trata del Error Cuadrático Medio.
Error cuadrático medio
Sea
T un estimador del parámetro q, el cual es desconocido. El Error Cuadrático Medio de
T, denotado ECM(T), se define como el valor esperado de (T - q)2. Esto es:
ECM(T)
= E[(T - q)2]
¿Cuál
es la información que proporciona el Error Cuadrático Medio?