Curso de Estadistica Inferencial (Parte Uno)
Estadística Inferencial
El presente documento es una guía
para el curso de inferencia estadística impartida en el Instituto Nacional de
Estadística Geografía e Informática (INEGI), en el edificio de capacitación; y
no tiene más que esa finalidad. La sección de ejercicios será presentada por el
instructor de acuerdo a su preferencia, además de agregar los temas que él
considere pertinentes.
La parte inicial es una ubicación
teórica que presenta algunos de los conceptos más importantes y resultados que
serán utilizados en la parte formal. En ningún momento deberá seguirse al pie
de la letra la secuencia de exposición, el instructor tomará la secuencia que
considere trascendental en su impartición.
La segunda parte es todo el curso
que se debe impartir, y se tocan los temas pero desde un punto de vista más
“informal”, y el tema de estimación ya nada más se revisa en su formalidad
detallada en la primera parte.
La razón de la estructura de este
documento es que normalmente la persona que lo elaboró, imparte la parte
teórica para generalizar el objetivo y la ubicación de la inferencia
estadística y resultados importantes que serán formalmente utilizados por
aquellos interesados en la formulación estadística- matemática.
Ernesto Cervantes López, INEGI.
PARTE UNO
El objetivo de la estadística es
hacer inferencia con respecto a la población basándose en la información
contenida en una muestra.
Las poblaciones se describen
mediante medidas numéricas denominadas parámetros y el objetivo de la mayoría
de las investigaciones estadísticas es hacer inferencia con respecto a uno o
más parámetros de la población.
El proceso de obtener un
resultado observado de un fenómeno físico es denominado un experimento.
Suponga que el resultado de un
experimento es una variable aleatoria x, y, f (x, θ) representa la función de
densidad la cual refleja la distribución de las medidas de los individuos en la
población.
Aunque el experimento no permite
especificar completamente a, f(x, θ), y esto es posible si se puede asumir que,
f(x, θ) es un miembro de alguna familia conocida de distribución y que θ es un
parámetro no conocido tal como la media o la varianza de la población. El
objetivo de la estimación puntual es asignar un valor apropiado a θ basado
sobre las observaciones de la población, es decir, se asume que un conjunto de
n variables independientes x1, x2, …, xn cada
una con, f(x, θ) observada de un conjunto de datos x1, x2, …, xn el
cual puede representarse como f(x1, x2, …, xn
: θ) = f(x1, θ) f(x2, θ) …f(xn, θ) Se asume
que la distribución de la población de interés puede ser representada por un
miembro de alguna familia especifica conocida, f(x, θ), indexada por el
parámetro θ. En algunos casos el parámetro puede ser un vector y se denota por
Θ.
Se denotara por Ωcomo el espacio
paramétrico que denota el conjunto de todos los posibles valores que el
parámetro θ puede asumir. Si Θ es un vector entonces Ω será un subconjunto del
espacio euclidiano de la misma dimensión y la dimensión de Ω va a corresponder
al número de parámetros reales no conocidos.
Se asume que x1, x2,
…, xn es una muestra aleatoria de, f(x, θ) y que τ(θ) es una función
de θ.
Definición
Un estadístico T = ι(x1,
x2, …, xn) que es usada para estimar el valor de τ(θ) es
denominado un estimador de τ(θ) y un valor observado del estadístico t = ι(x1,
x2, …, xn) es denominado una estimación de τ(θ).
Equivalentemente se puede abusar
y decir que un estimador es una regla que establece cómo calcular una
estimación basada en las mediciones contenidas en una muestra.
Es posible obtener varios
estimadores (reglas para la estimación) diferentes para un mismo parámetro
poblacional. Esto nos lleva a tratar de definir cuáles son buenos o malos en la
aproximación.
Para ello debemos recordar
algunos conceptos teóricos que se utilizaran.
Definición
Sea g(y1, y2,
…, yn) una función de las variables aleatorias y1, y2,
…, yn que tienen una función de probabilidad p(y1, y2,
…, yn). Entonces el valor esperado de g(y1, y2,
…, yn) es E(g(y1, y2, …, yn)) = ∑yn∑yn-1
… ∑y2∑y1 g(y1, y2, …, yn)
p(y1, y2, …, yn).
Si y1, y2,
…, yn son variables aleatorias continuas con la función de densidad
conjunta f(y1, y2, …, yn) entonces E(g(y1,
y2, …, yn)) = ∫yn∫yn-1 … ∫y2∫y1
g(y1, y2, …, yn) f(y1, y2,
…, yn) dy1 dy2 …dyn-1 dyn.
Teorema
Sea c una constante entonces E(c) = c.
Teorema
Sean g(Y1, Y2)
una función de las variables aleatorias Y1, Y2, y sea c una
constante. Entonces E(cg(y1, y2)) = cE(g(y1, y2)).
Teorema
Sea Y1, Y2
dos variables aleatorias con la función de densidad conjunta f(y1, y2)
y sea g1(Y1, Y2), g2(Y1, Y2) …gk(y1,
y2) funciones de Y1, Y2. Entonces E(g1(y1,
y2) + g2(y1, y2) + …+ gk(y1,
y2)) = E(g1(y1, y2)) + E(g2(y1,
y2)) + …+ E(gk(y1, y2))
Propiedades de los estimadores
Estimador Insesgado
Definición
Un estimador T es un estimador
insesgado de τ(θ) sí E(T) = τ(θ) para todo
Ω ∈ θ, de otra manera se dice que T es
un estimador sesgado de τ(θ).
Ejemplo
Considere una muestra aleatoria
de una distribución f(x, θ), con Θ = (µ, σ2), donde µ y σ2
son la media y la varianza de la población.
Ahora bien la media muestral es
un estadístico con la función t(x1, x2, …, xn)
= (x1 + x2 + …+ xn)/n y este estadístico usualmente
se denota con ẋ = ∑ni=1
xi/n que se usa como una estimación de la media poblacional µ
= E(x), para X1, X2, …Xn variables aleatorias,
y la función t(x1, x2, …, xn) = ((x1
- ẋ) + (x2 - ẋ) + …+ (xn - ẋ))/n – 1.
Permite obtener S2 = ∑ni=1(x1
- ẋ) / n – 1 como estimador de σ2, y ambos µ y σ2.
Ejercicio:
Verificar que son insesgados.
1) E(ẋ) = µ
2) E(S2) = σ2
Después de verificar la
afirmación se tiene que los parámetros son insesgados, el espacio paramétrico
asociado es un subconjunto de dos dimensiones del espacio euclidiano. En particular
Ω es el producto cartesiano Ω = (−∞, ∞)x(0, ∞), para µ y σ2.
En pocas palabras nos gustaría que la media del valor esperado
de la distribución de las estimaciones fuera igual al punto estimado, es decir,
E(θ^) = θ.
Definición
El sesgo B de un estimador
puntual θˆ está dado por B = E (θ^) - θ.
La adecuada sería (b) ya que una
menor varianza garantiza que en el muestreo repetitivo una mayor fracción de
valores de θˆ quede cerca de θ, es decir que la varianza V(θ^) sea mínima.
Dados dos estimadores insesgados
de un parámetro θ seleccionamos el estimador con la menor varianza, permaneciendo
constante en todas las condiciones restantes.
Algo que se utiliza en lugar del
sesgo y la varianza para describir la bondad de un estimador puntual es el
valor esperado de (θ^ - θ).
Definición
Sea X1, X2,
…, Xn una muestra aleatoria de tamaño n de f(x, θ). Un estimador T°
de τ(θ) es denominado un estimador insesgado uniforme de mínima varianza de τ(θ)
sí:
1) T° es insesgado para τ(θ).
2) Para cualquier otro estimador
insesgado T de τ(θ), Var(T°) ≤ Var(T) para todo θ ∈ Ω.
En algunos casos la cota inferior
puede ser derivada de la varianza de un estimador insesgado. Si T es un
estimador insesgado de τ(θ), entonces la cota inferior Cramer- Rao basada sobre
una muestra aleatoria es Var(T) = (τ’(θ))2 / nE((∂/∂θ)ln f(x, θ)) asumiendo
la condición de diferenciabilidad, se puede obtener dicha expresión.
Definición
La media del cuadrado del error
de un estimador puntual θˆ y se define como el valor esperado de (θˆ - θ)2, es decir, E(θˆ - θ).
La media del cuadrado del error
de un estimador θˆ, MCE (θ^) es una función al mismo tiempo de su
varianza y sesgo MCE(θ^) = V(θ^) + B2.
Enseguida se muestran algunos
estimadores de parámetros poblacionales.
|
Parámetro Objetivo θ
|
Tamaño de la(s) Muestra(s)
|
Estimador Puntual
|
E(θ^)
|
σ θ^2
|
|
µ
|
n
|
Ӯ
|
µ
|
σ2/n
|
|
P
|
n
|
P^ = y/n
|
P
|
Pq/n
|
|
µ1 - µ2
|
n1 y n2
|
Ӯ1 – Ӯ2
|
µ1 - µ2
|
(σ12/n1)
+ (σ22/n2)
|
|
P1 – P2
|
n1 y n2
|
P^1 – P^2
|
P1 – P2
|
(P1q1/n1)
+ (P2q2/n2)
|
σ12 y σ22
son las varianzas de las poblaciones 1 y 2 respectivamente.
La manera de evaluar la bondad de
cualquier procedimiento de estimación puntual estriba en términos de la
distancia entre las estimaciones generadoras y el parámetro objetivo.
Definición
El error de estimación ε es la
distancia entre un estimador y su parámetro objetivo, es decir, ε = | θ – θ^|.
Eficiencia relativa
Definición
Dados dos estimadores insesgados θ1^
y θ2^, de un parámetro θ, con varianzas V(θ1^)
y V(θ2^), respectivamente, entonces la eficiencia
relativa de θ1^ con respecto de θ2^
se define como la razón eficiencia = V(θ2^)/V(θ1^).
Consistencia
Definición
El estimador θˆn es un
estimador consistente de θ si para cualquier número positivo ε se tiene que limn→∞ P(|θˆn – θ| ≤ ε) = 1 o en forma
equivalente limn→∞ P(|θˆn
– θ| ≥ ε) = 0.
Suele utilizar el siguiente
resultado para probar la consistencia de un estimador.
Teorema
El estimador insesgado θˆn para
θ es un estimador consistente de θ sí limn→∞ V(θˆn) = 0.
Suficiencia
En seguida se presentan algunos
métodos para encontrar estadísticos que en cierto sentido resumen toda la
información en una muestra con respecto a un parámetro objetivo, y tales estadísticos
tienen la propiedad de la suficiencia.
Definición
Sean y1, y2,
…, yn observaciones muestrales para las variables aleatorias
correspondientes Y1, Y2, …, Yn. Entonces si y1,
y2, …, yn son variables aleatorias discretas, la
verosimilitud (factibilidad) de la muestra, L = L(y1, y2,
…, yn) se define como la probabilidad conjunta de y1, y2,
…, yn. Si y1, y2, …, yn son
variables aleatorias continuas, la verosimilitud L(y1, y2,
…, yn) se define como la densidad conjunta evaluada en y1,
y2, …, yn.
El siguiente teorema relaciona la
propiedad de suficiencia con la verosimilitud.
Teorema
Sea U un estadístico basado en
una muestra aleatoria y1, y2, …, yn. Entonces
U es un estadístico suficiente para la estimación de un parámetro θ si y sólo
si la verosimilitud L se puede factorizar en dos funciones no negativas L(y1,
y2, …, yn) = g(u, θ)h(y1, y2, …, yn)
en donde g(u, θ) es una función solamente de u y θ, y h(y1, y2,
…, yn) no es una función de θ.
En general se desea encontrar un
estadístico suficiente que reduzca los datos en la muestra hasta donde sea
posible. Los estadísticos que cumplen con ése objetivo se denominan estadísticos
de mínima suficiencia.
Suficiencia mínima y estimación insesgada de mínima varianza
Tales estadísticos fueron
desarrollados por Lehmann y Scheffé. Suponga que y1, y2, …,
yn representa una muestra aleatoria de una función de probabilidad p(y),
o una función de densidad f(y) con un parámetro desconocido θ. El conjunto de
variables y1, y2, …, yn puede tomar varios
valores, supongamos que y1, y2, …, yn y x1,
x2, …, xn, son dos conjuntos de valores posibles, el
método utiliza la razón de verosimilitudes evaluadas en esto dos puntos L(x1,
x2, …, xn) / L(y1, y2, …, yn)n.
Varias veces es posible encontrar una función g(x1, x2, …,
xn) tal que la razón mencionada no presente el parámetro desconocido θ sí y
sólo sí g(x1, x2, …, xn) = g(y1, y2,
…, yn). Si se puede encontrar tal función g, entonces g(y1,
y2, …, yn) es un estadístico de mínima suficiencia para
θ.
Método de los momentos
Ya que el método de anterior no
siempre es aplicable, el siguiente método es uno de los más antiguos, aunque el
más sofisticado el de máxima verosimilitud.
Para ello recuerde que el k-ésimo
momento de una variable aleatoria, tomando con respecto al origen, es µ’k
= E(Yk), el correspondiente k-ésimo momento de la muestra es el promedio
m’k = (1/n) ∑i=1n Yki.
Método de los momentos: Elija
estimaciones aquellos valores de los parámetros que son soluciones de las
ecuaciones µ’k = mk’, con k=1, 2, ..., t en donde t es
igual al número de parámetros.
Método de la máxima verosimilitud
El método implica determinar
alguna función de un estadístico de mínima suficiencia que sea un estimador
insesgado del parámetro – objetivo. El método de los momentos generalmente no
lleva a mejores estimadores, contrario al de máxima verosimilitud.
Método de la máxima verosimilitud: Escoja como estimaciones
aquellos valores de los parámetros que maximizan la verosimilitud.

Muy bueno!!👍👍👍
ResponderBorrarAprobados!!
ResponderBorrar