Curso de Estadistica Inferencial (Parte Uno)

Estadística Inferencial

El presente documento es una guía para el curso de inferencia estadística impartida en el Instituto Nacional de Estadística Geografía e Informática (INEGI), en el edificio de capacitación; y no tiene más que esa finalidad. La sección de ejercicios será presentada por el instructor de acuerdo a su preferencia, además de agregar los temas que él considere pertinentes.
La parte inicial es una ubicación teórica que presenta algunos de los conceptos más importantes y resultados que serán utilizados en la parte formal. En ningún momento deberá seguirse al pie de la letra la secuencia de exposición, el instructor tomará la secuencia que considere trascendental en su impartición.
La segunda parte es todo el curso que se debe impartir, y se tocan los temas pero desde un punto de vista más “informal”, y el tema de estimación ya nada más se revisa en su formalidad detallada en la primera parte.
La razón de la estructura de este documento es que normalmente la persona que lo elaboró, imparte la parte teórica para generalizar el objetivo y la ubicación de la inferencia estadística y resultados importantes que serán formalmente utilizados por aquellos interesados en la formulación estadística- matemática.
Ernesto Cervantes López, INEGI.
PARTE UNO
El objetivo de la estadística es hacer inferencia con respecto a la población basándose en la información contenida en una muestra.
Las poblaciones se describen mediante medidas numéricas denominadas parámetros y el objetivo de la mayoría de las investigaciones estadísticas es hacer inferencia con respecto a uno o más parámetros de la población.
El proceso de obtener un resultado observado de un fenómeno físico es denominado un experimento.
Suponga que el resultado de un experimento es una variable aleatoria x, y, f (x, θ) representa la función de densidad la cual refleja la distribución de las medidas de los individuos en la población.
Aunque el experimento no permite especificar completamente a, f(x, θ), y esto es posible si se puede asumir que, f(x, θ) es un miembro de alguna familia conocida de distribución y que θ es un parámetro no conocido tal como la media o la varianza de la población. El objetivo de la estimación puntual es asignar un valor apropiado a θ basado sobre las observaciones de la población, es decir, se asume que un conjunto de n variables independientes x1, x2, …, xn cada una con, f(x, θ) observada de un conjunto de datos  x1, x2, …, xn el cual puede representarse como f(x1, x2, …, xn : θ) = f(x1, θ) f(x2, θ) …f(xn, θ) Se asume que la distribución de la población de interés puede ser representada por un miembro de alguna familia especifica conocida, f(x, θ), indexada por el parámetro θ. En algunos casos el parámetro puede ser un vector y se denota por Θ.
Se denotara por Ωcomo el espacio paramétrico que denota el conjunto de todos los posibles valores que el parámetro θ puede asumir. Si Θ es un vector entonces Ω será un subconjunto del espacio euclidiano de la misma dimensión y la dimensión de Ω va a corresponder al número de parámetros reales no conocidos.
Se asume que x1, x2, …, xn es una muestra aleatoria de, f(x, θ) y que τ(θ) es una función de θ.
Definición
Un estadístico T = ι(x1, x2, …, xn) que es usada para estimar el valor de τ(θ) es denominado un estimador de τ(θ) y un valor observado del estadístico t = ι(x1, x2, …, xn) es denominado una estimación de τ(θ).
Equivalentemente se puede abusar y decir que un estimador es una regla que establece cómo calcular una estimación basada en las mediciones contenidas en una muestra.
Es posible obtener varios estimadores (reglas para la estimación) diferentes para un mismo parámetro poblacional. Esto nos lleva a tratar de definir cuáles son buenos o malos en la aproximación.
Para ello debemos recordar algunos conceptos teóricos que se utilizaran.
Definición
Sea g(y1, y2, …, yn) una función de las variables aleatorias y1, y2, …, yn que tienen una función de probabilidad p(y1, y2, …, yn). Entonces el valor esperado de g(y1, y2, …, yn) es E(g(y1, y2, …, yn)) = ∑ynyn-1 … ∑y2y1 g(y1, y2, …, yn) p(y1, y2, …, yn).
Si y1, y2, …, yn son variables aleatorias continuas con la función de densidad conjunta f(y1, y2, …, yn) entonces E(g(y1, y2, …, yn)) = ∫ynyn-1 … ∫y2y1 g(y1, y2, …, yn) f(y1, y2, …, yn) dy1 dy2 …dyn-1 dyn.
Teorema
Sea c una constante entonces  E(c) = c.
Teorema
Sean g(Y1, Y2) una función de las variables aleatorias Y1, Y2, y sea c una constante. Entonces E(cg(y1, y2)) = cE(g(y1, y2)).
Teorema
Sea Y1, Y2 dos variables aleatorias con la función de densidad conjunta f(y1, y2) y sea g1(Y1, Y2), g2(Y1, Y2) …gk(y1, y2) funciones de Y1, Y2. Entonces E(g1(y1, y2) + g2(y1, y2) + …+ gk(y1, y2)) = E(g1(y1, y2)) + E(g2(y1, y2)) + …+ E(gk(y1, y2))
Propiedades de los estimadores
Estimador Insesgado
Definición
Un estimador T es un estimador insesgado de τ(θ) sí E(T) = τ(θ) para todo  Ω θ, de otra manera se dice que T es un estimador sesgado de τ(θ).
Ejemplo
Considere una muestra aleatoria de una distribución f(x, θ), con Θ = (µ, σ2), donde µ y σ2 son la media y la varianza de la población.
Ahora bien la media muestral es un estadístico con la función t(x1, x2, …, xn) = (x1 + x2 + …+ xn)/n y este estadístico usualmente se denota con ẋ = ∑ni=1  xi/n que se usa como una estimación de la media poblacional µ = E(x), para X1, X2, …Xn variables aleatorias, y la función t(x1, x2, …, xn) = ((x1 - ẋ) + (x2 - ẋ) + …+ (xn - ẋ))/n – 1.
Permite obtener S2 = ∑ni=1(x1 - ẋ) / n – 1 como estimador de σ2, y ambos µ y σ2.
Ejercicio:
Verificar que son insesgados.
1) E(ẋ) = µ
2) E(S2) = σ2
Después de verificar la afirmación se tiene que los parámetros son insesgados, el espacio paramétrico asociado es un subconjunto de dos dimensiones del espacio euclidiano. En particular Ω es el producto cartesiano Ω = (−∞, ∞)x(0, ∞), para µ y σ2.
En pocas palabras nos gustaría que la media del valor esperado de la distribución de las estimaciones fuera igual al punto estimado, es decir, E(θ^) = θ.
Definición
El sesgo B de un estimador puntual θˆ está dado por B = E (θ^) - θ.
La adecuada sería (b) ya que una menor varianza garantiza que en el muestreo repetitivo una mayor fracción de valores de θˆ quede cerca de θ, es decir que la varianza V(θ^) sea mínima.
Dados dos estimadores insesgados de un parámetro θ seleccionamos el estimador con la menor varianza, permaneciendo constante en todas las condiciones restantes.
Algo que se utiliza en lugar del sesgo y la varianza para describir la bondad de un estimador puntual es el valor esperado de (θ^ - θ).
Definición
Sea X1, X2, …, Xn una muestra aleatoria de tamaño n de f(x, θ). Un estimador T° de τ(θ) es denominado un estimador insesgado uniforme de mínima varianza de τ(θ) sí:
1) T° es insesgado para τ(θ).
2) Para cualquier otro estimador insesgado T de τ(θ), Var(T°) ≤ Var(T) para todo  θ Ω.
En algunos casos la cota inferior puede ser derivada de la varianza de un estimador insesgado. Si T es un estimador insesgado de τ(θ), entonces la cota inferior Cramer- Rao basada sobre una muestra aleatoria es Var(T) = (τ’(θ))2 / nE((∂/∂θ)ln f(x, θ)) asumiendo la condición de diferenciabilidad, se puede obtener dicha expresión.
Definición
La media del cuadrado del error de un estimador puntual θˆ y se define como el valor esperado de  (θˆ - θ)2, es decir, E(θˆ - θ).
La media del cuadrado del error de un estimador θˆ, MCE (θ^) es una función al mismo tiempo de su varianza y sesgo MCE(θ^) = V(θ^) + B2.
Enseguida se muestran algunos estimadores de parámetros poblacionales.
Parámetro Objetivo θ
Tamaño de la(s) Muestra(s)
Estimador Puntual
E(θ^)
σ θ^2

µ
n
Ӯ
µ
σ2/n
P
n
P^ = y/n
P
Pq/n
µ1 - µ2
n1 y n2
Ӯ1 – Ӯ2
µ1 - µ2
12/n1) + (σ22/n2)
P1 – P2
n1 y n2
P^1 – P^2
P1 – P2
(P1q1/n1) + (P2q2/n2)

σ12 y σ22 son las varianzas de las poblaciones 1 y 2 respectivamente.
La manera de evaluar la bondad de cualquier procedimiento de estimación puntual estriba en términos de la distancia entre las estimaciones generadoras y el parámetro objetivo.
Definición
El error de estimación ε es la distancia entre un estimador y su parámetro objetivo, es decir, ε = | θ – θ^|.
Eficiencia relativa
Definición
Dados dos estimadores insesgados θ1^ y θ2^, de un parámetro θ, con varianzas V(θ1^) y V(θ2^), respectivamente, entonces la eficiencia relativa de θ1^ con respecto de θ2^ se define como la razón eficiencia = V(θ2^)/V(θ1^).
Consistencia
Definición
El estimador θˆn es un estimador consistente de θ si para cualquier número positivo ε se tiene que  limn→∞  P(|θˆn – θ| ≤ ε) = 1 o en forma equivalente limn→∞  P(|θˆn – θ| ≥ ε) = 0.
Suele utilizar el siguiente resultado para probar la consistencia de un estimador.
Teorema
El estimador insesgado θˆn para θ es un estimador consistente de θ sí limn→∞  V(θˆn) = 0.
Suficiencia
En seguida se presentan algunos métodos para encontrar estadísticos que en cierto sentido resumen toda la información en una muestra con respecto a un parámetro objetivo, y tales estadísticos tienen la propiedad de la suficiencia.
Definición
Sean y1, y2, …, yn observaciones muestrales para las variables aleatorias correspondientes Y1, Y2, …, Yn. Entonces si y1, y2, …, yn son variables aleatorias discretas, la verosimilitud (factibilidad) de la muestra, L = L(y1, y2, …, yn) se define como la probabilidad conjunta de y1, y2, …, yn. Si y1, y2, …, yn son variables aleatorias continuas, la verosimilitud L(y1, y2, …, yn) se define como la densidad conjunta evaluada en y1, y2, …, yn.
El siguiente teorema relaciona la propiedad de suficiencia con la verosimilitud.
Teorema
Sea U un estadístico basado en una muestra aleatoria y1, y2, …, yn. Entonces U es un estadístico suficiente para la estimación de un parámetro θ si y sólo si la verosimilitud L se puede factorizar en dos funciones no negativas L(y1, y2, …, yn) = g(u, θ)h(y1, y2, …, yn) en donde g(u, θ) es una función solamente de u y θ, y h(y1, y2, …, yn) no es una función de θ.
En general se desea encontrar un estadístico suficiente que reduzca los datos en la muestra hasta donde sea posible. Los estadísticos que cumplen con ése objetivo se denominan estadísticos de mínima suficiencia.
Suficiencia mínima y estimación insesgada de mínima varianza
Tales estadísticos fueron desarrollados por Lehmann y Scheffé. Suponga que y1, y2, …, yn representa una muestra aleatoria de una función de probabilidad p(y), o una función de densidad f(y) con un parámetro desconocido θ. El conjunto de variables y1, y2, …, yn puede tomar varios valores, supongamos que y1, y2, …, yn y x1, x2, …, xn, son dos conjuntos de valores posibles, el método utiliza la razón de verosimilitudes evaluadas en esto dos puntos L(x1, x2, …, xn) / L(y1, y2, …, yn)n. Varias veces es posible encontrar una función g(x1, x2, …, xn) tal que la razón mencionada no    presente el parámetro desconocido θ sí y sólo sí g(x1, x2, …, xn) = g(y1, y2, …, yn). Si se puede encontrar tal función g, entonces g(y1, y2, …, yn) es un estadístico de mínima suficiencia para θ.
Método de los momentos
Ya que el método de anterior no siempre es aplicable, el siguiente método es uno de los más antiguos, aunque el más sofisticado el de máxima verosimilitud.
Para ello recuerde que el k-ésimo momento de una variable aleatoria, tomando con respecto al origen, es µ’k = E(Yk), el correspondiente k-ésimo momento de la muestra es el promedio m’k = (1/n) ∑i=1n Yki.
Método de los momentos: Elija estimaciones aquellos valores de los parámetros que son soluciones de las ecuaciones µ’k = mk’, con k=1, 2, ..., t en donde t es igual al número de parámetros.
Método de la máxima verosimilitud
El método implica determinar alguna función de un estadístico de mínima suficiencia que sea un estimador insesgado del parámetro – objetivo. El método de los momentos generalmente no lleva a mejores estimadores, contrario al de máxima verosimilitud.
Método de la máxima verosimilitud: Escoja como estimaciones aquellos valores de los parámetros que maximizan la verosimilitud.

Comentarios

Publicar un comentario

Entradas más populares de este blog

Varianza y desviación típica

Cómo calcular la frecuencia acumulada

MEDIA ARITMETICA