Curso de Estadistica Inferencial (Parte Uno)

Estadística Inferencial

El presente documento es una guía para el curso de inferencia estadística impartida en el Instituto Nacional de Estadística Geografía e Informática (INEGI), en el edificio de capacitación; y no tiene más que esa finalidad. La sección de ejercicios será presentada por el instructor de acuerdo a su preferencia, además de agregar los temas que él considere pertinentes.

La parte inicial es una ubicación teórica que presenta algunos de los conceptos más importantes y resultados que serán utilizados en la parte formal. En ningún momento deberá seguirse al pie de la letra la secuencia de exposición, el instructor tomará la secuencia que considere trascendental en su impartición.

La segunda parte es todo el curso que se debe impartir, y se tocan los temas pero desde un punto de vista más “informal”, y el tema de estimación ya nada más se revisa en su formalidad detallada en la primera parte.

La razón de la estructura de este documento es que normalmente la persona que lo elaboró, imparte la parte teórica para generalizar el objetivo y la ubicación de la inferencia estadística y resultados importantes que serán formalmente utilizados por aquellos interesados en la formulación estadística- matemática.

Ernesto Cervantes López, INEGI.

PARTE UNO

El objetivo de la estadística es hacer inferencia con respecto a la población basándose en la información contenida en una muestra.

Las poblaciones se describen mediante medidas numéricas denominadas parámetros y el objetivo de la mayoría de las investigaciones estadísticas es hacer inferencia con respecto a uno o más parámetros de la población.

El proceso de obtener un resultado observado de un fenómeno físico es denominado un experimento.

Suponga que el resultado de un experimento es una variable aleatoria x, y, f (x, θ) representa la función de densidad la cual refleja la distribución de las medidas de los individuos en la población.

Aunque el experimento no permite especificar completamente a, f(x, θ), y esto es posible si se puede asumir que, f(x, θ) es un miembro de alguna familia conocida de distribución y que θ es un parámetro no conocido tal como la media o la varianza de la población. El objetivo de la estimación puntual es asignar un valor apropiado a θ basado sobre las observaciones de la población, es decir, se asume que un conjunto de n variables independientes x₁, x₂, …, x_n cada una con, f(x, θ) observada de un conjunto de datos x₁, x₂, …, x_nel cual puede representarse como f(x₁, x₂, …, x_n : θ) = f(x₁, θ) f(x₂, θ) …f(x_n, θ) Se asume que la distribución de la población de interés puede ser representada por un miembro de alguna familia especifica conocida, f(x, θ), indexada por el parámetro θ. En algunos casos el parámetro puede ser un vector y se denota por Θ.

Se denotara por Ωcomo el espacio paramétrico que denota el conjunto de todos los posibles valores que el parámetro θ puede asumir. Si Θ es un vector entonces Ω será un subconjunto del espacio euclidiano de la misma dimensión y la dimensión de Ω va a corresponder al número de parámetros reales no conocidos.

Se asume que x₁, x₂, …, x_nes una muestra aleatoria de, f(x, θ) y que τ(θ) es una función de θ.

Definición

Un estadístico T = ι(x₁, x₂, …, x_n) que es usada para estimar el valor de τ(θ) es denominado un estimador de τ(θ) y un valor observado del estadístico t = ι(x₁, x₂, …, x_n) es denominado una estimación de τ(θ).

Equivalentemente se puede abusar y decir que un estimador es una regla que establece cómo calcular una estimación basada en las mediciones contenidas en una muestra.

Es posible obtener varios estimadores (reglas para la estimación) diferentes para un mismo parámetro poblacional. Esto nos lleva a tratar de definir cuáles son buenos o malos en la aproximación.

Para ello debemos recordar algunos conceptos teóricos que se utilizaran.

Definición

Sea g(y₁, y₂, …, y_n) una función de las variables aleatorias y₁, y₂, …, y_nque tienen una función de probabilidad p(y₁, y₂, …, y_n). Entonces el valor esperado de g(y₁, y₂, …, y_n) es E(g(y₁, y₂, …, y_n)) = ∑_yn∑_yn-1 … ∑_y2∑_y1g(y₁, y₂, …, y_n) p(y₁, y₂, …, y_n).

Si y₁, y₂, …, y_nson variables aleatorias continuas con la función de densidad conjunta f(y₁, y₂, …, y_n) entonces E(g(y₁, y₂, …, y_n)) = ∫_yn∫_yn-1 … ∫_y2∫_y1g(y₁, y₂, …, y_n) f(y₁, y₂, …, y_n) d_y1 d_y2 …d_yn-1dy_n.

Teorema

Sea c una constante entonces E(c) = c.

Teorema

Sean g(Y₁, Y₂) una función de las variables aleatorias Y₁, Y₂, y sea c una constante. Entonces E(cg(y₁, y₂)) = cE(g(y₁, y₂)).

Teorema

Sea Y₁, Y₂ dos variables aleatorias con la función de densidad conjunta f(y₁, y₂) y sea g₁(Y₁, Y₂), g₂(Y1, Y2) …g_k(y₁, y₂) funciones de Y₁, Y₂. Entonces E(g₁(y₁, y₂) + g₂(y₁, y₂) + …+ g_k(y₁, y₂)) = E(g₁(y₁, y₂)) + E(g₂(y₁, y₂)) + …+ E(g_k(y₁, y₂))

Propiedades de los estimadores

Estimador Insesgado

Definición

Un estimador T es un estimador insesgado de τ(θ) sí E(T) = τ(θ) para todo Ω ∈ θ, de otra manera se dice que T es un estimador sesgado de τ(θ).

Ejemplo

Considere una muestra aleatoria de una distribución f(x, θ), con Θ = (µ, σ²), donde µ y σ² son la media y la varianza de la población.

Ahora bien la media muestral es un estadístico con la función t(x₁, x₂, …, x_n) = (x₁ + x₂ + …+ x_n)/n y este estadístico usualmente se denota con ẋ = ∑ⁿ_i=1 x_i/n que se usa como una estimación de la media poblacional µ = E(x), para X₁, X₂, …X_nvariables aleatorias, y la función t(x₁, x₂, …, x_n) = ((x₁ - ẋ) + (x₂ - ẋ) + …+ (x_n - ẋ))/n – 1.

Permite obtener S² = ∑ⁿ_i=1(x₁ - ẋ) / n – 1 como estimador de σ², y ambos µ y σ².

Ejercicio:

Verificar que son insesgados.

1) E(ẋ) = µ

2) E(S²) = σ²

Después de verificar la afirmación se tiene que los parámetros son insesgados, el espacio paramétrico asociado es un subconjunto de dos dimensiones del espacio euclidiano. En particular Ω es el producto cartesiano Ω = (−∞, ∞)x(0, ∞), para µ y σ².

En pocas palabras nos gustaría que la media del valor esperado de la distribución de las estimaciones fuera igual al punto estimado, es decir, E(θ^{^}) = θ.

Definición

El sesgo B de un estimador puntual θˆ está dado por B = E (θ^{^}) - θ.

La adecuada sería (b) ya que una menor varianza garantiza que en el muestreo repetitivo una mayor fracción de valores de θˆ quede cerca de θ, es decir que la varianza V(θ^) sea mínima.

Dados dos estimadores insesgados de un parámetro θ seleccionamos el estimador con la menor varianza, permaneciendo constante en todas las condiciones restantes.

Algo que se utiliza en lugar del sesgo y la varianza para describir la bondad de un estimador puntual es el valor esperado de (θ^ - θ).

Definición

Sea X₁, X₂, …, X_nuna muestra aleatoria de tamaño n de f(x, θ). Un estimador T° de τ(θ) es denominado un estimador insesgado uniforme de mínima varianza de τ(θ) sí:

1) T° es insesgado para τ(θ).

2) Para cualquier otro estimador insesgado T de τ(θ), Var(T°) ≤ Var(T) para todo θ ∈ Ω.

En algunos casos la cota inferior puede ser derivada de la varianza de un estimador insesgado. Si T es un estimador insesgado de τ(θ), entonces la cota inferior Cramer- Rao basada sobre una muestra aleatoria es Var(T) = (τ’(θ))² / nE((∂/∂θ)ln f(x, θ)) asumiendo la condición de diferenciabilidad, se puede obtener dicha expresión.

Definición

La media del cuadrado del error de un estimador puntual θˆ y se define como el valor esperado de (θˆ - θ)², es decir, E(θˆ - θ).

La media del cuadrado del error de un estimador θˆ, MCE (θ^{^}) es una función al mismo tiempo de su varianza y sesgo MCE(θ^{^}) = V(θ^{^}) + B².

Enseguida se muestran algunos estimadores de parámetros poblacionales.

Parámetro Objetivo θ	Tamaño de la(s) Muestra(s)	Estimador Puntual	E(θ^{^})	σ _θ^²
µ	n	Ӯ	µ	σ²/n
P	n	P^{^} = y/n	P	Pq/n
µ₁ - µ₂	n₁ y n₂	Ӯ₁ – Ӯ₂	µ₁ - µ₂	(σ₁²/n₁) + (σ₂²/n₂)
P₁ – P₂	n₁ y n₂	P^{^}₁ – P^{^}₂	P₁ – P₂	(P₁q₁/n₁) + (P₂q₂/n₂)

σ₁² y σ₂² son las varianzas de las poblaciones 1 y 2 respectivamente.

La manera de evaluar la bondad de cualquier procedimiento de estimación puntual estriba en términos de la distancia entre las estimaciones generadoras y el parámetro objetivo.

Definición

El error de estimación ε es la distancia entre un estimador y su parámetro objetivo, es decir, ε = | θ – θ^{^}|.

Eficiencia relativa

Definición

Dados dos estimadores insesgados θ₁^{^} y θ₂^{^}, de un parámetro θ, con varianzas V(θ₁^{^}) y V(θ₂^{^}), respectivamente, entonces la eficiencia relativa de θ₁^{^}con respecto de θ₂^{^} se define como la razón eficiencia = V(θ₂^{^})/V(θ₁^{^}).

Consistencia

Definición

El estimador θˆ_n es un estimador consistente de θ si para cualquier número positivo ε se tiene que lim_n→∞ P(|θˆ_n – θ| ≤ ε) = 1 o en forma equivalente lim_n→∞ P(|θˆ_n – θ| ≥ ε) = 0.

Suele utilizar el siguiente resultado para probar la consistencia de un estimador.

Teorema

El estimador insesgado θˆ_npara θ es un estimador consistente de θ sí lim_n→∞ V(θˆ_n) = 0.

Suficiencia

En seguida se presentan algunos métodos para encontrar estadísticos que en cierto sentido resumen toda la información en una muestra con respecto a un parámetro objetivo, y tales estadísticos tienen la propiedad de la suficiencia.

Definición

Sean y₁, y₂, …, y_n observaciones muestrales para las variables aleatorias correspondientes Y₁, Y₂, …, Y_n. Entonces si y₁, y₂, …, y_nson variables aleatorias discretas, la verosimilitud (factibilidad) de la muestra, L = L(y₁, y₂, …, y_n) se define como la probabilidad conjunta de y₁, y₂, …, y_n. Si y₁, y₂, …, y_nson variables aleatorias continuas, la verosimilitud L(y₁, y₂, …, y_n) se define como la densidad conjunta evaluada en y₁, y₂, …, y_n.

El siguiente teorema relaciona la propiedad de suficiencia con la verosimilitud.

Teorema

Sea U un estadístico basado en una muestra aleatoria y₁, y₂, …, y_n. Entonces U es un estadístico suficiente para la estimación de un parámetro θ si y sólo si la verosimilitud L se puede factorizar en dos funciones no negativas L(y₁, y₂, …, y_n) = g(u, θ)h(y₁, y₂, …, y_n) en donde g(u, θ) es una función solamente de u y θ, y h(y₁, y₂, …, y_n) no es una función de θ.

En general se desea encontrar un estadístico suficiente que reduzca los datos en la muestra hasta donde sea posible. Los estadísticos que cumplen con ése objetivo se denominan estadísticos de mínima suficiencia.

Suficiencia mínima y estimación insesgada de mínima varianza

Tales estadísticos fueron desarrollados por Lehmann y Scheffé. Suponga que y₁, y₂, …, y_nrepresenta una muestra aleatoria de una función de probabilidad p(y), o una función de densidad f(y) con un parámetro desconocido θ. El conjunto de variables y₁, y₂, …, y_n puede tomar varios valores, supongamos que y₁, y₂, …, y_n y x₁, x₂, …, x_n, son dos conjuntos de valores posibles, el método utiliza la razón de verosimilitudes evaluadas en esto dos puntos L(x₁, x₂, …, x_n) / L(y₁, y₂, …, y_n)_n. Varias veces es posible encontrar una función g(x₁, x₂, …, x_n) tal que la razón mencionada no presente el parámetro desconocido θ sí y sólo sí g(x₁, x₂, …, x_n) = g(y₁, y₂, …, y_n). Si se puede encontrar tal función g, entonces g(y₁, y₂, …, y_n) es un estadístico de mínima suficiencia para θ.

Método de los momentos

Ya que el método de anterior no siempre es aplicable, el siguiente método es uno de los más antiguos, aunque el más sofisticado el de máxima verosimilitud.

Para ello recuerde que el k-ésimo momento de una variable aleatoria, tomando con respecto al origen, es µ’_k = E(Y^k), el correspondiente k-ésimo momento de la muestra es el promedio m’_k = (1/n) ∑_i=1ⁿ Y^k_i.

Método de los momentos: Elija estimaciones aquellos valores de los parámetros que son soluciones de las ecuaciones µ’_k = m_k’, con k=1, 2, ..., t en donde t es igual al número de parámetros.

Método de la máxima verosimilitud

El método implica determinar alguna función de un estadístico de mínima suficiencia que sea un estimador insesgado del parámetro – objetivo. El método de los momentos generalmente no lleva a mejores estimadores, contrario al de máxima verosimilitud.

Método de la máxima verosimilitud: Escoja como estimaciones aquellos valores de los parámetros que maximizan la verosimilitud.

Buscar este blog

MUNDO ESTADISTICA

Curso de Estadistica Inferencial (Parte Uno)

Comentarios

Publicar un comentario

Entradas más populares de este blog

Varianza y desviación típica

Cómo calcular la frecuencia acumulada

Medidas de posición