Estimação da Média, Método Generalizado dos Momentos e Cramer Rao
Faz muito tempo que eu não escrevo aqui. O que o primeiro ano do doutorado não faz! Eu trago um post que apresenta um problema que é extremamente simples e com uma solução não óbvia - pelo menos para mim. Eu vou apresentar o problema, discutir o método generalizado dos momentos (Generalized Method of Moments) e resolver o problema. Na sequência, eu vou discutir uma extensão do problema, e usar o limite inferior de Crámer Rao.
O modelo é bem simples: nós temos duas variáveis aleatórias, e . tem média 0 e tem uma média desconhecida, . Nós também sabemos que e tem variâncias finitas, e , respectivamente; e covariância . Nós queremos estimar a média de , .
O estimador mais natural é a média amostral, , que tem variância . A pergunta aqui é: existe um estimador melhor que esse? A intuição é simples, e assuma que a covariância entre e é positiva: sabemos que a média de é zero. Suponha que nós observamos uma amostra e calculamos a média amostral de . Se a média é maior que zero, nós podemos usar a correlação positiva para afirmar que a nossa média amostral de é maior do que o valor esperado de e obter um estimador que é mais preciso que a média amostral de usando a informação obtida com a média amostral de .
Vamos formalizar isso usando o método generalizados dos momentos.
O Método Generalizado dos Momentos
Vamos começar com o que a gente já (?) sabe: o método dos momentos é uma técnica de estimação que nos diz para pegar qualquer momento teórico e substituir ele por um momento amostral. Você quer estimar a média, ? O método dos momentos nos diz para usar a média amostral, . E a variância, ? Bom, use - lembre que .
Para motivar o método generalizado dos momentos, vamos considerar que tem uma distribuição Poisson, que tem um único parâmetro . A coisa legal da Poisson é que a média e a variância são iguais a . Você pode se sentir tentado a usar a média ou a variância para estimar o parâmetro. Mas usar um ou outro parece jogar informação fora e talvez uma combinação dos dois seja o ideal?
O método generalizado dos momentos faz exatamente isso. Para combinar os momentos, nós minimizamos uma forma quadrática. Me mantendo no exemplo da Poisson, nós poderíamos fazer:
Eu posso ser mais geral que isso e colocar alguns pesos! Eu posso colocar até pesos que fazem o termo entre os dois (ou mais) momentos! Eu vou escrever isso em forma matricial: seja a nossa função dos momentos e uma matriz de pesos (ela tem que ser positiva definida - isso vai garantir que a nossa função quadrática tem um mínimo e não um máximo). O que o método generalizado dos momentos faz é:
O exemplo com os momentos da Poisson usa e:
O método generalizado dos momentos é muito próximo de variáveis instrumentais: variáveis instrumentais impõe uma condição de momento, . Se nós temos mais variáveis instrumentais do que regressores, nós temos sobreidentificação. A solução usual é mínimos quadrados em dois estágios, que é o método generalizado dos momentos e .
De volta ao problema
Nosso problema é achar um estimador para a média de quando nós temos uma amostra iid tal que a média de é 0 e nós variâncias finitas e covariância entre e .
Nós vamos usar o método generalizado dos momentos. Os momentos que vamos usar são as médias amostrais, então nós temos:
E os pesos? Se eu usar , o problema é resolvido com . A matriz “ótima” de pesos - significando que minimiza a variância do estimador - é a inversa da variância dos momentos. O bom desse exemplo é que a variância dos momentos é fácil de calcular: a variância da média amostral é só a variância da variável aleatória dividida pelo tamanho da amostra. Você obtém a covarância usando a mesma ideia (e o fato de que a amostra é iid):
Matriz é inversível na mão e é fácil o suficiente que nem eu sou capaz de errar:
O determinante na divisão vai multiplicar a expressão toda, e como ele é positivo, não faz nenhuma diferença pro problema em mãos. Nós iremos minimizar:
Isso é obtido usando a equação 2 na equação 1 e fazendo todas as multiplicações de matriz. Agora, resta a única coisa que um economista precisa saber: derivar e igualar a zero!:
Verificando a nossa intuição lá em cima: suponha que a covariância entre e é positiva. Se a média amostral de for maior que zero, então a média amostral de vai ser acima do valor esperado . Sem muito esforço, a gente pode verificar que este estimador tem uma variância mais baixa que a média amostral:
É claro que é positivo, então a gente está subtraindo alguma coisa da variância da média amostral de e o nosso estimador tem uma variância menor que a variância da média amostral.
A estrutura que eu impus no modelo é mínima. O fascinante aqui é que ter uma variável com média conhecida que é correlacionada com a variável cuja média nós desconhecemos permite obter uma estimativa melhor do que a média amostral.
Esse estimador é não viesado:
Limite de Crámer Rao
Se você teve um excelente curso de estatística, você já ouviu falar do limite de Crámer Rao. A ideia é bem simples: entre todos os estimadores não viesados, qual alcança a menor variância? O limite de Cramer Rao nos diz que, se é um estimador não viesado de (para uma amostra i.i.d.) e é a densidade de :
Por exemplo, pro caso da normal univariada com média e , nenhum estimador (não viesado) consegue obter uma variância menor que . Isso abarca o exemplo acima, mas o univariado está fazendo todo o trabalho aqui.
Eu não impus nenhuma distribuição no exemplo acima: eu só impus uma média finita e segundo momento finito. Será que existe algum estimador melhor do que o do método generalizado dos momentos no caso bivariado? Crámer Rao pode nos dar uma resposta, mas como depende da distribuição, a gente vai ter que impor uma distribuição. A mais conveniente é a normal. A normal bivariada tem densidade:
Eu to usando e é a correlação entre e , logo . Vamos tirar o log:
Vamos tirar a primeira derivada:
Eu poderia calcular o quadrado disso e obter uma expressão que depende de , e . Honestamente, isso dá muito trabalho! Eu digo, sem fornecer nenhuma prova, que:
Obtendo a segunda derivada:
Então, o limite inferior de Cramer Rao é:
Agora, use a definição de , para obter:
Essa é exatamente a variância obtida usando o método dos momentos. O nosso estimador obtido pelo método generalizado dos momentos é o mais eficiente se a distribuição conjunta das variáveis é normal.