Logo

HETEROCEDASTICIDADE

UNIVERSIDADE FEDERAL DA PARAÍBA

Prof. Dr. Sinézio Fernandes Maia

Josué de Meneses Lopes

Código
{remove(list=ls())
options(scipen=999999)
options(max.print=100000)

keynes<-read.table("fconsumo.txt", header=T);keynes
names(keynes)<-c("renda", "consumo", "governo", "investimento", "tributo")
attach(keynes)
keynes

##Consumo##
consumoT<-ts(consumo, frequency=4, start=c(1996,1))
consumoT
consumo1<-window(consumoT, frequency=4, start=c(2021,1), end=c(2021,4))
consumo1
consumo2<-window(consumoT, frequency=4, start=c(2021,2), end=c(2022,1))
consumo2

summary(consumoT)
summary(consumo1)
summary(consumo2)
sd(consumoT)
sd(consumo1)
sd(consumo2)
CVc<-sd(consumoT)/mean(consumoT)*100
CVc
CVc1<-sd(consumo1)/mean(consumo1)*100
CVc1
CVc2<-sd(consumo2)/mean(consumo2)*100
CVc2

n<-length(consumoT)
n1<-length(consumo1)
n2<-length(consumo2)

txlinearc<-((consumoT[n]/consumoT[1])-1)*100
txlinearc
txlinearc1<-((consumo1[n1]/consumo1[1])-1)*100
txlinearc1
txlinearc2<-((consumo2[n2]/consumo2[1])-1)*100
txlinearc2
txcompc<-(((consumoT[n]/consumoT[1])^(1/n))-1)*100
txcompc
txcompc1<-(((consumo1[n1]/consumo1[1])^(1/n1))-1)*100
txcompc1
txcompc2<-(((consumo2[n2]/consumo2[1])^(1/n2))-1)*100
txcompc2

##Renda##
rendaT<-ts(renda, frequency=4, start=c(1996,1))
rendaT
renda1<-window(rendaT, frequency=4, start=c(2021,1), end=c(2021,4))
renda1
renda2<-window(rendaT, frequency=4, start=c(2021,2), end=c(2022,1))
renda2

summary(rendaT)
summary(renda1)
summary(renda2)
sd(rendaT)
sd(renda1)
sd(renda2)
CVr<-sd(rendaT)/mean(rendaT)*100
CVr
CVr1<-sd(renda1)/mean(renda1)*100
CVr1
CVr2<-sd(renda2)/mean(renda2)*100
CVr2

txlinearr<-((rendaT[n]/rendaT[1])-1)*100
txlinearr
txlinearr1<-((renda1[n1]/renda1[1])-1)*100
txlinearr1
txlinearr2<-((renda2[n2]/renda2[1])-1)*100
txlinearr2
txcompr<-(((rendaT[n]/rendaT[1])^(1/n))-1)*100
txcompr
txcompr1<-(((renda1[n1]/renda1[1])^(1/n1))-1)*100
txcompr1
txcompr2<-(((renda2[n2]/renda2[1])^(1/n2))-1)*100
txcompr2

##Investimento##
investT<-ts(investimento, frequency=4, start=c(1996,1))
investT
invest1<-window(investT, frequency=4,start=c(2021,1), end=c(2021,4))
invest1
invest2<-window(investT, frequency=4, start=c(2021,2), end=c(2022,1))
invest2

summary(investT)
summary(invest1)
summary(invest2)
sd(investT)
sd(invest1)
sd(invest2)
CVi<-sd(investT)/mean(investT)*100
CVi
CVi1<-sd(invest1)/mean(invest1)*100
CVi1
CVi2<-sd(invest2)/mean(invest2)*100
CVi2

txlineari<-((investT[n]/investT[1])-1)*100
txlineari
txlineari1<-((invest1[n1]/invest1[1])-1)*100
txlineari1
txlineari2<-((invest2[n2]/invest2[1])-1)*100
txlineari2
txcompi<-(((investT[n]/investT[1])^(1/n))-1)*100
txcompi
txcompi1<-(((invest1[n1]/invest1[1])^(1/n1))-1)*100
txcompi1
txcompi2<-(((invest2[n2]/invest2[1])^(1/n2))-1)*100
txcompi2

##Gastos do Governo##
govT<-ts(governo, frequency=4, start=c(1996,1))
govT
gov1<-window(govT, frequency=4, start=c(2021,1), end=c(2021,4))
gov1
gov2<-window(govT, frequency=4, start=c(2021,2), end=c(2022,1))
gov2

summary(govT)
summary(gov1)
summary(gov2)
sd(govT)
sd(gov1)
sd(gov2)
CVg<-sd(govT)/mean(govT)*100
CVg
CVg1<-sd(gov1)/mean(gov1)*100
CVg1
CVg2<-sd(gov2)/mean(gov2)*100
CVg2

txlinearg<-((govT[n]/govT[1])-1)*100
txlinearg
txlinearg1<-((gov1[n1]/gov1[1])-1)*100
txlinearg1
txlinearg2<-((gov2[n2]/gov2[1])-1)*100
txlinearg2
txcompg<-(((govT[n]/govT[1])^(1/n))-1)*100
txcompg
txcompg1<-(((gov1[n1]/gov1[1])^(1/n1))-1)*100
txcompg1
txcompg2<-(((gov2[n2]/gov2[1])^(1/n2))-1)*100
txcompg2

##Tributos##
tributoT<-ts(tributo, frequency=4, start=c(1996,1))
tributoT
tributo1<-window(tributoT, frequency=4, start=c(2021,1), end=c(2021,4))
tributo1
tributo2<-window(tributoT, frequency=4, start=c(2021,2), end=c(2022,1))
tributo2

summary(tributoT)
summary(tributo1)
summary(tributo2)
sd(tributoT)
sd(tributo1)
sd(tributo2)
CVt<-sd(tributoT)/mean(tributoT)*100
CVt
CVt1<-sd(tributo1)/mean(tributo1)*100
CVt1
CVt2<-sd(tributo2)/mean(tributo2)*100
CVt2

txlineart<-((tributoT[n]/tributoT[1])-1)*100
txlineart
txlineart1<-((tributo1[n1]/tributo1[1])-1)*100
txlineart1
txlineart2<-((tributo2[n2]/tributo2[1])-1)*100
txlineart2
txcompt<-(((tributoT[n]/tributoT[1])^(1/n))-1)*100
txcompt
txcompt1<-(((tributo1[n1]/tributo1[1])^(1/n1))-1)*100
txcompt1
txcompt2<-(((tributo2[n2]/tributo2[1])^(1/n2))-1)*100
txcompt2

##Regress?o - MMQO##
renda
tributo
RendaD=renda-tributo
regressao<-lm(consumoT~RendaD)
regressao
summary(regressao)

residuos<-residuals(regressao)
residuos
residuosP<-log(residuos^2)
lnrenda<-log(renda)
Park<-lm(residuosP~lnrenda)
}

Objetivos

Apresentar o problema de heteroscedasticidade para o modelo estimado por MQO, bem como sua correção.

Livro texto

GUJARATI, D. N. Econometria Básica. São Paulo: MAKRON Books, 2006. Capítulo 11 (p.313).

1. Pressuposto de Homocedásticidade

Variância Constante: o erro é uma variável aleatória com variância constante e igual, isto é, \(E(\varepsilon _i^2)=\sigma ^2\) Significa que a variância do erro é a mesma em todas as observações. Mais especificamente, significa que as distribuições dos erros (\(\varepsilon _i\)), definidas aos níveis de \(X_i\), apresentam a mesma variância. Ou seja, por definição, \(V(\varepsilon _i)=E[\varepsilon _i-E(\varepsilon _i)]^2\) dado que \(E(\varepsilon _i)=0\) a \(V(\varepsilon _i)=E(\varepsilon _i^2)=\sigma ^2\) para todo \(i\).

Esta variância é, em geral, desconhecida e constitui, também um parâmetro do modelo a ser estimado com os dados da amostra. Tecnicamente, esta pressuposição é denominada de “homoscedasticidade” que significa variação ou variabilidade igual. O caso de variância não constante é denominada de “heteroscedasticidade”. Dada a relação entre Y e o erro, pode-se mostrar que a variância de Y será igual à variância de e. Desta forma, esta pressuposição implica que a dispersão dos valores populacionais de Y é a mesma independentemente do nível de X.

1.1. A Natureza da Heteroscedasticidade

  • Modelos de aprendizagem do erro (a medida que o tempo passa o erro é menor);

  • Renda discricionária (a variância aumenta com o aumento da renda);

  • Técnica de coleta de dados;

  • Presença de “outliers” (observações aberrantes);

  • Modelo com erro de especificação.

Obs: o problema de heteroscedasticidade é mais comum em dados de corte do que em séries temporais (vide tabela 11.1 pg 359 do Gujarati, 2000).

1.2. Conseqüências sobre as propriedades dos estimadores de MQO

Admita as seguintes propriedades, dadas as hipóteses do MRLC:

  • Linearidade e não-viés \(\therefore E(\widehat{\beta })=\beta\)

  • Eficiência \(Min\) \(Var(\widehat{\beta })<Var(\widetilde{\beta })\)

  • Consistência \(\therefore \lim_{n\rightarrow \infty }E(\widehat{\beta })=\beta\)

Como o estimador de \(\sigma ^2\) é \(\widehat{\sigma }^2=\frac{\widehat{\varepsilon' }\widehat{\varepsilon }}{n-k}\) a soma do quadrado dos resíduos tende a ser alta e torna o estimador \(\widehat{\sigma }^2\) viesado e, portanto, o estimador \(Var(\widehat{\beta })\) é inapropriado. Os testes t-student e F-snedecor também serão enganosos por que a soma dos quadrados dos resíduos não pondera a heterocedasticidade e \(\widehat{\sigma }^2\) é tendencioso.

CONCLUSÃO: não levar em consideração a informação acerca da heterocedasticidade torna o estimador não eficiente.

Assim, apesar da estimação dos parâmetros continuarem não tendenciosos, não é eficiente; isto é, não será estimações de variâncias mínimas se apresentar heteroscedasticidade conduzindo a testes estatísticos incorretos. A violação do pressuposto de que a distribuição tem variância constante ao longo das observações se dá o nome de heteroscedasticidade, que é mais comum em dados de seção cruzada, prejudicando a eficiência dos parâmetros estimados.

Dessa forma, a conseqüência do uso do MQO na presença de heteroscedasticidade é de que os intervalos de confianças e os testes de hipóteses com as estatísticas “t” e “F” geralmente não garantem variâncias mínimas para os parâmetros estimados. Neste caso, os intervalos de confiança são maiores tendo como conseqüência a imprecisão dos testes.

O Objetivo da avaliação econométrica em relação à heteroscedasticidade é:

  1. Como identificar a heteroscedasticidade?

  2. Quais suas conseqüências?

  3. Como corrigir o problema?

Não existe uma regra firme e segura para detectar a presença de heteroscedasticidade, somente algumas regras gerais e básicas. Em alguns casos, pode ser uma questão de intuição, conjectura, experiência empírica anterior ou pura especulação (Gujarati, 2000).

A pergunta que se faz é: admitindo que o parâmetro estimado \(\beta _i\) ainda seja linear e não-viesado, continua sendo eficiente? (ou de variância mínima?).

2. Testes Informais - Gráficos

A forma de detectar a presença de heterocedasticidade é:

Examinar, informalmente, os gráficos do resíduos e verificar se a distribuição se mantém constante ao longo do tempo ou, se existe alguma forma crescente ou decrescente da trajetória dos resíduos estimados, ao longo do tempo;

  • Se não houver nenhuma informação prévia, ou empírica, sobre a natureza da heteroscedasticidade, podemos, na prática, fazer a análise de regressão sob a hipótese de que não há nenhuma violação e efetuar uma análise dos resíduos ao quadrado, para verificar se eles exibem algum padrão sistemático. Pode-se efetuar uma análise dos resíduos em relação ao tempo (t); em relação à (\(Y\)); ou em relação à variável explicativa (\(X\)).

Formalmente, pode-se detectar a presença de heteroscedasticidade através dos testes de Park (1966), Teste de Glejser (1969), Teste de Goldfeld-Quandt (1972), Teste de White (1980) e outros.

3. Testes Formais

3.1. Teste de Park

Park (1966) formaliza o método gráfico ao sugerir que \(\sigma ^2\) seja uma função da variável explicativa \(X\). A forma funcional sugerida por Park é:

\[\sigma_i ^2=\sigma^2X_i^\beta e^{v_i}\Leftrightarrow ln\sigma_i^2+ln\sigma^2+\beta lnX_i+v_i\]

Como \(\sigma^2\) não é conhecido, Park sugere usar o \(\widehat{\varepsilon }_i^2\) e como uma proxy e estimar a seguinte regressão:

\[ln\widehat{\varepsilon }_i^2=ln\sigma^2+\beta lnX_i+v_i\]

\[ln\widehat{\varepsilon }_i^2=\alpha+\beta lnX_i+v_i\]

Interpretação:

Se b se revelar estatisticamente significativo, isto sugere que a heteroscesdasticidade está presente nos dados. Se b se mostra não significativo, podemos aceitar a hipótese da homoscedasticidade. Assim o teste de Park é um procedimento de dois estágios. No primeiro estágio estima-se a regressão por MQO, desconsiderando a questão da heteroscedasticidade e obtém-se os resíduos (\(\widehat{\varepsilon }_i^2\)). O segundo estágio estima-se a regressão de PARK e efetua-se o teste de significância estatística dos parâmetros.

3.2. Teste de Park no R

Código
summary(Park)

Call:
lm(formula = residuosP ~ lnrenda)

Residuals:
     Min       1Q   Median       3Q      Max 
-11.8367  -0.6178   0.8242   1.3692   3.2434 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.1290     4.1927   0.508 0.612691    
lnrenda       1.2050     0.3094   3.895 0.000175 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.358 on 103 degrees of freedom
Multiple R-squared:  0.1284,    Adjusted R-squared:  0.1199 
F-statistic: 15.17 on 1 and 103 DF,  p-value: 0.0001749

3.3. Teste de Glejser

O teste de Glejser (1969) é similar, em essência, ao teste de Park. Depois de obtermos os resíduos da regressão por MQO, Glejser sugere que calculemos a regressão dos valores absolutos dos \(\left |\widehat{\varepsilon }_i^2 \right |\) e sobre a variável \(X_i\) que acredita-se estar intimamente associada à variância. Dos experimentos de Glejser, seleciona-se algumas formas funcionais:

\[\left | \widehat{\varepsilon }_i \right | =\beta _0+\beta _1X_i+v_i\]

\[\left | \widehat{\varepsilon }_i \right | =\beta _0+\beta _1\sqrt{X_i}+v_i\]

\[\left | \widehat{\varepsilon }_i \right | =\beta _0+\beta _1\frac{1}{X_i}+v_i\]

\[\left | \widehat{\varepsilon }_i \right | =\beta _0+\beta _1\frac{1}{\sqrt{X_i}}+v_i\]

Glejser verificou que, para amostras grandes, os modelos dão resultados satisfatórios na detecção da heteroscesdasticidade. Para amostras pequenas, pode ser usada como um expediente qualitativo para descobrir algo sobre a heteroscedasticidade.

Interpretação:

Se \(\beta\) se revelar estatisticamente significativo, esta sugeriria que a heteroscedasticidade está presente nos dados. Se\(\beta\) se mostrar não significativo, pode-se aceitar a hipótese de homoscedasticidade.

  • Obs: Goldfeld e Quandt (1972) chamaram a atenção para o fato de o termo de erro (\(v_i\)) da equação dos resíduos apresentar alguns problemas, já que seu valor esperado é diferente de zero (os autores sugerem que o termo de erro apresenta correlação serial e é heteroscedástico).

3.4. Teste de Goldfeld-Quandt

Este método foi desenvolvido por Goldfeld e Quandt (1972) e é o método mais popular. Em síntese, o método envolve ordenar os dados a partir dos pequenos valores da variável independente, \(X\), e obter duas regressões, uma para pequenos valores de \(X\) e uma para grandes valores de \(X\), omitindo (\(d=\frac{1}{4}\)) observações centrais. Se admitirmos que a variância é heteroscedástica e se relaciona positivamente com uma das variáveis explicativas no modelo de regressão \(Y_i=\beta _0+\beta _1X_{1i}+\beta _2X_{2i}+...+\beta _{k}X_{ki}+\varepsilon _i\) e, por hipótese, admitimos que \(\sigma_i ^2\) se relacione positivamente com \(X_i\) da seguinte forma

\[\sigma_i ^2=\sigma^2X_i^2\]

Esta hipótese postula que \(\sigma_i^2\) é proporcional ao quadrado da variável \(X\). Se esta hipótese for apropriada, significa que \(\sigma_i^2\) seria tanto maior quanto maiores os valores de \(X\). Se for este o caso, é mais provável que a heteroscedasticidade esteja presente no modelo. Para testar isto Goldfeld-Quandt (1972) sugerem os seguinte passos:

Relacionar a variância do erro com uma variável explicativa \(V(\varepsilon _i)=X_1\), neste caso:

  1. Ordenar as observações em ordem crescentes com \(X_j\) (crescentes); se a \(V(\varepsilon _i)\) estiver crescendo com \(X_j\), mostra realmente a relação existente entre as duas variáveis;

  2. Eliminar (d) observações centrais da amostra (geralmente 1/4 das observações);

  3. Ajustar o modelo para as duas sub-amostras e retirar dos modelos as somas dos quadrados dos resíduos da regressão: SQRes1 da sub amostra (1) e SQRes2 da sub amostra (2) e então verifica-se se a razão das somas dos quadrados dos erros da segunda para a primeira regressão é significativamente diferente de zero, usando a tabela F;

  4. Ou seja, testar as seguintes hipóteses:

  • \(H_0:\sigma _1^2=\sigma _2^2\) (para sub-amostras) = homoscedasticidade

  • \(H_A:\sigma _1^2\neq \sigma _2^2\) (para sub-amostras) = heteroscedasticidade

  1. Calcular a razão:

\[\lambda =\frac{\frac{SQR(2)-(Maior\text{ }S^2)}{GL}}{\frac{SQR(1)-(Menor\text{ }S^2)}{GL}}\text{}\text{ onde } GL=\frac{(n-d-2k)}{2}\]

  1. Testar o resultado na distribuição de F–Assintótica;

Se admitirmos que os resíduos se distribuem normalmente (como geralmente fazemos) e se a hipótese de homoscedasticidade for válida, então se pode mostrar que \(\lambda\) segue a distribuição F com graus de liberdade \(\frac{(n-d-2k)}{2}\) no numerador e denominador.

Interpretação:

Se o \(\lambda\) calculado for maior que o F-crítico, pode-se rejeitar a hipótese de homoscedasticidade, ou seja, pode-se dizer que é bastante provável a presença de heteroscedasticidade à base de dados testada.

3.5. Teste de Goldfeld-Quandt no R

Código
library(lmtest)
length(residuos); length(residuos)*0.15
[1] 105
[1] 15.75
Código
gqtest(regressao, fraction = 15.75, alternative = "greater")

    Goldfeld-Quandt test

data:  regressao
GQ = 51.755, df1 = 43, df2 = 42, p-value < 0.00000000000000022
alternative hypothesis: variance increases from segment 1 to 2

3.6. Teste de White

Ao contrário do teste de Goldfeld-Quandt, que requer a ordenação das observações referente às variáveis explicativas (\(X\)) o teste de White (1980) também é usual por não depender da hipótese de normalidade e de fácil aplicação. Admita o seguinte modelo de regressão de três variáveis:

\[Y_i+\beta _1+\beta _2X_{2i}+\beta _3X_{3i}+\varepsilon _i\]

o teste de White é feito da seguinte forma:

  • Obtém-se os resíduos da regressão acima, estimada por MQO;

  • Estima-se a seguinte equação:

\[\widehat{\varepsilon _i}^2=a_1+a_2X_{2i}+a_3X_{3i}+a_4X_{2i}^2+a_5X_{3i}^2+a_6X_{2i}X_{3i}+v_i\]

os resíduos ao quadrado da regressão original são regredidos sobre as variáveis explicativas (\(X_{is}\)) originais, seus valores elevados ao quadrado e o produto cruzado dos regressores (\(X_{is}\)). Destaca-se o \(R^2\) desta regressão “auxiliar”.

  • Sob a hipótese nula de que não há heteroscedasticidade, pode-se mostrar que o tamanho da amostra (n) multiplicado pelo Coeficiente de Determinação, \(R^2\) (da regressão auxiliar), assintoticamente segue a distribuição por Qui-Quadrado com GL igual ao número de regressores da regressão auxiliar (excluindo o termo constante), temos:

\[n\cdot R^2\sim X^2_{GL(\text{número de regressões})}\]

Interpretação:

se o valor de Qui-Quadrado obtido exceder o valor de Qui-Quadrado tabelado, a conclusão é de que há heteroscedasticidade. Caso contrário, o modelo é homoscedástico, o que significa que, na regressão auxiliar \(a2=a3=a4=a5=a6=0\).

Intuição:

neste procedimento está implícito a hipótese de que a variância do erro é funcionalmente relacionado com os regressores. Se todos os coeficiente parciais forem iguais a zero, então a variância do erro é a constante - homoscedasticidade.

3.7. Teste de White no R

Código
library(whitestrap)
white_test(regressao)
White's test results

Null hypothesis: Homoskedasticity of the residuals
Alternative hypothesis: Heteroskedasticity of the residuals
Test Statistic: 40.09
P-value: 0

4. Medidas Corretivas

Como salientado, a heteroscedasticidade não destrói as propriedades de inexistência de viés de consistência dos estimadores de MQO, mas estes não são mais eficientes, nem mesmo assintoticamente (isto é, em grandes amostras). Esta falta de eficiência coloca em dúvida o valor do procedimento usual para o teste de hipótese. Portanto, necessita-se claramente de medidas corretivas. Há duas abordagens para corrigir o problema: quando a variância da população for conhecida e quando desconhecida.

Admita o modelo com heteroscedasticidade onde há variabilidade nas diferentes classes. Para elaborar uma estimativa, seria prudente considerar esta informação no método de estimação. Considerar esta informação permite uma estimativa mais precisa dos parâmetros do modelo econométrico.

O método de MQO não segue a estratégia de incluir esta “informação” e confere igual peso (ou importância) a cada observação. Para isso, usa-se o método de mínimos quadrados generalizado (MQG). Seja o modelo:

\[\frac{Y_i}{\sigma _i}=\beta _0\frac{1}{\sigma _i}+\beta _1\frac{X_i}{\sigma _i}+\frac{\varepsilon _i}{\sigma _i}\]

\[MQG\Rightarrow Y_i^*=\beta _0+\beta _1X_i^*+\varepsilon ^*\]

MQG representa o uso das variáveis transformadas que satisfazem as hipóteses usuais dos MQO. Entretanto, o MQG minimiza uma soma ponderada de quadrados dos resíduos onde \(\frac{1}{\sigma _i^2}\) serve de peso (o maior peso é dado às observações mais agrupadas junto às suas médias).

4.1. Procedimento usual (admite variância do erro desconhecida)

Reestimar o modelo com uma “informação” a mais incorporada ao modelo, admitindo hipóteses sobre o padrão de heteroscedasticidade. Admita o seguinte modelo econométrico,

\[Y_i+\beta_0+\beta _1+\beta _2X_{2i}+...+\beta _kX_{ki}+\varepsilon _i\]

Hipótese 1:

A variância do erro é proporcional a uma das variáveis explicativas: \(E(\varepsilon _i^2)=\sigma ^2X_i^2\).

  • Observação: acredita-se que a variância do erro seja proporcional ao quadrado das variáveis explicativas, podemos transformar o modelo original da seguinte maneira:

Divida o Modelo Original por \(X_i\)

\[\frac{Y_i}{X_i}=\frac{\beta _0}{X_i}+\beta _1+\frac{\varepsilon _i}{X_i}\rightarrow Y_i^*=\beta _0\frac{1}{X_i}+\beta _1+v_i\]

\[\text{Assim, }E(v_i^2)=E\left ( \frac{\varepsilon _i}{X_i} \right )^2=\frac{1}{X_i^2}E(\varepsilon _i^2)\Rightarrow \frac{1}{X_i^2}\cdot \sigma ^2X_i^2=\sigma ^2 \text{ (usando a Hipótese 1)}\]

Conseqüentemente, a variância do erro é agora homoscedástica, e podemos passar a aplicar o MQO à equação transformada.

Hipótese 2:

A variância do erro é proporcional a \(X_i\). \(E(\varepsilon _i^2)= \sigma ^2X_i\)

Caso se acredite que a variância do erro, em vez de ser proporcional a Xi elevado ao quadrado, seja proporcional ao próprio \(X_i\), então o modelo original pode ser transformado da seguinte maneira,

\[\frac{Y_i}{\sqrt{X_i}}=\frac{\beta _0}{\sqrt{X_i}}+\beta _1\sqrt{X_i}+\frac{\varepsilon _i}{\sqrt{X_i}}\rightarrow Y_i^*=\beta _0\frac{1}{\sqrt{X_i}}+\beta _1\sqrt{X_i}+v_i\]

\[\text{Assim, }E(v_i^2)=E\left ( \frac{\varepsilon _i}{\sqrt{X_i}} \right )^2=\frac{1}{X_i}E(\varepsilon _i^2)\Rightarrow \frac{1}{X_i}\cdot \sigma ^2X_i=\sigma ^2 \text{ (usando a Hipótese 2)}\]

Portanto, podemos passar a aplicar o MQO à equação transformada.

Cuidado: o modelo transformado não deve possuir o intercepto.

Hipótese 3:

uma transformação em log do tipo: \(lnY_i=\beta _1+\beta _2lnX_i+\varepsilon\)

Este resultado ocorre porque a transformação em log comprime as escalas nas quais as variáveis são medidas, reduzindo assim uma diferença de dez vezes entre dois valores para uma diferença de duas vezes. Uma vantagem adicional da transformação em log é que o coeficiente de inclinação mede a elasticidade de \(Y\) com relação a \(X\) (ou seja, a variação percentual em \(Y\) para uma variação percentual em \(X\)).

A correção passa por tentativas onde estamos “especulando” sobre a natureza de \(\sigma_i^2\)

  • Regressão linear múltipla: qual variável deve ser escolhida para transformar os dados?

  • Transformação em LOG: não é aplicável para casos com variáveis negativas, ou nulas;

  • Correlação espúria: a correlação esta presente no modelo transformado, mas o modelo original não apresenta correlação;

  • Quando \(\sigma_i^2\) não é diretamente conhecido, todos os testes t e F são válidos somente para grandes amostras.