Sumário
- Identificação
- Primeiro Enfoque
- Segundo Enfoque
- Estimação
- Checagem
- Previsão
- Referências
Introdução
Comece assumindo que os dados podem ser modelados de acordo com um processo ARIMA(p,d,q):
\[\phi(B)(1- B)^d y_t = \theta(B) \epsilon_t\]
onde,
\[\phi(B) = 1 - \phi_1 B - \phi_2 B^2 - ... - \phi_p B^p\]
\[\theta(B) = 1 + \theta_1 B + \theta_2 B^2 + ... + \theta_q B^q\]
Nota: componentes determinísticos (incluindo a média) são removidos antes da análise.
Mecânica:
- Identificação
- Estimação
- Checagem do Ajuste
Identificação:
Este é o passo mais difícil e envolve julgamento pessoal e subjetividade. Consiste em escolher \((p,d,q)\) do modelo ARIMA.
Estimação:
Estimar os parâmetros do modelo usando algum método de estimação.
Checagem:
Consiste em testar se o modelo selecionado representa os dados satisfatoriamente, caso contrário, reiniciar o ciclo.
1. Identificação
1.1. Primeiro Enfoque
Assumindo que a série é estacionária, analise as Autocorrelações (FAC) e Autocorrelações Parciais (FACP) amostrais e, a partir delas, tente identificar o modelo. Ou seja, no processo de identificação busca-se determinar a ordem de \((p,d,q)\) tomando-se por base o comportamento das FAC e FACP e seus respectivos correlogramas (exposição de gráficos das Funções contra a defasagem temporal). A escolha do melhor modelo requer uma grande habilidade e arte, que só se adquire com a prática. Isto é, usa-se a autocorrelação para inferir sobre a verdadeira estrutura, ou o mecanismo que os dados sugerem.
Fluxo de Identificação: Dados \(\rightarrow\) FAC e FACP \(\rightarrow\) Estimação \(\rightarrow\) Modelo \(\rightarrow\) Checagem.
Obs: Uma das formas de melhorar o grau de ajustamento do modelo é incluir defasagens, pois a inclusão de defasagem implica em aumento do número de regressores, o que leva a uma redução na soma do quadrado dos resíduos estimados. No entanto, quanto mais parâmetros, menor o grau de liberdade.
1.1.1. Autocorrelação Teórica de Séries Temporais
Admita a seguinte condição de estacionariedade:
\[ E(y_t) = E(y_{t-s}) = \mu \]
\[ E[(y_t - \mu)^2] = E[(y_{t-s} - \mu)^2]= \sigma_y^2 \leftrightarrow VAR(y_{t})= VAR(y_{t-1})=\sigma_y^2 \]
\[ E[(y_t - \mu)(y_{t-s}-\mu)] = E[(y_{t-j} - \mu)(y_{t-j-s}-\mu)] = \text{COV}(y_{t-j}, y_{t-j-s})= \gamma_s \]
Uma série temporal é estacionária na covariância se a média e todas as autocovariâncias não são afetadas pela mudança no tempo. Para definir uma série estacionária, nós podemos definir a autocorrelação entre \(y_t\) e \(y_{t-s}\) como sendo:
\[ \rho_s = \frac{\gamma_s}{\gamma_0} \]
A Função de Autocorrelação
As funções de autocorrelação e autocovariância são instrumentos utilizados na abordagem Box-Jenkins para identificar e estimar os modelos de séries temporais. Admita o modelo ARIMA(1,0,0):
\[ y_t = \alpha_0 + \alpha_1 y_{t-1} + \epsilon_t \]
Para o modelo ARIMA(1,0,0), temos:
\[ \gamma_0 = \frac{\sigma^2}{1 - \alpha_1^2} \]
\[ \gamma_s = \frac{\sigma^2 \alpha_1^s}{1-(\alpha_1)^2} \]
Para calcular a autocorrelação, dividimos cada autocovariância (\(\gamma_k\)) por \(\gamma_0\), obtendo:
\[ \rho_0 = \frac{\gamma_0}{\gamma_0} = 1 \]
\[ \begin{matrix} \vdots \\ \end{matrix} \]
\[ \rho_k = \frac{\gamma_k}{\gamma_0} \]
O gráfico da função de autocorrelação contra o tempo é chamado de correlograma e deve convergir para zero se a série for estacionária. As funções de autocorrelação (FAC) e autocorrelação parcial (FACP) estimadas são mais úteis quando apresentadas em formas de gráficos do que em formas numéricas.
Admita o Modelo ARIMA(0,0,1):
\[ y_t = \epsilon_t + \beta \epsilon_{t-1} \]
Para o modelo ARIMA(0,0,1), temos:
\[ \gamma_0 = \text{VAR}(y_t) = E[(\epsilon_t + \beta \epsilon_{t-1})(\epsilon_t + \beta \epsilon_{t-1})] = (1 + \beta^2) \sigma^2 \]
\[ \gamma_1 = \text{VAR}(y_t, y_{t-1}) = E[(\epsilon_t + \beta \epsilon_{t-1})(\epsilon_{t-1} + \beta \epsilon_{t-2})] = \beta \sigma^2 \]
\[ \begin{matrix} \vdots \\ \end{matrix} \]
\[ \gamma_s = \text{VAR}(y_t, y_{t-1}) = E[(\epsilon_t + \beta \epsilon_{t-1})(\epsilon_{t-1} + \beta \epsilon_{t-s-1})] = 0 \]
Dividindo-se cada \(\gamma_i\) por \(\gamma_0\), obtém-se a função de autocorrelação parcial. Ao contrário, a autocorrelação parcial entre \(y_t\) e \(y_{t-1}\) elimina o efeito do valor intermediário entre \(y_{t-1}\) até \(y_{t-s+1}\). O caminho mais direto para encontrar a função de autocorrelação é subtraindo a média de \(y(i)\) tal que cada observação é \(y^* = y_t - \mu\).
\[ y_t^* = \phi_{11}y^*_{t-1} + \epsilon_t \]
Desta forma, não há valor contaminado em \(\phi_{11}\). Para um processo autoregressivo de segunda ordem:
\[ y_t^* = \phi_{11} y^*_{t-1} + \phi_{22} y^*_{t-2} + \epsilon_t \]
O parâmetro \(\phi_{22}\) é o coeficiente de autocorrelação parcial entre \(y_t\) e \(y_{t-2}\). Repetindo este processo para todos os LAGs, obtém-se a autocorrelação parcial. Na prática, com uma amostra de tamanho \(T\), somente \(T/4\) lags são suficientes para o diagnóstico.
\[ \phi_{11} = \rho_1 \]
\[ \phi_{22} = \frac{\rho_2 - \rho_1^2}{1 - \rho_1^2} \]
onde:
\[ \phi_{ss} = \frac{\rho_s - \sum_{j=1}^{s-1} \phi_{s-1,j} \rho_{s-j}}{1 - \sum_{j=1}^{s-1} \phi_{s-1,j} \rho_{j}} \]
Função de Auto Correlação de um ARIMA(1,0,1)
\[ y_t= \alpha_1y_{t-1}+\epsilon_t+\beta_1\epsilon_{t-1} \]
\[ E(y_t,y_t)=\alpha_1 Ey_{t-1}y_t+E\epsilon_ty_t+\beta_1\epsilon_{t-1}y_t \rightarrow \gamma_0 \]
\[ E(y_t,y_{t-1})=\alpha_1 Ey_{t-1}y_{t-1}+E\epsilon_ty_{t-1}+\beta_1\epsilon_{t-1}y_{t-1} \rightarrow \gamma_1 \] \[ \begin{matrix} \vdots \\ \end{matrix} \] \[ E(y_t,y_{t-s})=\alpha_1 Ey_{t-1}y_{t-s}+E\epsilon_ty_{t-s}+\beta_1\epsilon_{t-1}y_{t-s} \rightarrow \gamma_s \]
Resolvendo:
\[ \gamma_0= \frac{1+\beta_1^2+2\alpha_1\beta_1}{(1-\alpha_1^2)}\sigma^2 \quad \gamma_1= \frac{1+(\alpha_1\beta_1)+(\alpha_1+\beta_1)}{(1-\alpha_1^2)}\sigma^2 \quad \rho_1= \frac{(1+\alpha_1\beta_1)+(\alpha_1+\beta_1)}{(1+\beta_1^2+2\alpha_1\beta_1)}\sigma^2 \]
1.1.2. Autocorrelação Amostral de Séries Estacionárias
Na prática, a média teórica, variância e autocorrelação de uma série são desconhecidas do pesquisador. Dado que a série é estacionária, podemos usar a média amostral, variância e autocorrelação para estimar os parâmetros do processo gerador atual. Dado \(T\) observações, podemos obter \(y\), \(\sigma^2\) e \(r_s\) como estimativas de \(\mu\), \(\sigma^2\) e \(\rho_s\), onde:
\[ \bar{y} = \frac{\sum y_t}{T} \]
\[ \sigma^2 = \frac{\sum (y_t - \bar{y})^2}{T} \]
\[ r_s = \frac{\sum_{t=s+1}^{T} (y_t - \bar{y})(y_{t-s} - \bar{y})}{\sum_{t=1}^{T} (y_t - \bar{y})^2} \quad \leftrightarrow \quad r_s = \frac{\sum (\tilde{y_t}) (\tilde{y}_{t-s})}{\sum \tilde{y_t}^2} \]
A função de autocorrelação e autocorrelação parcial podem ser comparadas às várias funções teóricas para ajudar a identificar a natureza do processo de geração dos dados. Box-Jenkins discutiram a distribuição dos valores amostrais de \((r_s)\) sob a hipótese nula que \(y_t\) é estacionária com erros normalmente distribuídos.
Permitindo \(\text{VAR}(r_s)\) representar a variância amostral de \((r_s)\), obtém-se:
\[ \text{VAR}(r_s) = T^{-1} \quad \text{se } s = 1 \]
\[ \text{VAR}(r_s) = \frac{1 + 2 \sum_{k=1}^{s-1} r_j^2}{T} \quad \text{se } s > 1 \]
Na prática, usamos estes valores amostrais das funções de autocorrelação e autocorrelação parcial para testar a significância. Se usarmos 95% de confiança (2 desvios-padrão) e o valor calculado de \(r_1\) exceder \(\frac{2}{\sqrt{T}}\), é possível rejeitar a hipótese nula de que a primeira autocorrelação não é estatisticamente diferente de zero.
Por exemplo, rejeitar uma hipótese nula significa assumir um modelo \(MA(0)\) e aceitar uma hipótese alternativa de que \(q > 0\).
\(S = 2 \cdot \text{VAR}(r_2) = \frac{1 + 2r_1^2}{T}\). Se \(r_1 = 0.5\) e \(T = 100\), a variância de \(r_2\) é 0,015 e o desvio-padrão é 0,123.
1.1.3. Segundo Enfoque
Ideia: Introduzir um esquema de penalização para o aumento do número de parâmetros. Os principais critérios para a seleção de modelos permitem um “trade-off” entre uma redução na soma do quadrado dos resíduos estimados e um modelo mais parcimonioso.
Uma das formas de melhorar o grau de ajustamento do modelo aos dados da série temporal é incluir defasagens adicionais nos processos \(AR(p)\), \(MA(q)\), \(ARMA(p,q)\) e \(ARIMA(p,d,q)\). A inclusão de defasagens adicionais implica em aumento do número de regressores, o que leva a uma redução da soma do quadrado dos resíduos estimados (SQR). Entretanto, esta melhoria do grau de ajustamento do modelo tem como contrapartida uma redução nos graus de liberdade.
Existem vários critérios de seleção de modelos que permitem um “trade-off” entre uma redução na soma do quadrado dos resíduos estimados e um modelo parcimonioso, mas os mais usados são o AIC (Akaike Information Criterion) e SBC (Schwartz Bayesian Criterion), cujas fórmulas são dadas por:
\[ AIC = T \cdot \ln(\text{Soma do Quadrado dos Resíduos}) + 2 \cdot k \]
\[ SBC = T \cdot \ln(\text{Soma do Quadrado dos Resíduos}) + k \cdot \ln(T) \]
Onde: - \(k\) = número de parâmetros estimados; - \(T\) = número de observações utilizadas.
Receita: Estime vários modelos, digamos todos os modelos correspondentes (\(p_{\text{Max}} = q_{\text{Max}} = 7\)). Escolhe-se o que tiver o menor AIC e SBC.
Geralmente, quando se trabalha com variáveis defasadas, perde-se informações sobre a série temporal em estudo. Logo, para se comparar modelos alternativos (ou concorrentes), deve-se manter fixo o número de informações utilizadas, \(T\), para todos os modelos em comparação.
A situação ideal é: quanto menor o AIC e o SBC, melhor o ajustamento do modelo. Porém, faz-se necessário comparar os AIC’s e SBC’s de modelos alternativos para saber qual modelo melhor explica a dinâmica da série temporal em estudo. Os critérios AIC e SBC podem ser negativos, isso ocorre quando a soma do quadrado dos resíduos é menor que 1 e \(T \cdot \ln(\text{SQR}) < 2k\) ou \(T \cdot \ln(\text{SQR}) > k \cdot \ln(T)\).
Observa-se que: quando se aumenta o número de regressores, reduz-se a soma do quadrado dos resíduos quando estes regressores têm poder explicativo. Se estes regressores não têm poder explicativo, há um aumento no AIC e SBC, o que significa uma piora no grau de ajustamento do modelo. Comparativamente ao AIC, o SBC tem melhores propriedades de longo prazo (Enders, 1995).
2. Estimação
Admita o seguinte modelo: \[(1 - \phi_1 B - ... - \phi_p B^p)(1 - B)^d y_t = (1 + \theta_1 B + ... + \theta_q B^q)\epsilon_t\]
O objetivo é usar os dados para estimar os parâmetros. A suposição é de que os dados seguem um processo gaussiano.
Há vários métodos de estimação que podem ser usados, por exemplo: - a. Máxima Verossimilhança Exata; - b. Mínimos Quadrados Exatos; - c. Mínimos Quadrados Condicionais; - d. “Backcastings (B)”.
Estes métodos são assintoticamente equivalentes, mas podem produzir resultados muito diferentes em amostras de tamanho moderado. As principais referências sobre este assunto estão: Anshey e Newbold, 1980; Newbold, Miller e Agrakloglov, 1994.
Importante: Diferentes pacotes usam diferentes métodos. Entretanto, mesmo pacotes que usam o mesmo método, às vezes implementam de forma diferente (valores iniciais, critérios de convergência, etc).
3. Checagem
Objetivo: Após identificado e estimado, procura-se saber se o modelo obtido descreve os dados adequadamente.
Uso da Autocorrelação Amostral dos Resíduos: Se os erros fossem conhecidos, poderíamos checar se eles são ruído branco. Assim, a sugestão é trabalhar com as estimativas dos erros. A ideia é que, se o modelo estiver corretamente especificado, os erros não devem apresentar nenhuma correlação serial.
Diagnóstico com Base nos Resíduos do Modelo Ajustado: A análise dos resíduos de modelos alternativos (concorrentes) ajustados é de extrema importância na escolha final do(s) modelo(s) que melhor explica(m) a dinâmica da série temporal em estudo.
Se os resíduos são autocorrelacionados, então a dinâmica da série em estudo não é completamente explicada pelos coeficientes do modelo ajustado. Deve-se excluir do processo de escolha modelos com esta característica.
Uma análise da existência de autocorrelação serial de resíduos é feita com base nas funções de autocorrelação dos resíduos e autocorrelação parcial dos resíduos e seus respectivos correlogramas.
Na prática, segundo Enders (1995), o número de FAC e FACP a ser analisado é de \(T/4\), e na estatística \(Q\), onde:
3.1. Q de Box-Pierce (1970)
\[ Q_{BP} = T \cdot \sum_{k=1}^{m} r_k^2 \]
3.2. Q de Ljung-Box (1978)
\[ Q_{LB} = T(T + 2) \sum_{k=1}^{m} \frac{r_k^2}{T - k} \]
onde,
\[ r_k = \frac{\sum_{t=k+1}^{T} \epsilon_t \epsilon_{t-k}}{\sum_{t=1}^{T} \epsilon_t^2} \]
\(r_k\): Autocorrelação dos resíduos
\(\epsilon_t\): Resíduos do modelo estimado
A estatística \(Q\), também denominada de Estatística de \(Q\) de Ljung-Box-Pierce, ou \(Q_{LBP}\), é utilizada para testar se o conjunto de autocorrelações dos resíduos é estatisticamente diferente de zero. Se os dados da série estudada são gerados por um processo estacionário, então a estatística \(Q_{LBP}\) tem distribuição de Qui-Quadrado. Um processo em que todas as autocorrelações de resíduos são nulas (resíduos como ruído branco) implica \(Q_{LBP}\) nulo.
\[ Q_{LBP} \sim \chi^2_{(m - p - q)} \]
Se a estatística \(Q_{LBP}\) excede o valor tabelado, dado um certo nível de significância, então deve-se rejeitar a hipótese nula, \(H_0\), de que os resíduos não são autocorrelacionados. Porém, rejeitar \(H_0\) significa aceitar a hipótese alternativa, \(H_A\), de que pelo menos uma autocorrelação, \(r_k\), é estatisticamente diferente de zero (não é ruído branco, rejeita-se o modelo). Graficamente, o teste de \(Q_{LBP}\) pode ser apresentado da seguinte forma:
O gráfico acima da distribuição qui-quadrado com 10 graus de liberdade. Ele mostra a região onde você aceitaria a hipótese nula \(H_0\) (em verde), ou seja, onde os resíduos podem ser considerados ruído branco, e a região onde você rejeitaria \(H_0\) (em vermelho), indicando que os resíduos não são ruído branco.
Se o valor calculado da estatística \(Q_{LBP}\) for maior que o valor crítico (linha preta tracejada), você rejeita \(H_0\); caso contrário, você aceita \(H_0\), assumindo que \(p \geq 5\%\).
Escolha entre Modelos Alternativos
A escolha entre os modelos alternativos estimados deve ser feita tomando por base, conjuntamente, os seguintes elementos:
Parcimoniosidade: Deve-se escolher, preferencialmente, entre os modelos de melhor ajuste, aqueles com um número menor de parâmetros. A estatística “t-student” tem um papel importante na determinação do número de parâmetros significativos nos modelos;
Invertibilidade e Estacionariedade dos coeficientes dos modelos estimados;
Análise da estatística QLBP e da FAC dos Resíduos com o objetivo de identificar se os resíduos dos modelos estimados são ruído branco;
Ajustamento do modelo aos dados da série temporal em estudo com base nos critérios AIC e SBC;
Erro Quadrado Médio de Previsão (EQM).
4. Previsão
A previsão é uma das principais razões da popularidade da metodologia de Box-Jenkins. Em muitos casos, as previsões, principalmente de curto prazo, obtidas com base em Box-Jenkins são melhores do que as obtidas com base nos modelos econométricos tradicionais.
As previsões podem ser de dois tipos: “ex-ante” e “ex-post”.
Previsão “ex-ante”: Feita para calcular valores futuros, de curto prazo, da variável em estudo.
Previsão “ex-post”: Feita para gerar valores dentro do período amostral. A ideia é que, quanto melhor forem essas previsões, melhor será o modelo estimado.
O Erro Quadrado Médio da previsão (EQM), que é igual à média do quadrado da diferença entre cada valor previsto “ex-post” e o valor real observado na amostra, é uma medida formal da qualidade das previsões “ex-post”. Quanto menor o EQM, melhor será o grau de ajustamento do modelo aos dados da série temporal em estudo.
Referências
BOX, G.; JENKINS, G. e REINSEL, G. Time Series Analysis: Forecasting and Control. Prentice Hall, 1994.
ENDERS, W. Applied Econometric Time Series. John Wiley & Sons, 1995.
ENDERS, W. RATS: Handbook for Econometric Time Series. John Wiley & Sons, 1996.
HAMILTON, J.D. Time Series Analysis. Princeton University Press, 1994.
MAKRIDAKIS, S.; WHEELWRIGHT, S. C.; HYNDMAN, R. J. Forecasting: Methods and Applications, 3ª ed. John Wiley & Sons, 1998.
MILLS, T. C. The Econometric Modelling of Financial Time Series, 2ª ed. Cambridge University Press, 1999.
MORETTIN, P. e TOLOI, C. Análise de Séries Temporais, ABE - Projeto Fisher, 2004.
PANKRATZ, A. Forecasting With Univariate Box-Jenkins Models: Concepts and Cases. John Wiley & Sons, 1983.