Logo

MODELOS DE BOX-JENKINS

UNIVERSIDADE FEDERAL DA PARAÍBA

Prof. Dr. Sinézio Fernandes Maia
Monitores: Victor Andrade Medeiros e Josué de Meneses Lopes
Atualização: 18.02.2025

Introdução

Utiliza-se o termo Box-Jenkins (BJ) em homenagem a George E.P. Box e Gwilym M. Jenkins, que são os responsáveis por formalizar o procedimento usado para análises de séries univariadas de tempo. [Box, George E. P. and Jenkins, Gwilym M. Time Series Analysis, Forecasting and Control. Holden Day, San Francisco, 1976.] Eles construíram importantes contribuições para compreender a teoria e prática das formulações para previsões de dados estatísticos. Utiliza-se também a notação BJ para referenciar modelos univariados de tempo e, muitas vezes, para estabelecer o método referido como modelos ARIMA (Auto-Regressive Integrated Moving Average).

Em outras palavras, séries univariadas de tempo B-J/ARIMA estão baseadas somente sobre o passado da própria variável para fins de previsões, ou seja, não são baseadas sobre quaisquer outras variáveis. A principal característica é deixar os dados falarem por si mesmos; “o analista deve se apaixonar pelos seus dados e não pelos seus modelos”.

Em síntese, o método de Box-Jenkins consiste em ajustar modelos auto-regressivos integrado médias móveis ARIMA(p,d,q) a um conjunto de dados e a estratégia para a construção do modelo será baseada nos próprios dados.

1. Objetivos dos Modelos Box–Jenkins

  1. Efetuar uma especificação matemática do modelo;
  2. Efetuar uma identificação (obtenção de \((p)\), \((d)\), \((q)\)):
    1. Função Autocorrelação (FAC);
    2. Função Autocorrelação Parcial (FACP);
  3. Efetuar uma estimação;
  4. Efetuar a checagem do modelo:
    1. Testes de adequabilidade dos modelos.

Obs: Com o propósito de previsão, escolher-se-á os modelos ajustados que forneçam o menor erro quadrado médio de previsão.

A fase mais crítica desta metodologia de Box-Jenkins é a identificação. É possível que vários pesquisadores identifiquem modelos diferentes para a mesma série temporal utilizando critérios diferentes de escolhas: FAC, FACP, AKAIKE, HANNAN, SCHWARTZ. Com isso, os modelos devem ser parcimoniosos, isto é, contendo um número pequeno de parâmetros.

2. Formalização Matemática

Novas técnicas e resultados têm se desenvolvido para aplicação específica em séries temporais, cujo estudo se constitui uma importante área da estatística. Exemplos em economia podem ser os preços diários de uma ação, desemprego mensal, exportação mensal, etc.

O objetivo consiste em apresentar métodos para construção, identificação, estimação e checagem de sistemas dinâmicos e de séries econômicas de tempo. Neste ínterim, devemos relembrar as técnicas matemáticas de equações diferenciais e as equações em diferenças.

Admita séries em tempo contínuo: o objetivo é estudar a mudança em \(y\) em que seja representada por \(\frac{dy}{dt}\), com uma variação temporal envolvida sendo infinitesimal; neste caso, a solução destes modelos é por meio de equações diferenciais. Por outro lado, em uma série de tempo discreta, onde \((t)\) assume apenas valores inteiros, a mudança da variável \(y\) deve ser descrita pelas “diferenças”. Neste caso, a solução é por equações em diferenças. Quando o tempo é discreto, a variável \(y\) assume um valor diferente apenas quando \((t)\) muda de um valor inteiro para outro, isto é, no intervalo, nada ocorre com \(y\).

2.1. Equações em Diferenças

Uma equação em diferenças expressa uma relação entre uma variável dependente defasada, que muda para cada intervalo de tempo discreto, por exemplo, \(I_t = f(Y_{t-1})\), onde \(I\) e \(Y\) são medidos ao final de cada período.

A ordem de uma equação em diferença é determinada pelo maior número de períodos que representa um intervalo de tempo. Uma equação em diferenças de primeira ordem expressa um intervalo de tempo de um período; uma de segunda ordem, de dois períodos, e assim por diante.

A mudança de \(y\) quando \((t)\) passa para \((t+1)\) é chamada de primeira diferença de \(y\) e se escreve da seguinte forma:

\[\frac{\Delta y}{\Delta t}=\Delta y_t = y_t - y_{t-1}\]

onde \(\Delta\) é um operador que substitui \(\frac{d}{dt}\), usado para medir as variações contínuas nas equações diferenciais. A solução de uma equação em diferenças define \(y\) para cada valor de \(t\), e não contém uma expressão de diferença, por exemplo:

\[I_t = a(Y_{t-1} - Y_{t-2})\]

\[Q_s = a + bP_{t-1}\] Dessa forma, em análise de dinâmica econômica, o objetivo é obter uma trajetória temporal a partir de um padrão dado de mudança da variável \(y\) no tempo. Este padrão é representado por:

\[\frac{dy}{dt} \leftrightarrow \frac{\Delta y_t}{\Delta t}\leftrightarrow \Delta y,\]

admitindo tempo discreto (onde a variação de \(t\) é de uma unidade).

As equações em diferenças podem ser lineares ou não-lineares, homogêneas ou não-homogêneas e de primeira ou de ordem superior. Ou seja:

  • Linear: \(y\) não está elevada à segunda (ou mais) potência.
  • Não-homogênea: o lado direito (onde não há \(y\)) é não-nulo.
  • Primeira ordem: só contém uma diferença \(\Delta y\) envolvendo uma defasagem de apenas um período. Admita,

\[y_t = \phi y_{t-1} + w_t\]

Quais são os efeitos em \(y_t\) dada uma mudança em \(w_t\)?

2.2. A solução

  1. Equação diferencial: O objetivo é achar a trajetória \(y_t\) que é função do tempo, em que não aparece nenhuma derivada e que é consistente com a equação diferencial dada uma condição inicial (instrumento: integração).

  2. Equações em diferenças: O objetivo é achar a trajetória de \(y_t\) que define o seu valor \(y_t\) em cada período de tempo que seja consistente com a equação em diferenças, dada uma condição inicial (instrumento: como?).

Método Iterativo: caso de primeira ordem onde a equação em diferenças descreve o padrão de mudança de y entre dois períodos consecutivos,

\[y_{t +1} = y_t + 2\] e, dado um valor inicial \(y_0\), não há problemas em achar \(y_1\) da equação – uma vez que \(y_1\) é obtido, torna-se simples obter \(y_2\) e assim por diante, através de aplicação repetida (iteração) do padrão de mudança especificado na equação em diferenças.

Os resultados das iterações permitem, então, inferir a trajetória temporal.

2.2.1. Exemplo 1

Admita \(\Delta y_t = y_{t+1} - y_t\) onde o padrão de mudança \(\Delta y_t = 2\), inicia-se com 15 \((y_0=15)\).

Solução:

\[y_1 = y_0 + 2\]

\[y_2 = y_1 + 2 \rightarrow (y_0 + 2) + 2 \rightarrow y_0 + 2(2)\]

\[y_3 = y_2 + 2 \rightarrow (y_0 + 2(2)) + 2 \rightarrow y_0 + 3(2)\] \[ \begin{matrix} \vdots \\ \end{matrix} \]

\[y_t = y_0 + t(2) \leftrightarrow y_t = 15 + 2(t)\]

O processo de iteração serve para apontar o modo pelo qual a trajetória temporal é gerada. Em geral o valor de \(y_t\) depende do valor de y no período imediatamente anterior \((y_{t-1})\); portanto, um valor inicial dado \(y_0\) conduz sucessivamente a \(y_i\) via padrão especificado de mudança.

2.2.2. Exemplo 2

Admita a análise do multiplicador:

Investimento em \((I_0)\) produz sucessivas rodadas de \((I_t)\), as quais produzem montantes variáveis de acréscimos de renda em períodos subsequentes \((y)\).

\(y_t = y_0 + I_t\)

Se a \(PMgC = 0,9\) e se a renda de cada período é consumida somente no próximo período, então 90% de \(y_0\) são consumidos no período:

\[ y_1 = 0,9 y_0 \]

\[ y_2 = 0,9 y_t \]

\[ \begin{matrix} \vdots \\ \end{matrix} \]

\[ y_{t+1} = 0,9 y_t \]

Para problemas com equações em diferenças homogêneas, têm-se:

\(my_{t+1} = n y_t \leftrightarrow my_{t+1} = 0 \leftrightarrow y_{t+1} = (\frac{n}{m})y_t\) então \(y_t = (\frac{n}{m})^ty_0\) é através de \((\frac{n}{m})^t\) que os diversos valores de \(t\) conduzem aos valores correspondentes de \(y_t\), assim em equações em diferenças têm-se, \(b^t\) onde \(b=(\frac{n}{m})\); então, podemos associar a constante multiplicativa \((A)\) ao invés de \(y_0\) e a solução da equação em diferença homogênea, em sua forma geral, é dada por:

\[ y_t = A b^t \rightarrow \ equações\ em\ diferenças \]

\[ y_t = A e^{rt} \rightarrow \ equações\ em\ diferenciais \] a trajetória temporal contínua \(y_t\) depende do valor de \(r\) enquanto a trajetória discreta \(y_t\) depende do valor de \(b\).

A solução geral de \(y_t=by_{t-1}+a\) onde \(b\) e \(a\) são constante e, a fórmula geral para uma solução é dada por:

\[ y_t=(y_o-\frac{a}{1-b})b^t+\frac{a}{1-b}\ ;\quad \forall \quad b \neq 1\ \] \[ y_t=y_0+ at\ ; \forall b = 1 \] se nenhuma condição inicial é dada, uma constante arbitrária \((A)\) é usada para \((y_o-\frac{a}{1-b})\). Esta é chamada de solução geral de uma equação em diferença e, sintetizando temos:

\[ y_t = A b^t + c \] A solução geral de uma equação em diferença consiste de uma função complementar e um componente particular, dado por:

  1. uma integral particular \(y_p\) que é qualquer solução da equação não homogênea;
  2. uma função complementar \(y_c\)

\[ y_t=y_c+y_p\\ y_c=Ab^t\\ y_p=c=\frac{a}{1-b} \]

o componente \(y_p\) representa o nível de equilíbrio intertemporal de \(y\) e o componente \(y_c\) representa os desvios da trajetória temporal em relação ao equilíbrio. Assim, \(y_p + y_c\) constitui a solução geral devido a presença de uma constante arbitrária e necessitamos de uma condição inicial. Para o componente \(y_c\) (função complementar) podemos tentar uma solução na forma \(y_t = Ab^t \leftrightarrow y_{t+1} = Ab^{t+1}\). Dessa forma, temos:

\[ Ab^{t+1} + aAb^t = 0 \leftrightarrow b+a =0 \leftrightarrow b=-a \]

2.3. Condição de Estabilidade

A estabilidade do equilíbrio depende (no tempo contínuo) do termo \(Ae^{rt}\) da função complementar. No tempo discreto o papel correspondente á estabilidade do equilíbrio é desempenhado pelo termo \(Ab^t\) da função complementar. A questão é: o equilíbrio é estável? A solução desta questão consiste em:

a)investigar se a função complementar tende a zero quando \(t \rightarrow \infty\). Basicamente, necessitamos analisar a trajetória do termo \(Ab^t\) quando t aumenta indefinidamente;

  1. o valor de \(b\) pode assumir determinados espaços e, em cada região exponencial \(b^t\) gera um tipo diferente de trajetória temporal.

Admita,

\(y_t= Ab^t + c\) onde \(A=(y_0-\frac{a}{1-b})\) e \(c=\frac{a}{1-b}\). Dessa forma \(Ab^t\) é denominado de função complementar; \(c\) é a solução particular. A solução particular expressa o nível de equilíbrio intertemporal de \(y\); a função complementar representa os desvios do equilíbrio.

A equação será dinamicamente estável somente se a função complementar \(Ab^t \rightarrow 0\), quando \(t \rightarrow \infty\). Neste caso, tudo depende de \(b\). Admita que \(A = 1\) e \(c = 0\), a expressão exponencial \(b^t\) gerará 7 diferentes trajetórias no tempo, dependendo do valor de \(b\), da seguinte forma:

  1. \(\|b\| > 1 \rightarrow\) a trajetória de \(y\) no tempo “explodirá” distanciando-se cada vez mais do equilíbrio;

  2. \(\|b\| < 1 \rightarrow\) a trajetória de \(y\) no tempo “diminuirá”, convergindo em direção ao equilíbrio;

  3. \(b < 0 \rightarrow\) a trajetória no tempo oscilará entre valores positivos e negativos;

  4. \(b > 0 \rightarrow\) a trajetória no tempo será não oscilatória.

Se \(A \neq 1\), o valor da constante multiplicativa aumentará ou diminuirá a magnitude de \(b^t\), mas não mudará o padrão básico do movimento;

Se \(A = -1\), uma imagem de espelho da trajetória no tempo de \(b^t\) com respeito ao eixo horizontal será produzida.

Se \(c \neq 0\), o intercepto vertical do gráfico é afetado e o gráfico é deslocado para cima ou para baixo.

Regiões possíveis de b, em 7 regiões distintas

2.4. Aplicações

:::::::::::::::: {style=“text-align: justify”} ::: border #### Modelo 1: Modelo Macroeconômico de Determinação da Renda

Admita o seguinte modelo defasado de determinação da renda:

\(C_t=C_0+cY_{t-1}\) e \(Y=C_t+I_t\) e \(I_t=I_0\), então, \(Y_0=C_0+cY_{t-1}+I_0\)

rearranjando os termos, \(Y_t=cY_{t-1}+C_0+I_0\), onde, \(b=c\) e \(a=C_0+I_0\)

substituindo estes valores em \(y_t=(y_0-\frac{a}{1-b})b^t+\frac{a}{1-b}\) e admitindo que a \(PMgC\), \(c\), não pode ser igual a 1 e supondo, ainda que \(Y_t=Y_0\) quando \(t=0\), temos:

\[ Y_t=(Y_0-\frac{C_0+I_0}{1-c})c^t+\frac{C_0+I_0}{1-c} \] a estabilidade da trajetória no tempo dependerá do valor de \(c\). Como a \(0<PMgC<1\) então \(|c|<1\) e a trajetória no tempo, convergirá. Como \(c>0\), não haverá oscilações e o equilíbrio será estável quando \(t \rightarrow \infty\), então \(Y_t \rightarrow \frac{C_0+I_0}{1-c}\) que representa o nível de equilíbrio intertemporal da renda.

Modelo 2: Modelo de Crescimento de Harrod

O modelo de Harrod procura explicar a dinâmica do crescimento da economia. O modelo supõe que \(S_t=sY_t\), onde s é uma constante igual a \(PMgS\). O modelo também supõe o princípio da aceleração, isto é, o investimento é proporcional à taxa de variação da renda nacional no tempo, da seguinte forma

\[ I_t = a(Y_t - Y_{t-1}) \] onde a é uma constante igual à relação capital-produto tanto marginal quanto médio.No equilíbrio \(I_t=S_t\), portanto,

\[ a(Y_t-Y_{t-1})=sY_t\\ aY_t-aY_{t-1} - sY_t = 0\\ (a-s)Y_t=aY_{t-1}\\ Y_t=(\frac{a}{a-s})Y_{t-1} \] utilizando \(a/a-s\) diferente de 1, então

\[ Y_t = (Y_0)(\frac{a}{a-s})^t+0\\ Y_t = (\frac{a}{a-s})^t Y_0 \]

Logo, a estabilidade da trajetória no tempo depende de \((a/a-s)\). Já que a é igual a relação capital-produto, que normalmente é maior que 1 e, já que a \(PMgS=s\), que é maior que zero e menor que 1, a base \((\frac{a}{a-s})\) será maior que zero e, normalmente maior que 1. Portanto, \(Y_t\) é explosivo, mas não oscilatório. A renda expandir-se-á indefinidamente, o que significa que não tem limites.

Resumo A solução geral de uma equação em diferenças é composta de uma função complementar e uma solução particular, da seguinte forma:

\[ y_t=y_c+y_p \] \(y_c=Ab^t \rightarrow\) função complementar \(\rightarrow\) desvios de equilíbrio de \(y_t\); \(y_p=c=\frac{a}{1-b} \rightarrow\) solução particular \(\rightarrow\) nível de equilíbrio intertemporal, \(y_t\). Estabilidade ocorrerá somente se \(Ab^t \rightarrow0\), quando \(t\rightarrow \infty\) (depende de \(b\)).

3. Formalização Estatística

Em geral, os modelos utilizados para descrever séries temporais são processos estocásticos, isto é, processos controlados por leis probabilísticas. Qualquer que seja a classificação que façamos para os modelos de séries temporais, podemos considerar um número muito grande de modelos diferentes para descrever o comportamento de uma série particular. A construção destes modelos depende de vários fatores, tais como o comportamento do fenômeno ou o conhecimento a priori que temos de sua natureza, e do objetivo da análise.

Uma série temporal é um conjunto de observações feitas sequencialmente no tempo. Entretanto, o tempo pode ser substituído por qualquer variável como espaço, profundidade, etc. As observações vizinhas são dependentes e o estudo de uma série temporal consiste em analisar e modelar esta dependência.

3.1. Processos Estocásticos e Estacionariedade

Propriedades de séries absolutamente convergentes Definição: uma seqüência infinita é uma seqüência cujo domínio é o conjunto \(D_1 = \{1, 2, 3, \ldots\}\). Uma seqüência duplamente infinita é uma função cujo domínio é o conjunto \(D_2 = \{0, \pm 1, \pm 2, \pm 3, \ldots\}\).

Notação: \(\{a_j\}_{j=1}^{\infty}\); \(\{a_j\}_{j=-\infty}^{\infty}\); \(\{a_j\}_{j=1}^{\infty}\) ou \(\{a_j\}\)

Uma série infinita gerada por \(\{a_j\}_{j=1}^{\infty}\) é definida como sendo uma seqüência de somas parciais, isto é,\(\{s_j\}_{j=1}^{\infty}\) ou \(s_i = \sum_{i=1}^{j} a_j\) onde o limite é dado por \(\lim_{n \to \infty} \sum_{j=1}^{n} a_j\) quando o limite existe.

Propriedade de série convergente. Se \(a_j\) é absolutamente somável, então \(\sum_{j=-\infty}^{\infty} a^2_j < \infty\).

Possibilidades: a) o limite da série é finito → a série é convergente; b) o limite da série é não-finito → a série é divergente; c) dizemos que \(S_j\) é absolutamente convergente (ou que é absolutamente somável) se: \(\lim_{n \to \infty} \sum_{j=1}^n |a_j| < \infty\).

Admita,\(X\): variável aleatória e \(x\): realização de uma variável aleatória,
formalmente, uma série temporal é representada por um conjunto de observações \(\{X_t : t \in T\}\) de uma variável \(X\), onde o conjunto \(T\) é um conjunto de índices (tempo, espaço, profundidade, etc). Dependendo da natureza de \(T\) e de \(X\), a série temporal pode ser:

  1. Discreta, quando \(T\) é um conjunto finito de pontos, \(T = \{1,2,\ldots,T\}\). Por exemplo, o valor das exportações mensais de 1980 até 2000 (Notação \(x_t\));

  2. Contínua, quando \(T\) é um intervalo finito, \(T = \{t: 0 < t < T\}\). Por exemplo, medições durante dois minutos de um eletrocardiograma (Notação \(x(t)\));

  3. Multivariada, (discreta ou contínua), \(\{X_1(t), \ldots, X_k(t) \,|\, t \in T\}\) ou \(\{X(t) \,|\, t \in T\}\). Por exemplo, vendas (\(x_{1t}\)) e gastos com propagandas semanais de um produto (\(x_{2t}\));

  4. Multidimensional, quando temos \(\{X(t) \,|\, t \in T\}\) e \(t\) é um vetor. Por exemplo, \(\{X(t,r,l) \,|\, t \in T\}\) onde \(X\) é a altura de um ponto do oceano, \(t\) o tempo, \(r\) a latitude e \(l\) a longitude. Ou ainda, \(\{x(t,b) \,|\, t \in T\}\) onde \(x\) é o número de casos de dengue semanais (\(t\)) por cidade (\(b\)).

Definição 1: Um processo estocástico é uma família de V.A.: \(\{ X_t, t \in T \}\) definido no espaço de probabilidade \((\Omega, F, P)\). Importante, \(\forall\ t \in T\), \(X_t(.)\) é uma função em \(\Omega\). \(\forall\ \omega \in \Omega\), \(X_t(\omega)\) é uma função em \(T\).

Definição 2: Uma série temporal \(\{X_t, t \in T\}\) é dita ser fortemente estacionária se as funções de distribuição conjuntas de \(\{X_{t_1},\ldots,X_{t_n}\}\) e \(\{X_{t_1+h},\ldots,X_{t_n+h}\}\) são as mesmas para todo \(n \in T\). As propriedades estatísticas da série devem ser as mesmas para todos os intervalos observados.

Note: Se a série tem média definida, esta deve ser constante, e o mesmo valor para todos os outros momentos, isto é,
\(E(x_t) = \text{constante};\)
\(\text{Var}(x_t) = \text{constante}\)
\(\text{Cov}(x_t,x_{t+h}) = \text{constante} \ldots\)

O problema para esta definição é que não é testável. Em geral, não conhecemos \(F\) e, quando a conhecemos, é restrita demais.

Definição 3: Uma série temporal \(\{X_t, t \in T\}\) é dita ser fracamente estacionária se,
i) \(E(x_t) = \text{constante};\)
ii) \(\text{Var}(x_t) = \text{constante};\)
iii) \(\text{Cov}(x_t,x_{t+h})\) depende apenas de \(h\) e não de \(t\).

Note: Esta definição requer que os dois primeiros momentos sejam invariantes. A vantagem é que é testável, isto é, há instrumentos para testar a hipótese de estacionariedade fraca (ex, teste de raiz unitária).

Exemplo: “passeio aleatório” (randon walk)

Seja a seguinte série: \(X_t = X_{t-1} + \epsilon_t\), admita,

  1. \(E(\epsilon_t) = 0\);

  2. \(VAR(\epsilon_t) = \sigma^2\);

  3. \(COV(\epsilon_t, \epsilon_{t+h}) = 0\)

  4. \(X_0 = 0\)

Então,

\[ X_t = X_{t-1}+\epsilon_t;\ X_{t-1} = X_{t-2}+\epsilon_{t-1} \]

\[ X_t=X_{t-2}-\epsilon_{t-1}+\epsilon_t \]

\[ X_t=X_{t-3}-\epsilon_{t-2}+\epsilon_{t-1}+\epsilon_t \]

\[ \begin{matrix} \vdots \\ \end{matrix} \] \[ X_t= \sum_{j=1} ^i \epsilon_j \] A série nada mais é do que um somatório de todos os “erros” ou “inovações” até o tempo \(t\). Importante é verificar como se comporta a variância desta série:

\[ VAR(X_t) = VAR\left( \sum_{j=1}^{t} \epsilon_j \right) = \sum_{j=1}^{t} VAR(\epsilon_j) = t \cdot \sigma^2 \] (portanto \(X_t\) é não-estacionário)

Autocovariâncias e Autocorrelação

Seja \(\{X_t, t \in T\}\) um processo com \(VAR(X_t) < \infty \ \forall \ t \in T\). A função de autocovariância \(\gamma_X(\cdot,\cdot)\) de \(X_t\) é dada por:

\[ \gamma_X(r,s) = COV(X_r, X_s) = E[(X_r - E(X_r))(X_s - E(X_s))] \] ou ainda,

\[ \gamma_X(h) = COV(X_t, X_{t+h}) \]

\[ \gamma_X(0) = COV(X_t, X_t) = VAR(X_t) \text{ onde } h = 0, 1, 2, 3, \ldots \]

Definição 4: A função de autocorrelação de um processo estacionário \(({X_t, t \in T})\) é definida como:

\[ \rho(h) = \frac{\gamma(h)}{\gamma(0)} \]

ou seja, \(\rho(\cdot)\) possui todas as propriedades de \(\gamma(\cdot)\) com a propriedade adicional de que \(\rho(0) = 1\).

Definição 5: Seja \(({X_t, t \in T})\) uma série temporal e assuma, sem perda de generalidade, que \(E(X_t) = 0\). A \(m\)-ésima autocorrelação parcial é o último coeficiente na projeção linear de \(\gamma\) nos seus \(m\) valores possíveis:

\[ X_t = \hat{\phi}_0 X_t + \hat{\phi}_1 X_{t-1} + \cdots + \hat{\phi}_{m} X_{t-m+1} \]

Portanto, \(\phi_m\) é uma medida da correlação entre \(X_t\) e \(X_{t-m}\) depois de se levar em conta a correlação entre \(X_t\) e \(X_{t-1}, \ldots, X_{t-m+1}\).

3.2. Operadores

Backshift Notation: Operadores de Defasagens

  1. Operador de Defasagem: RETARDO
    \(B y_t = y_{t-1}\)
    \(B^m y_t = y_{t-m}\)

  2. Operador de Diferenças
    \(\Delta y_t = y_t - y_{t-1}\)
    \(\Delta y_t = (1 - B) y_t \rightarrow \Delta=(1-B)\)
    \(\Delta = (1 - B)\)

  3. Operador de Translação para o Futuro
    \(F y_t = y_{t+1}\)
    \(F^m y_t = y_{t+m}\)

  4. Operador Soma
    \(S y_t = \sum y_{t-j} = y_t + y_{t-1} + y_{t-2} + \cdots = (1 + B + B^2 + \cdots) y_t\)
    \(S y_t = (1 - B)^{-1} y_t = \Delta^{-1} y_t\)

A 1ª diferença de uma sequência \(\{ y_t \}\) é definida como:

\[ \Delta y_t = y_t - y_{t-1}, \quad t = 1, 2, 3, \ldots \]

e, para a \(n\)-ésima diferença, temos:

\[ \Delta^n y_t = \Delta^{n-1} y_t - \Delta^{n-1} y_{t-1} = \sum_{r=0}^{n} (-1)^r \binom{n}{r} y_{t-n} \]

Generalização:

\[ B y_t = y_{t-1} \quad \rightarrow \quad B^2 y_t = y_{t-2}, \ldots, \quad B^n y_t = y_{t-n} \]

Assim, \(D y_t\) pode ser escrita da seguinte forma:

\[ \Delta y_t = y_t - y_{t-1} = y_t - B y_t = (1 - B) y_t \]

Admita também:

\[ y_t + a_1 y_{t-1} + \cdots + a_n y_{t-n} = k_t \]

\[ y_t + a_1 B y_t + \cdots + a_n B^n y_t = k_t \]

\[ (1 + a_1 B + \cdots + a_n B^n) y_t = k_t \]

\[ A(B) y_t = k_t \]

onde:

\[ A(B) = (1 + a_1 B + \cdots + a_n B^n)y_t \]

4. Modelos Usuais de Séries Temporais

::::::::: {style=“text-align: justify”} Os modelos que serão estudados são casos particulares de um modelo de filtro linear. Neste modelo supõe que a série temporal é gerada através de um filtro linear (ou sistema linear) cuja entrada é ruído branco.

\[ y_t = \mu + \epsilon_t + \phi_1\epsilon_{t-1} + \phi_2\epsilon_{t-2} + \cdots = \mu + \psi(B)\epsilon_t\\ \Psi(B) = 1 + \psi_1B+\psi_2B^2+\cdots \]

Admitindo que \(y_t\) seja um processo linear (discreto) existe um modelo se a série $_{j=1}^_j $ convergir.

\[ y_t = \mu + \sum_{j=0}^{\infty} e_{t-j} \]

Problemas de interesse aqui são:

  1. Estimar a função de transferência, \(\Psi(B)\), conhecendo-se as séries de entrada e saída;

  2. Fazer previsões da série \(y_t\), com o conhecimento de observações da série de entrada \((\epsilon)\) e de \(\Psi(B)\);

  3. Estudar o comportamento do sistema, simulando-se a série de entrada;

  4. Controlar a série de saída \(y_t\), de modo a trazê-la o mais próximo possível de um valor desejado, ajustando-se convenientemente a série de entrada \((\epsilon)\); este controle é necessário, devido às perturbações que normalmente afetam um sistema dinâmico.

4.1. Modelos Estacionáros

Em modelos de séries temporais, a cada instante \(t\), temos somente uma observação \(x_t \in X\). Se desejarmos saber alguma coisa sobre a média, a variância e a autocovariância dos erros, é preciso que se faça alguma suposição adicional sobre o tipo de processo analisado.

Uma das suposições mais frequentes que se faz a respeito de uma série temporal é a de que ela é estacionária, ou seja, ela se desenvolve aleatoriamente, ao redor de uma média constante, refletindo um equilíbrio estável. Entretanto, a maior parte das séries que encontramos na prática apresenta alguma forma de não estacionariedade.

Em geral, as séries econômicas apresentam tendências, sendo o caso mais simples aquele em que a série flutua ao redor de uma reta com inclinação positiva ou negativa (tendência linear). As séries não estacionárias podem apresentar as seguintes características:

  1. Não-estacionária explosiva;

  2. Estacionária por um período e não estacionária em outro período;

  3. Estacionária por um período mudando de nível e/ou inclinação em outro.

A classe de modelos Box-Jenkins será capaz de descrever de maneira satisfatória séries estacionárias e séries não estacionárias, mas que não apresentam comportamento explosivo. Este tipo de não estacionariedade é chamado de homogêneo.

Intuitivamente, um processo é estacionário se ele se desenvolver no tempo de modo que a escolha de uma origem de tempo não é importante. Em outras palavras: não existe mudança sistemática na média e na variância ao longo do tempo.

Formalmente, diz-se que um processo é estacionário se:

  1. \(E\{y_t\} = \mu(t) = \mu \rightarrow\) independe do tempo (constante);

  2. \(\text{Var}\{y_t\} = \sigma^2(t) = \sigma^2 \rightarrow\) independe do tempo (constante);

  1. Todas as distribuições são invariantes sob translação do tempo. Logo, a média e a variância são constantes no tempo.
  1. \(v(t_1,t_2) = v(t_1 - t_2) = v(\tau)\) \(\text{Cov}\{Y(t_1),Y(t_2),Y(t_3)\} \rightarrow\) é função de \((\tau)\) \(v(\tau)\) é função de um só argumento ao longo de toda a série.

Obs: nem todas as séries temporais são realizações de processos estacionários, o que se faz é transformar a série em estacionária e utilizar a teoria dos processos estacionários para a sua transformada.

Admita o seguinte gráfico:

Tal processo pode tornar-se estacionário através de diferenças sucessivas. Como a maioria dos procedimentos de análise estatística de séries temporais supõe que estas sejam estacionárias, será necessário transformar os dados originais, se estes não formam uma série estacionária. A transformação mais comum consiste em tomar diferenças sucessivas da série original, até se obter uma série estacionária.

Em situações normais, será suficiente tomar uma ou duas diferenças para que a série se torne estacionária. Séries econômicas apresentam, às vezes, um crescimento exponencial e tomar diferenças pode não ser suficiente para se alcançar estacionariedade. Poderá ser necessário considerar alguma transformação não linear.

Segundo Jenkins (1979), uma razão principal para efetuar transformações é estabilizar a variância (mais precisamente, fazer com que os resíduos do modelo ajustado tenham uma variância constante).

4.2. Modelos Auto-Regressivos - AR(p)

Seja \(\epsilon_t\) um ruído branco. O processo \(y_t = c + \phi y_{t-1}+\epsilon t\) é chamado de processo auto-regressivo de ordem 1, ou \(AR(1)\).

Definição 6: Seja \(\{\epsilon_t, t \in T\}\) é um ruído branco se:

  1. \(E(\epsilon_t) = 0\);

  2. \(VAR(\epsilon_t) = \sigma^2\);

  3. \(COV(e_t, e_{t+s}) = 0: \forall \quad s \neq 0\);

  4. \(\epsilon_t \sim \text{normal}\) : ruído branco gaussiano.

Admita,

\[ y_t=s_t+\epsilon_t \\ s_t=\phi_1y_{t-1}+\phi_2y_{t-2}+ \cdots + \phi_py_{t-p} \leftrightarrow \phi(B)y_t\\ y_t-\phi(B)y_t=\epsilon_t\\ (1-\phi B)y_t=\epsilon_t\\ y_t=\frac{\epsilon_t}{1-\phi B} \]

Para o caso geral do modelo, tem-se que o modelo \(AR(p)\) é equivalente a um modelo \(MA(∞)\). A condição de estacionariedade em um processo \(AR(1)\) é dada por:

\(\phi < 1 \rightarrow\) Estacionário, pois \((1 - \phi B)^{-1}\epsilon_t \sim 0\) (zero)
\(\phi = 1 \rightarrow\) → Não se Define
\(\phi > 1 \rightarrow\) → Explosivo → Processo não converge: \((1 - \phi B)^{-1}\epsilon_t = 1 + \phi_1^2 + \phi_2^3 + ... + \phi_p^p\)

Obs: O modelo auto-regressivo mais conhecido é o modelo “passeio aleatório” (random walk).

4.3. Modelo Médias Móveis - MA(q)

Definição: Seja \(\epsilon_t\) um ruído branco. O processo \(y_t = \mu + \epsilon_t + \theta e_{t-1}\) é chamado de processo de média móvel de ordem 1, ou \(MA(1)\).

Para verificar melhor, admita o modelo \(AR(1)\):

\[y_t = \beta_0 + \beta_1 y_{t-1} + \epsilon_t\] \[t_t = \beta_0 + \beta_1 (\beta_0 + \beta_1 y_{t-2} + \epsilon_{t-1}) + \epsilon_t\]

\[t_t = \beta_0 + \beta_1 \beta_0 + \beta_1^2 y_{t-2} + \beta_1 \epsilon_{t-1} + \epsilon_t\]

\[y_t = \alpha_0 + \beta_1^2 y_{t-2} + \beta_1 \epsilon_{t-1} + \epsilon_t\]

Observe que os erros do passado e de hoje estão relacionados no modelo. Assim, o processo regressivo de ordem 1 pode conter uma média dos erros do passado e presente. Por isso, surgem os modelos chamados de Modelos Moving Average (MA).

\[ y_t = \theta_0 +\epsilon_t+ \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + \ldots + \theta_q \epsilon_{t-q} \]

Dessa forma, temos que estudar os dois modelos \(AR(p)\) e \(MA(q)\).

4.4. Modelos Auto-Regressivos e Médias Móveis - ARMA

Ideia: combinar as classes de modelos AR e MA para formar uma classe mais geral. Um modelo ARMA(p,q) é definido da seguinte forma:

\[ y_t = \phi_0 + \phi_1 y_{t-1} + \phi_2 y_{t-2} + \ldots + \phi_p y_{t-p} + \epsilon_t + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + \ldots + \theta_q \epsilon_{t-q} \]

onde \(\epsilon_t\) é ruído branco com distribuição \(N(0,\sigma^2)\). Aqui, \(p\) é a ordem de auto-regressão e \(q\) é a ordem da estrutura de médias móveis, ou seja,

\[ \phi(B)y_t = c + \theta(B) \epsilon_t \]

onde:

\[ \phi(B) = (1 - \phi_1 B - \phi_2 B^2 - \ldots - \phi_p B^p) \]

\[ \theta(B) = (1 + \theta_1 B + \ldots + \theta_q B^q) \]

\(y_t\) é estacionário se as raízes de \((1 - \phi_1 B - \phi_2 B^2 - \ldots - \phi_p B^p)\) de \(\phi(B) = 0\) estiverem fora do círculo unitário.

4.5. Modelos Não-Estacionários

Idéia: Estender os modelos ARMA para lidar com séries não- estacionárias. Sugere-se que existam processos não-estacionários, mas que não apresente comportamento explosivo e que sua primeira diferença (segunda ou terceira) seja estacionária. Este tipo de não estacionariedade é chamado de modelos homogêneos e os processos são chamados de processos integrados.

Os processos não estacionários homogêneos podem ser transformados em estacionários por processo de diferenciação:

\(t\) \(Y_t\) \(Y_{t-1}\) \(\Delta y_t\) \(\Delta y_{t-1}\) \(\Delta^2 y_{t-2}\)
1 4 - - - -
2 5 4 1 - -
3 7 5 2 1 1
4 9 7 2 2 0
5 11 9 2 2 0

5. Modelos ARIMA(p,d,q)

Um modelo ARIMA(p,d,q) é representado como:

\[ \phi(B) [(1 - B)^d y_t] = \theta(B) \epsilon_t \]

onde:

  • \(\phi(B)\) é o polinômio autoregressivo de ordem \(p\): \[ \phi(B) = 1 - \phi_1 B - \phi_2 B^2 - \ldots - \phi_p B^p \]

  • \(\theta(B)\) é o polinômio de médias móveis de ordem \(q\): \[ \theta(B) = 1 + \theta_1 B + \theta_2 B^2 + \ldots + \theta_q B^q \]

  • \(d\) é a ordem da diferenciação (integração) de \(y_t\). A escolha de \((d)\) é possível a partir de testes de Raiz Unitária.

  • \(\epsilon_t\) é o erro ou ruído branco.

Note que o modelo ARMA(p,q) é um caso particular da classe \(ARIMA(p,d,q)\), correspondendo ao modelo \(ARIMA(p,0,q)\). Portanto:

\[ y_t = \phi_0 + \phi_1 y_{t-1} + \phi_2 y_{t-2} + \ldots + \phi_p y_{t-p} + \epsilon_t + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + \ldots + \theta_q \epsilon_{t-q} \] \[ y_t - \phi_0 + \phi_1 y_{t-1} + \phi_2 y_{t-2} + \ldots + \phi_p y_{t-p}= \epsilon_t + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + \ldots + \theta_q \epsilon_{t-q} \]

\[ (1 - \phi_1 B - \phi_2 B^2 - \ldots - \phi_p B^p)y_t = (1 - \theta_1 B - \theta_2 B^2 - \ldots - \theta_q B^q)\epsilon_t \]

\[ \phi(B) y_t = \theta(B) \epsilon_t \]

\[ y_t = \frac{\Theta B}{\Phi B}\epsilon_t \]

Newbold e Granger (1974) apresentam um estudo completo de aplicações de modelos para previsões. Os autores analisam 106 séries temporais econômicas (80 mensais e 26 trimestrais). Estas séries incluem dados sazonais e não-sazonais, macro e micro. Cada série foi dividida em duas partes e a modelagem foi feita com base em modelos ARIMA e modelos alternativos (Holt-Winters e Stepwise). A conclusão do trabalho mostra que previsões de Modelo ARIMA são consideravelmente melhores para previsões de curto prazo. Quando o horizonte de previsão aumenta, a vantagem relativa do método ARIMA diminui.

Referências

BOX, G.; JENKINS, G. e REINSEL, G. Time Series Analysis: Forecasting and Control. Prentice Hall, 1994.

ENDERS, W. Applied Econometric Time Series. John Wiley & Sons, 1995. ENDERS, W. RATS: Handbook for Econometric Time Series. John Wiley & Sons, 1996.

HAMILTON, J.D. Time Series Analysis. Princeton University Press, 1994.

MAKRIDAKIS, S.; WHEELWRIGHT, S. C.; HYNDMAN, R. J. Forecasting: Methods and Applications, 3ª ed. John Wiley & Sons, 1998.

MILLS, T. C. The Econometric Modelling of Financial Time Series. 2ª ed. Cambridge University Press, 1999.

MORETTIN, P. e TOLOI, C. Análise de Séries Temporais, ABE - Projeto Fisher, 2004.

PANKRATZ, A. Forecasting With Univariate Box-Jenkins Models: Concepts and Cases. John Wiley & Sons, 1983.