Chapter 2-3. 基礎時系列分析

Chapter 2-3. 基礎時系列分析

この章では、時系列分析でよく出てくる用語と知っておくべき概念を簡単にまとめてみたい。

確率過程（Stochastic Process）

確率過程は確率変数の数列である。つまり、{Y（t）、t = 0、±1、±2、…}の形で表すことができ、時系列データを理解するには、Y（t）の結合確率分布を分析する必要があります。なぜなら、一般的な時系列データは独立ではないので、結合確率分布を各確率変数の分布に分解することができないからである。しかし、平均と分散を分析すると、結合確率分布の多くの部分を理解することができます。

平均、分散、共分散、相関係数

前の章1.基礎線形代数と統計学で簡単に紹介した概念を数式で調べましょう。平均分散は、その時点の確率変数の平均分散です。

μ_{t} = E （ Y_{t}) 、 t = 0 、 \pm 1 、 \pm 2 、 。 。 。

σ_{t}^{2} = V a r （ Y_{t}) 、 t = 0 、 \pm 1 、 \pm 2 、 。 。 。

共分散、相関係数は、他の時点の確率変数との関連性を表します。

γ_{t 、 s} = C o v （ Y_{t} 、 Y_{s}) 、 t 、 s = 0 、 \pm 1 、 \pm 2 、 。 。 。

ρ_{t 、 s} = C o v （ Y_{t} 、 Y_{s}) 、 t 、 s = 0 、 \pm 1 、 \pm 2 、 。 。 。

そして、次の2つの式は時系列の相関性を分析する際によく使われるのでよく知っておきましょう。

C o v （ \sum_{i = 1}^{m} C_{i} Y_{t_{i}} 、 \sum_{j = 1}^{n} d_{j} Y_{s_{j}}) = \sum_{i = 1}^{m} \sum_{j = 1}^{n} c_{i} d_{j} C o v （ Y_{t_{i}} 、 Y_{s_{j}})

V a r （ \sum_{i = 1}^{n} C_{i} Y_{t_{i}}) = \sum_{j = 1}^{n} c_{i}^{2} V a r （ Y_{t_{i}}) + 2 \sum_{i = 2}^{n} \sum_{j = 1}^{i - 1} c_{i} c_{j} C o v （ Y_{t_{i}} 、 Y_{s_{j}})

ホワイトノイズ

白色雑音過程は、何のパターンもなく、ランダムに振動する確率過程である。すなわち、以下を満たす確率過程である。開発したモデルが正しくモデル化されているかどうかを分析するときは、残差がホワイトノイズに従うことを確認する必要があります。もはやモデルに追加すべきパターンがデータにないという意味だからだ。

e_{t} 、 t = 0 、 1 、 2 、 。 。 。 w h e r e e_{t} ～ i i d N （ 0 、 σ^{2})

上記の式でiidとは、identical and independentの略で、white noise同士は独立しており（互いに線形／非線形的な関係がない）、互いに同じ分布に従うことを意味する。

White Noise [ソース]: https://velog.io/@euisuk-chung/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D%EC%8B%9C%EA%B3%84%EC%97%B4-AR-MA-ARMA-ARIMA%EC%9D%98-%EB%AA%A8%EB%93%A0-%EA%B2%83-%EA%B0%9C%EB%85%90%ED%8E%B8

白色雑音過程の平均、分散、共分散は次の通りである。平均と分散は各時点で一定であり、共分散はゼロであることがわかります。.

e_{t} = 0

γ_{t, x} = σ^{2} i f t = s e l s e γ_{t, s} = 0

ρ_{t, s} = 1 i f t = s e l s e ρ_{t, s} = 0

実際にグラフを見ても、ほとんどのデータはゼロ付近の値を持っています。分散度一定で値が変動しても一定値内で振動する。

Random Walk

Random Walkは、現在の視点データは、以前の視点データに現在のランダム誤差が加わって生成されたと判断されたときに使用できる確率過程である。つまり、次の2つの式と同じです。

Y_{t} = Y_{t - 1} + e_{t} w h e r e e_{t} \sim i i d N (0, σ^{2}) f o r a l l t = 0, 1, 2, . . .

Y_{t} = \sum_{i = 1}^{t} e_{i}

ランダムウォークプロセスの平均、分散、共分散は次のとおりです。

E (Y_{t}) = 0

γ_{t, s} = C o v (\sum_{i = 1}^{t} e_{i} \sum_{j = 1}^{s} e_{j}) = t σ^{2}, 1 \leq t \leq s

ρ_{t, s} = \frac{t σ^{2}}{\sqrt{t σ^{2}} \sqrt{t σ^{2}}} = \sqrt{\frac{t}{s}}, 1 \leq t \leq s

式を解釈すると平均はゼロに一定であり、分散は時点tが大きくなるほど大きくなる。そして、視差が小さいほど高い線形相関を示すが、大きくなるほど相関は低くなる。実際に下のグラフを見ると、視点が1000になるほど分散が大きくなり平均である0から遠くなることが分かる。後に学ぶが、Random Walkは異常時系列だ。

Random Walk [ソース]: https://machinelearningmastery.com/gentle-introduction-random-walk-times-series-forecasting-python/

時系列データの特徴

정상성(Stationarity)

正常性は時系列分析における重要な概念です。データが正常性を満たさない場合、時系列は異常時系列（Non-Stationary Time Series）になり、時系列分析を実行できません。正常性を満たさないデータは、正常性を満たすように前処理しなければ分析を行うことができない。正常性の概念は大きく2つあります。最初はStrict Stationarityです。Strict Stationarityの定義は次のとおりです。

Π （ Y_{t_{1}} 、 Y_{t_{2}} 、 。 。 。 、 Y_{t_{n - 1}} 、 Y_{t_{n}}) = Π （ Y_{t_{1 - k}} 、 Y_{t_{2 - k}} 、 。 。 。 、 Y_{t_{n - 1 - k}} 、 Y_{t_{n - k}})

視差 k と視点

t_{1} 、 t_{2} 、 。 。 。 、 t_{n}

をどのように選択しても、結合確率分布が常に一定でなければならないという意味である。そうして観測された部分時系列だけを利用して全体確率過程に対する推論ができるからだ。しかし、strict stationarityを見ることは容易ではないので、これに似ていますが、数学的に弱くなったweak stationarity仮定ができました。Weak stationarityは、次の2つの条件を満たすと成立します。

μ_{t} = c f o r a l l t i m e t

γ_{t 、 t - k} = γ_{0 、 k} f o r a l l t i m e t 、 k

平均が一定で、共分散が時差のみに依存すると、weak stationarity時系列です。一般的に言うstationarityはweak stationarityを意味する。代表的な正常時系列は白い雑音プロセスである。

トレンドと季節性、サイクル

トレンドは、時系列が短期的または長期的に見える傾向を意味し、季節性は一定の頻度を持ち、繰り返し表示されるパターンを意味します。一方、周期とは、一定の頻度を持たずに繰り返し現れるパターンを意味する。アイスクリームの販売量のような場合は、一般的に夏に高く冬に低くなるので、1年間隔の季節性と見なすことができる。一方、景気循環は繰り返されますが、好況と不況は一定の間隔を持たず、周期と見なすことができます。時系列は、トレンド、季節性、周期、ランダムノイズの合計として見るか、それぞれに分解できます。

Y (t) = T (t) + S (t) + C (t) + e_{t}

XAIOpsの長期負荷予測モデルは、単一のモデルを使用せず、時系列を各成分に分解し、各成分ごとにモデルを作成して予測後に再統合する方式を使用しています。各成分を予測する際に回帰分析や時系列モデルを活用して進めてもよい。

正常時系列(Stationary Time Series)

移動平均コース(Moving Average Process)

現在の誤差が過去の誤差と相関している場合、以下の移動平均過程でモデル化することができる。

Y_{t} = e_{t} - Θ_{1} e_{t - 1} - Θ_{2} e_{t - 2} - 。 。 。 - Θ_{t - q} e_{t - q}

qが1、2、そして一般化されたkのときにどのような特徴を持つかを見てみましょう。

ｑ＝１であればモデル化でき、ＭＡ（１）確率過程の特徴は次の通りである。ここで共分散、相関係数はk = 1の場合にのみ成立し、その他の場合にはすべて0である。

E （ Y_{t}) = 0

V a r （ Y_{t}) = （ 1 + Θ^{2}) σ^{2}

C o v （ Y_{t} 、 Y_{t - 1}) = - Θ σ^{2}

C o r （ Y_{t} 、 Y_{t - 1}) = \frac{- Θ σ^{2}}{（ 1 + Θ^{2}) σ^{2}} = \frac{- Θ}{（ 1 + Θ^{2})}

一次移動平均過程は平均がゼロに一定であり、共分散が時点によって変わらないので正常確率過程である。そして時差が１の場合には線形相関があり、それ以降はない。

p_{k} = 0 、 k \leq 2

平均がゼロの理由は確率変数

Y_{t}

確率コース{

Y_{t}

平均を引いたものと仮定するからです。

q = 2の場合

Y_{t} = e_{t} - Θ e_{t - 1} - Θ e_{t - 2}

でモデル化でき、確率過程の特徴は以下の通りである。

E （ Y_{t}) = 0

V a r （ T_{t}) = （ 1 + Θ_{1}^{2} + Θ_{2}^{2}) σ^{2}

C o v （ Y_{t} 、 Y_{t - 2}) = C o v （ e_{t} - Θ_{1} e_{t - 1} - Θ_{2} e_{t - 2} 、 e_{t - 1} - Θ_{1} e_{t - 2} - Θ_{2} e_{t - 3}) = （ - Θ_{1} + Θ_{2} Θ 1) σ^{2}

C o v （ Y_{t} 、 Y_{t - 2}) = C o v （ e_{t} - Θ_{1} e_{t - 1} - Θ_{2} e_{t - 2} 、 e_{t - 2} - Θ_{1} e_{t - 3} - Θ_{2} e_{t - 4}) = - Θ_{2} σ^{2}

C o r r （ Y_{t} 、 Y_{t - 1}) = \frac{（ - Θ_{1} + Θ_{2} Θ_{1})}{（ 1 + Θ_{1}^{2} + Θ_{2}^{2})}

C o r r （ Y_{t} 、 Y_{t - 2}) = \frac{- Θ_{2}}{（ 1 + Θ_{1}^{2} + Θ_{2}^{2})}

二次移動平均過程ＭＡ（２）も平均が０で一定であり、共分散が時点に依存しないため、正常確率過程である。ただし、以前とは異なり、時差が２の場合でも線形相関があり、それ以降はない。

q = kの場合を推測してみましょう。平均がゼロで、共分散は時点に依存しないため、通常の確率プロセスです。そして時差がkの場合までは線形相関があり、k以降からはないと推測できる。ｑ＝ｋであるＭＡ（Ｋ）確率過程の特徴は次の通りである。証明は上記の方法と同様に進めばよい。

E (Y_{t}) = 0

V a r (Y_{t}) = (1 + Θ_{1}^{2} + Θ_{2}^{2} + . . + Θ_{k}^{2}) σ^{2}

ρ_{k} = \frac{- Θ_{k} + Θ_{1} Θ_{k + 1} + Θ_{2} Θ_{k + 2} + . . . + Θ_{q} Θ_{k + q}}{(1 + Θ_{1}^{2} + Θ_{2}^{2} + . . . + Θ_{k}^{2})} f o r k = 1, 2, 3, . . ., q

이동 평균 [출처]: https://otexts.com/fppkr/MA.html

자기 회귀 과정(Auto Regressive Process)

自己回帰プロセスは、現在の値が過去のp時点以前のデータの影響を受けると判断されたときに使用できます。式で表現すると、次のようになります。

Y_{t} = ϕ_{1} Y_{t - 1} + ϕ_{2} Y_{t - 2} + 。 。 。 + ϕ_{p} Y_{t - p} + e_{t}

一次自己回帰プロセスを見てみましょう。は白色雑音過程であり、現時点の誤差は過去データと独立であると仮定する。p = 1の場合は次のとおりです。

Y_{t} = ϕ （ Y_{t - 1}) + e_{t}

AR(1)確率過程の特徴は次の通りである。

E （ Y_{t}) = 0

V a r （ Y_{t}) = \frac{σ^{2}}{1 - ϕ^{2}}

γ_{k} = ϕ^{k} γ_{0} = ϕ^{k} \frac{σ^{2}}{1 - ϕ^{2}} （ ∵ γ_{k} = ϕ γ_{k - 1})

ρ_{k} = ϕ^{k}

移動平均過程と異なり、自己回帰過程では視差が１より大きくなっても自己相関があることが分かる。そして移動平均過程とは異なり、自己回帰過程は特定の条件を満たさなければ正常性を満足する。式を再帰的に無限に使用すると、現在の値は過去の時点の誤差の加重です。

Y_{t} = e_{t} + Φ e_{t - 1} + Φ^{2} e_{t - 2} + 。 。 。

上記の式は線形確率過程（General Linear Process）であり、

\sum_{j = 1}^{\infty} Φ^{2 j}

が収束しなければ正常確率過程になることが知られている。この式を満たす範囲は

- 1 \leq ϕ \leq 1

である。そうでなければ、最新のデータよりも過去の視点データの重みが大きく、論理的に妥当でないモデルになるからである。

AR(2)の場合

- 1 \leq ϕ_{2} \leq 1 、 - 1 \leq ϕ_{1} + ϕ_{2} \leq 1 、 - 1 \leq ϕ_{2} - ϕ_{1} \leq 1

という3つの式をすべて満足しなければ正常時系列となり、3次以上は複雑で省略する。

自己回帰モデル[ソース]: https://otexts.com/fppkr/AR.html

ARモデルのような場合は、過去の視点の値が現在の視点に連鎖的に影響を与えるため、特定の視点値間の相関を測定するには、中間視点の影響力を排除して比較する必要があります。これを測定した関数が部分自己相関関数である。部分自己相関関数

ϕ_{k k}

は次の通りです。

ϕ_{k k} = c o r （ Y_{t} 、 Y_{t - k} | Y_{t - 1} 、 Y_{t - 2} 、 。 。 。 、 Y_{t - k + 1})

つまり、中間時点の値は与えられた値として報告されます

Y_{t}

と

Y_{t - k}

間のばらつきだけ計算したのだ。

ϕ_{k k}

を計算する具体的に計算する方法は次のとおりです。

ϕ_{k k} = c o r （ Y_{t} - β_{1} Y_{t - 1} - β_{2} Y_{t - 2} - 。 。 。 - β_{k - 1} Y_{t - k + 1} 、 Y_{t - k} - β_{1} Y_{t - k + 1} - β_{2} Y_{t - k + 2} - 。 。 。 - β_{k - 1} Y_{t - 1})

線形回帰分析を使用してY_tに影響を与える

Y_{t - 1} 、 Y_{t - 2} 、 。 。 。 、 Y_{t - k + 1}

の影響力を排除し、

Y_{t - k}

秋

Y_{t - 1} 、 Y_{t - 2} 、 。 。 。 、 Y_{t - k + 1}

に及ぼす影響力を取り除き、

Y_{t}

と

Y_{t - k}

の相関だ。AR(1)モデルとMA(1)モデルの部分自己相関関数はそれぞれ次の通りである。

ϕ_{11} = 1

と仮定する。

ϕ_{00} = 0 f o r k > 1

ϕ_{k k} = - \frac{Θ^{k} （ 1 - Θ^{2})}{1 - Θ^{2 （ k + 1)}} f o r k \geq 1

自己相関関数はＡＲモデルが少しずつ減少し、ＭＡモデルはｑ時差が過ぎると全部０であった。逆に、部分自己相関関数は、ＡＲモデルがｐ視差が過ぎると全部０であるが、ＭＡモデルは少しずつ減る。

可逆性(invertibility)

ARモデルは、MAモデルの次数を無限に増やした確率過程と見なすことができる。逆にＭＡモデルもＡＲモデル形態で表すことができれば、ＭＡモデルが可逆的であると言う。

e_{t} = Y_{t} + Θ （ e_{t - 1})

を再帰的に使うと、次のようになる。

E_{t} = Y_{t} + Θ （ Y_{t - 1}) + Θ^{2} Y_{t - 2} + 。 。 。

AR形態で解くと、次の通りである。

Y_{t} = - （ Θ （ Y_{t - 1} + Θ^{2} （ Y_{t - 2} + 。 。 。) + e_{t}

可逆性を満たすには、-1 <

Θ

< 1 でなければならない。そうでなければ、最新の観測値が過去の観測値よりも小さい重みを持つことになるからです。

自己回帰移動平均(Auto Regressive Moving Average)プロセス

自己回帰移動平均過程は、自己回帰過程と移動平均過程の組み合わせでデータを説明するものである。各過程の次数に応じてARMA（p、q）と表現する。ARMA（1、1）のプロセスは次のとおりです。

Y_{t} = ϕ （ Y_{t - 1}) + e_{t} - Θ （ e_{t - 1})

ＡＲＭＡ（１、１）の自己相関関数はϕ、θに依存し、ＡＲのようにϕに従って徐々に減少することがわかり、正常性を満たす条件は−１＜

ϕ

< 1 です。

ρ_{k} = \frac{（ 1 - ϕ Θ) （ ϕ - Θ)}{1 - 2 Θ ϕ + Θ^{2}} ϕ^{k - 1} （ k \geq 1)

ARMA （p、q）は通常、正常性と可逆性を満たす必要があります。

異常(Non-Stationarity)時系列

時系列データが常に正常性を満たすわけではありません。異常時系列はどのような特徴を持ち、どのように前処理しモデリングするか調べてみよう。

AR（1）の過程で正常性を満たすためには、-1 <ϕ < 1でなければなりません。これを満たさない場合はどうなるか確認してみましょう。異常AR（1）コース

Y_{t} = 3 Y_{t - 1} + e_{t}

を考えてみましょう。式を再帰的に解いてみると、次のようになる。

Y_{t} = e_{t} + 3 e_{t - 1} + 3^{2} （ e_{t - 2}) + 。 。 。 + 3^{t - 1} （ e_{1}) + e^{t} （ Y_{0})

現在の値は過去の誤差の加重和ですが、過去の時点の誤差が現在の値に大きな影響を与え、時系列は発散します。

Y_{t}

の特性は次の通りである。

Y_{0} = 0

と仮定しましょう。

V a r （ Y_{t}) = σ^{2} （ \frac{9^{t} - 1}{8})

C o v （ Y_{t} 、 Y_{t - k}) = 3^{k} σ^{2} （ \frac{9^{t - k} - 1}{8})

C o r （ Y_{t} 、 Y_{t - k} = 3^{k} \sqrt{\frac{9^{t - k} - 1}{9^{t} - 1}}

時間が経つにつれて分散がますます大きくなることがわかり、ｋがある程度大きくなっても自己相関が１に近い値であることが分かる。もし

ϕ = 1

この場合、すでに述べたランダムウォークプロセスとなる。

差分(Differencing)

差分は、異常時系列を正常時系列にする方法の一つである。時系列

Y_{t} = M_{t} + e_{t} w h e r e M_{t} = M_{t - 1} + ε_{t}

形で作られたとしましょう。

Y_{t}

はランダムウォーク

M_{t}

に影響を受ける異常時系列だ。一次落ち着いた時系列

\nabla Y_{t}

は次の通りです。

Y_{t} - Y_{t - 1} = \nabla Y_{t} = M_{t} - M_{t - 1} + e_{t} - e_{t - 1}

\nabla Y_{t} = ε_{t} + e_{t} - e_{t - 1}

時系列

\nabla Y_{t}

のAuto Correlationは

- \frac{1}{2 + （ σ_{ε}^{2} / σ_{e}^{2})}

として計算されます。相関が視点に依存しないので、落ち着くと正常時系列になることがわかる。

過大差分(Over-differencing)

差分をすれば正常時系列にすることができるが、必要以上の差分をすることになるとモデルに問題を起こすことになる。Random Walk モデル

Y_{t} = Y_{t - 1} + e_{t}

を考えてみましょう。

Random Walkモデルを一次落ち着いた

\nabla Y_{t}

はホワイトノイズとなって正常時系列である。Random Walk を二次差分すると

\nabla^{2} （ Y_{t}) = e_{t} - e_{t - 1}

形態の一次移動平均過程となる。一次差分で正常性を既に満足しているので、あえて差分をもう一度する必要はない。二次差分をすると、むしろ不要な移動平均モデルのパラメータを推定しなければならず、移動平均モデルの可逆性が崩れることもある。差分は通常1回、最大2回程度で十分です。

自己回帰累積移動平均(ARIMA)モデル

d回の落ち着いた時系列がARMA（p、q）に従うと、元の時系列はARMA（p、d、q）に従うことになります。

\nabla^{d} Y_{t} = ϕ_{1} \nabla^{d} Y_{t - 1} + ϕ_{2} \nabla^{d} Y_{t - 2} + 。 。 。 + ϕ_{p} \nabla^{d} Y_{t - p} + e_{t} - Θ_{1} e_{t - 1} - 。 。 。 - Θ_{q} e_{t - q}

と書くことができる。

予測(Forecasting)

現在時点tからp時点後の予測値

\hat{Y_{t}}

（p）は次のように定義できます。

\hat{Y_{t}} （ p) = E （ Y_{t + p} | Y_{1} 、 Y_{2} 、 。 。 。 、 Y_{t})

条件付きコメント値を使う理由は、数学的に予測誤差を最も最小化するからだ。確率過程は様々な経路を見せることができ、過去の値は複数の経路の一つが実現されたものなので、それ自体に情報があると見ることができる。この情報を使用して将来を予測することは直感的にも妥当です。再帰的に予測値を求めて目標時点の予測値を計算する。

AR(1)

これから

Y_{t}

の平均がゼロではないとしましょう。もしそうなら、

Y_{t}

を書くと次のようになる。上で紹介したAR(1)過程の平均は0と仮定したからである。

Y_{t} - μ = ϕ （ Y_{t - 1} - μ) + e_{t}

Y_{t + 1}

を予測する必要があるので、

Y_{t + 1} - μ = ϕ （ Y_{t} - μ) + e_{t + 1}

と書くことができる。条件付コメント値を求めると次のようになる。

Y_{t}

が与えられたため、中間の条件付見解値は定数となり、将来の誤差は過去の値と独立であると仮定したからである。

E （ Y_{t + 1} | Y_{t} 、 Y_{t - 1} 、 。 。 。 、 Y_{1}) - μ = ϕ （ E （ Y_{t} | Y_{t} 、 Y_{t - 1} 、 。 。 。 、 Y_{1}) - μ) + E （ e_{t + 1} | Y_{t} 、 Y_{t - 1} 、 。 。 。 Y_{1})

\hat{Y_{t}} （ 1) - μ = ϕ （ Y_{t} - μ) + E （ e_{t + 1})

\hat{Y_{t}} （ 1) = ϕ （ Y_{t} - μ) + μ

一般化すると、

\hat{Y_{t}} （ p) = μ + ϕ （ \hat{Y_{t}} （ p - 1) - μ)

になる。再帰的に計算すると、

\hat{Y_{t}} （ p)

は次の通りです。

\hat{Y_{t}} （ p) = μ + ϕ^{p} （ Y_{t} - μ)

AR(1) の stationary condition は -1 <

ϕ

＜１であるので、ＡＲ（１）の予測値は長期的に平均に収束することがわかる。

MA(1)

Y_{t}

が移動平均過程であれば、次の通りである。

Y_{t} = μ + e_{t} - Θ （ e_{t - 1})

\hat{Y_{t}} （ 1)

を求めてみましょう。

Y_{t + 1} = μ + e_{t + 1} - Θ （ e_{t})

E （ Y_{t + 1} | Y_{t} 、 Y_{t - 1} 、 。 。 。 、 Y_{1}) = μ + E （ e_{t + 1} | Y_{t} 、 Y_{t - 1} 、 。 。 。 、 Y_{1}) - Θ （ E （ e_{t} | Y_{t} 、 Y_{t - 1} 、 。 。 。 、 Y_{1}))

移動平均プロセスが可逆的であれば、

e_{t}

は

Y_{t} 、 Y_{t - 1} 、 。 。 。 、 Y_{1}

で表現されるので定数のように扱われる。したがって、

\hat{Y_{t}} （ 1)

は次の通りです。

\hat{Y_{t}} （ 1) = μ - Θ （ e_{t})

\hat{Y_{t}} （ p)

を求めてみましょう。

Y_{t + p} = μ + e_{t + p} - Θ （ e_{t + p - 1})

E （ Y_{t + p} | Y_{t} 、 Y_{t - 1} 、 。 。 。 、 Y_{1}) = μ + E （ e_{t + p} | Y_{t} 、 Y_{t - 1} 、 。 。 。 、 Y_{1}) - Θ （ E （ e_{t + p - 1} | Y_{t} 、 Y_{t - 1} 、 。 。 。 、 Y_{1}))

\hat{Y + t} （ o) = μ + E （ e_{t + p}) - Θ （ E （ e_{t + p - 1}) = μ

移動平均過程はｐが１より大きい場合、予測値は常に平均値となる。

ARMA(p, q)

ARMA(p,q) モデルは長期的には確率過程の平均

μ

に収束する。他にも季節性を反映した模型、条件付き二分散模型など多様な模型がある。そのモデルが捕捉しようとしているパターンを理解するときは、上記の知識が基本的な構成要素になるので、熟知してください。

次の章では、本格的に機械学習（Machine Learning）が何であるかを勉強してみましょう。機械学習の定義について学び、いくつかのアルゴリズムのトレーニングコースを勉強し、実践をしましょう。

Chapter 3. 機械学習

Chapter 2-3. 基礎時系列分析

ネットワークベースの通信と階層