본문 바로가기
Quant

Time Series 1: Stationary(정상성) vs. Non-Stationary(비정상성)

by KTC_Takks 2020. 4. 26.
Time Series(시계열)

시계열 데이터: 시간에 따라 값이 관측되는 데이터. 금융 시계열 데이터로는 대표적으로 주가, 거래량 등이 있다. 시계열 데이터는 일반적으로 i.i.d(identical independent distribution)가 성립하지 않는다.

 

<삼성전자 수익률 vs 랜덤워크>

위를 통해 알 수 있듯이 삼성전자 주가의 수익률은 정규분포를 가정하고 그린 랜덤워크 보다 이상값이 자주 관측되고 있다.

 

시계열 데이터가 가지는 특징은 다음과 같다.

 

- Trends(추세성)

 

- Volatility(변동성)

 

- Seasonality(계절성)

 

- Aberration(이변성)

 

- Nonlinearity(비선형성)

 

 

Stationary(정상성) vs. Non-stationary(비정상성)

시계열 데이터가 가진 중요한 특징이다. 시계열 분석을 진행하기 위해서는 시계열 데이터의 특성을 파악해야 한다. 

 

Stationary(정상성): 시간이 변해도 통계적 특성이 일정한 시계열이다. 통계적 특성이 일정한 정도에 따라 Strongly Stationary(강정상)과 Weakly Stationary(약정상)으로 구분된다. 일반적으로 약정상 시계열 정도만 되어도 정상성을 띈다고 본다.

*평균, 분산, 왜도, 첨도 등 모든 통계적 특성이 동일하면 강정상; 평균과 분산의 통계적 특성이 동일하면 약정상으로 구분한다.

 

Non-stationary(비정상성): 시간에 따라 통계적 특성이 변한다. 시계열 데이터가 non-stationary하다면 평균, 분산, 공분산은 시간의 함수가 될 수 없다.

 

이를 그려보면 다음과 같다.

<좌: Stationary / 우: Non-stationary>

데이터가 정상성을 띄는지 비정상성을 띄는지에 따라 활용하는 모델이 다르기 때문에, 이를 파악하는 것은 필수적이다.

 

댓글