시계열 데이터는 크게 정상성 데이터와 비정상성 데이터로 분류 가능하다. 이는 시계열 데이터 추정 모델 중 하나인 ARIMA 모델에서 기본이 되는 개념이기도 하다. 간단하게 요약하면 다음과 같다.
정상성 (Stationary) 시계열 데이터 - 평균이 유지되고 분산이 시간에 의존하지 않기 때문에 예측하는 것이 쉽다.
비정상성 (Non-Stationary) 시계열 데이터 - 추세, 계절성이 있어 관측된 시간에 따라 평균과 분산이 달라진다.
따라서 비정상성 데이터를 주로 다루게 되고, 이걸 잘 예측하는 것이 결국 시계열 데이터를 잘 다루는 것이다.
정상성 시계열 데이터의 대표적인 예시로는 백색 잡음이 있다. 백색 잡음을 정확히 정의한다면 '자기 상관'이 존재하지 않는 시계열 이다. 여기서 자기 상관이란, 시계열의 시간 끼리의 데이터가 서로 영향을 주는가? 를 의미한다고 이해된다. 즉, 자기 상관이 크다면, 시간 0부터 T-1에서의 데이터가 T의 데이터에 영향을 아주 많이 주게 되는 것이다. 그래서 시계열 데이터를 분석할 때 이 데이터가 백색잡음인지 아닌지 확인하는 알고리즘이 존재하는 것을 알 수 있었다. 이는 후에 더 자세히 다루도록 하겠다.
위에서 잠시 보고 넘어간 시계열 데이터 요소 중 Trend, Cycle, Seasonality 등이 포함된 시계열 데이터를 비정상성 시계열 데이터라고 부른다. 비정상성 시계열 데이터의 예시로 Random Walk를 들 수 있다. 우리말로 무작위 행보라고 하는데, 조금 살펴 보다 보니 예전에 주식 가격 추정 등 금융 계열에서 많이 사용하는 모델이라고 한다. 금융 상품의 가치 평가 방법을 잠깐 배운 적이 있어 자료를 가져와 보았다. 확실하지 않지만 수많은 주가 추정 알고리즘 모델들이 예상을 많이 빗나가는 것은 그만큼 분석하기 어려운 시계열데이터이기 때문일 것이다. 결국 이 위로 갈지, 아래로 갈지 하는 Randomness를 얼마나 정확하게 예측하느냐가 앞으로 시계열 데이터를 공부하는 데에 관건이 아닐가 싶다.
Random이란 말 때문에 헷갈릴 수 있지만, 이 Random 또한 자기상관이 존재한다. 밑에 첨부한 주가 그래프가 5000에서 갑자기 0으로 떨어지지 않듯이 말이다.특정 시간에 대해 완전히 랜덤인 것은 오히려 백색소음으로 보았듯이 정상성 데이터이다.
위에서 언급했을 때 Trend, Cycle, Seasonality가 포함되어 있으면 비정상성 시계열이라고 했다. 하지만 엄밀히 말하면 이는 틀린 것이다. Cycle만 존재하고 Trend와 Seasonality만 존재하면 정상성 시계열 데이터로 분류한다. 상당히 헷갈리는 부분이다. 이는 Cycle을 정확히 정의하는 것에서 시작해야 한다. Cycle은 우리말로 번역하면 주기성 정도가 된다. 하지만 여기서 말하는 주기는 "고정된 형태"가 아니다. 고정된 몇 년의 주기로 패턴이 반복하여 일어난다면 그 시각의 데이터를 정확히 예측할 수 있을 것이다. 그러면 비정상성 시계열 데이터로 분류할 수 있을 것이다. 이러한 경우는 Cycle이 존재한다고 하지 않는다. Cycle이 존재하면 주기가 일정하지 않기 때문에 관측하기 전까진 주기가 언제 시작할지, 언제 끝날지를 알 수가 없다.
간단히 정리해보면
정상성 데이터는 시간 0부터 T까지의 시계열 데이터를 보고 T+1의 데이터를 알 수가 없다. 낮은 확률로 찍을 수 있을 뿐이다.
비정상성 데이터는 실력이 뛰어나다면, 0부터 T까지의 데이터를 보고 T+1의 데이터를 높은 확률로 맞출 수 있다.
비정상성 데이터의 대표적인 예시가 Random Walk라고 해서 마냥 Random인 것으로 오해하면 안 된다. 100퍼센트 랜덤인 것은 오히려 정상성 데이터이다.
추가로 시계열 분석에서 공부를 하다 보니 Seasonality와 Cycle에 대해 헷갈리는 부분이 있었다. 그래서 검색을 해본 결과 좋은 자료를 얻을 수 있었다.
https://otexts.com/fppkr/tspatterns.html
요약하자면, 계절성은 "1년" 안에서 일어나는 패턴에 대한 것이고, 주기성은 1년보다 큰 범위에서 일어나는 패턴에 대한 것이다. 즉, 주기성의 평균 길이는 계절성보다 큰 경향이 있고, 패턴의 크기와 변동성 또한 주기성에서 계절성보다 더 크게 나타난다. 쉽게 패턴이 일어난 길이와 주기가 한 달 단위 정도면 계절성, 연 단위 정도면 주기성에 해당한다고 생각하면 될 것 같다.
앞으로는 비정상성 시계열 데이터를 예측하는 모델인 ARIMA모델을 다루기 위해 필요한 차분 등의 개념에 대해 공부할 예정이다.
'시계열 데이터' 카테고리의 다른 글
시계열 데이터 - 자기상관함수 ACF와 PACF (2) | 2023.01.15 |
---|---|
시계열 데이터 분석 이론 정리 - 정상성과 비정상성 (0) | 2023.01.09 |
시계열 데이터 - 정상성 분석하기, ADF test (0) | 2023.01.02 |
시계열 데이터 - 시계열 분해와 차분 (0) | 2022.12.30 |
시계열 데이터 - 시작 전 (0) | 2022.12.28 |