본문 바로가기

시계열 데이터12

시계열 데이터 - 자기상관함수 ACF와 PACF 이 말을 포스팅 하면서 벌써 3번째 하는 것 같은데.. 이제 정말 ARIMA 함수로 들어가기 전 마지막 내용이 될 것 같다. 이전 포스팅에서 정상성을 판단하는 방법으로 3가지가 있음을 확인할 수 있었다. 지난 포스팅까지 1번과 2번 내용을 다루었으니, 오늘 포스팅으로 자기상관함수에 대해 공부를 마치고 ARIMA 함수로 넘어갈 예정이다. 우선 자기상관 계수의 공식을 보고 넘어가고 싶다. 여기서 T는 전체 시계열의 길이를, k는 시간 사이의 간격을 의미한다. (lagged values 라는 용어가 존재하며 시차값으로 번역되는데 시간 사이의 간격 정도로 해석되는 것 같다.) 즉, T가 10이라면, k는 필연적으로 1부터 9까지 존재할 수 있게 된다. 그리고 이 자기상관 계수값을 가능한 모든 k 값에 대해서 구.. 2023. 1. 15.
시계열 데이터 분석 이론 정리 - 정상성과 비정상성 공부 -> 개념 숙지 완료 -> 포스팅 순으로 블로그를 작성했어야 했는데, 공부와 포스팅을 동시에 하다 보니 중간중간 틀린 내용들과 부족한 내용들이 나오기도 했고, 개념들이 여기저기 흩어지는 현상이 발생했다. 스터디에 진행할 발표도 함께 준비할 겸, 깔끔하게 개념들을 정리하고 넘어가고 싶다. 그래서 시계열 데이터의 특성과 정상성에 대해 지금까지 공부한 내용들을 정리해보기로 했다. 시계열 데이터 (Time Series Data) 일정한 시간 간격으로 측정된 데이터, x축을 시간, y축을 값으로 설정하여 그래프로 나타낼 수 있는 모든 데이터 EX) 출생률, 주식 가격, GDP 등등.. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 import panda.. 2023. 1. 9.
시계열 데이터 - 정상성 분석하기, ADF test ARIMA 모델을 분석하기 전, 파이썬을 이용해 정상성을 검증해보는 시간이 필요할 것 같다. 사실 이번에 정상성에 대해서 추가로 공부하면서, 새롭게 깨달은 사실이 더 있었다. 바로 정상성 데이터가 ARIMA모델 등 분석 모델에 활용된다는 것이었다. 내가 생각했을 때엔 추세-주기, 계절성을 갖는 비정상성 모델이 오히려 예측하기 쉬울것 같아서였기 때문에 처음에는 이해가 잘 가지 않았다. 그래서 많은 자료를 읽었는데, 결국 결론은 평균과 분산이 일정해야 예측하기가 더 쉽다 였다. 내 생각이 짧았던 것이다. 여러 통계 모델 등에서 비정상성 데이터 예측이 불가능한 것은 아니지만, 정상성 데이터여야 더 편하다. 첫 포스팅에서 야심차게 정리한 문장이다. 지금 보니 반은 맞고, 반은 틀렸다. 0부터 T까지의 데이터를 .. 2023. 1. 2.
시계열 데이터 - 시계열 분해와 차분 오늘은 ARIMA 모델로 넘어가기 전, 시계열 데이터의 중요 개념들을 다시 한 번 정리하고 시계열 데이터 분석을 할 때 가장 기초로 여겨지는 차분, differencing에 대해 공부해보려고 한다. 앞서 공부한 바로는 시계열 데이터의 3요소인 주기(Cycle), 추세(Trend), 계절성(Seasonality) (오차까지 포함하면 4요소지만 오차는 기본적으로 예측할 수 있는 것이 아니다!) 가 포함되면 비정상성을 띈다고 부른다. 이를 자세히 살펴보고 싶다. 시계열 데이터 공부에 아주 큰 도움을 주고 있는 온라인 교과서, O-text에 실려 있는 예시이다. 나머지는 제쳐두고, 내가 주목하고 싶은 것은 b와 g 이다. 우선 b이다. 구글 주식 가격의 200일 동안의 가격 변동을 나타낸 그래프이다. 160일 .. 2022. 12. 30.
시계열 데이터 - 시작 전 확인해보니 내가 공부할 내용은 5주차, 6주차에 걸쳐있는 것 같았다. 그래서 2,3,4 주차의 내용을 간단하게 개념만 알고 넘어가고 싶었다. 2주차의 내용은 시계열 데이터의 회귀 분석을 다루는 것 같다. 아마 회귀 분석을 이용해 예측하는 방법을 배우는 것 같다. 회귀 분석에 대해선 이미 통계학 시간에 배운 바가 있기 때문에 모르는 내용이 많을 것 같지는 않다. 3주차엔 Smoothing, 즉 시계열 데이터를 부드럽게 만드는 과정에 대해 배운다. 이 부분은 추측컨대 미분의 좌극한과 우극한을 같게 만들어 부드럽게 그래프를 변형시키는 과정을 다루는 것 같았다. 하지만 자세히 살펴보니 결국 선형회귀를 어느 정도 적용하여 미래 시계열 데이터를 예측하는 기법인 것 같다. 우리말로는 평활법이라고 하는데, moving.. 2022. 12. 28.
시계열 데이터 - 정상성과 비정상성 시계열 데이터는 크게 정상성 데이터와 비정상성 데이터로 분류 가능하다. 이는 시계열 데이터 추정 모델 중 하나인 ARIMA 모델에서 기본이 되는 개념이기도 하다. 간단하게 요약하면 다음과 같다. 정상성 (Stationary) 시계열 데이터 - 평균이 유지되고 분산이 시간에 의존하지 않기 때문에 예측하는 것이 쉽다. 비정상성 (Non-Stationary) 시계열 데이터 - 추세, 계절성이 있어 관측된 시간에 따라 평균과 분산이 달라진다. 따라서 비정상성 데이터를 주로 다루게 되고, 이걸 잘 예측하는 것이 결국 시계열 데이터를 잘 다루는 것이다. 정상성 시계열 데이터의 대표적인 예시로는 백색 잡음이 있다. 백색 잡음을 정확히 정의한다면 '자기 상관'이 존재하지 않는 시계열 이다. 여기서 자기 상관이란, 시계.. 2022. 12. 27.