전체 글97 시계열 데이터 - AR,MA,ARIMA 모델 시계열 데이터 공부를 시작하고 거의 한 달 만에 ARIMA 모델까지 오게 되었다. 그동안 다른 공부할 거리 때문에 너무 바빴는데, 일 하나가 끝나면 다른 일이 생기고 계속 바쁜 나머지 공부에 많은 시간을 투자하지 못 한 것 같아 아쉬운 마음이 든다. 1월이 거의 다 끝나가는데 아쉬운 생각이 든다. 빨리 ARIMA 모델까진 공부를 마치고 실전 공부를 할 예정이다. 각설하고 이번 포스팅에서는 AR,MA 모델을 공부하고 대망의 ARIMA 모델까지 공부해보도록 하겠다. 사실 앞선 포스팅들을 쓰면서 내용을 자세하게 공부하다 보니 지금 공부할 ARIMA 모델의 내용들의 베이스는 이미 다 공부한 감이 있어서, 공부하는 데에 그렇게 어려울 것 같지는 않다. ARIMA 모델의 AR 모델부터 시작해서, MA, ARIMA .. 2023. 1. 21. 시계열 데이터 - 자기상관함수 ACF와 PACF 이 말을 포스팅 하면서 벌써 3번째 하는 것 같은데.. 이제 정말 ARIMA 함수로 들어가기 전 마지막 내용이 될 것 같다. 이전 포스팅에서 정상성을 판단하는 방법으로 3가지가 있음을 확인할 수 있었다. 지난 포스팅까지 1번과 2번 내용을 다루었으니, 오늘 포스팅으로 자기상관함수에 대해 공부를 마치고 ARIMA 함수로 넘어갈 예정이다. 우선 자기상관 계수의 공식을 보고 넘어가고 싶다. 여기서 T는 전체 시계열의 길이를, k는 시간 사이의 간격을 의미한다. (lagged values 라는 용어가 존재하며 시차값으로 번역되는데 시간 사이의 간격 정도로 해석되는 것 같다.) 즉, T가 10이라면, k는 필연적으로 1부터 9까지 존재할 수 있게 된다. 그리고 이 자기상관 계수값을 가능한 모든 k 값에 대해서 구.. 2023. 1. 15. 시계열 데이터 분석 이론 정리 - 정상성과 비정상성 공부 -> 개념 숙지 완료 -> 포스팅 순으로 블로그를 작성했어야 했는데, 공부와 포스팅을 동시에 하다 보니 중간중간 틀린 내용들과 부족한 내용들이 나오기도 했고, 개념들이 여기저기 흩어지는 현상이 발생했다. 스터디에 진행할 발표도 함께 준비할 겸, 깔끔하게 개념들을 정리하고 넘어가고 싶다. 그래서 시계열 데이터의 특성과 정상성에 대해 지금까지 공부한 내용들을 정리해보기로 했다. 시계열 데이터 (Time Series Data) 일정한 시간 간격으로 측정된 데이터, x축을 시간, y축을 값으로 설정하여 그래프로 나타낼 수 있는 모든 데이터 EX) 출생률, 주식 가격, GDP 등등.. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 import panda.. 2023. 1. 9. 시계열 데이터 - 정상성 분석하기, ADF test ARIMA 모델을 분석하기 전, 파이썬을 이용해 정상성을 검증해보는 시간이 필요할 것 같다. 사실 이번에 정상성에 대해서 추가로 공부하면서, 새롭게 깨달은 사실이 더 있었다. 바로 정상성 데이터가 ARIMA모델 등 분석 모델에 활용된다는 것이었다. 내가 생각했을 때엔 추세-주기, 계절성을 갖는 비정상성 모델이 오히려 예측하기 쉬울것 같아서였기 때문에 처음에는 이해가 잘 가지 않았다. 그래서 많은 자료를 읽었는데, 결국 결론은 평균과 분산이 일정해야 예측하기가 더 쉽다 였다. 내 생각이 짧았던 것이다. 여러 통계 모델 등에서 비정상성 데이터 예측이 불가능한 것은 아니지만, 정상성 데이터여야 더 편하다. 첫 포스팅에서 야심차게 정리한 문장이다. 지금 보니 반은 맞고, 반은 틀렸다. 0부터 T까지의 데이터를 .. 2023. 1. 2. 시계열 데이터 - 시계열 분해와 차분 오늘은 ARIMA 모델로 넘어가기 전, 시계열 데이터의 중요 개념들을 다시 한 번 정리하고 시계열 데이터 분석을 할 때 가장 기초로 여겨지는 차분, differencing에 대해 공부해보려고 한다. 앞서 공부한 바로는 시계열 데이터의 3요소인 주기(Cycle), 추세(Trend), 계절성(Seasonality) (오차까지 포함하면 4요소지만 오차는 기본적으로 예측할 수 있는 것이 아니다!) 가 포함되면 비정상성을 띈다고 부른다. 이를 자세히 살펴보고 싶다. 시계열 데이터 공부에 아주 큰 도움을 주고 있는 온라인 교과서, O-text에 실려 있는 예시이다. 나머지는 제쳐두고, 내가 주목하고 싶은 것은 b와 g 이다. 우선 b이다. 구글 주식 가격의 200일 동안의 가격 변동을 나타낸 그래프이다. 160일 .. 2022. 12. 30. 시계열 데이터 - 시작 전 확인해보니 내가 공부할 내용은 5주차, 6주차에 걸쳐있는 것 같았다. 그래서 2,3,4 주차의 내용을 간단하게 개념만 알고 넘어가고 싶었다. 2주차의 내용은 시계열 데이터의 회귀 분석을 다루는 것 같다. 아마 회귀 분석을 이용해 예측하는 방법을 배우는 것 같다. 회귀 분석에 대해선 이미 통계학 시간에 배운 바가 있기 때문에 모르는 내용이 많을 것 같지는 않다. 3주차엔 Smoothing, 즉 시계열 데이터를 부드럽게 만드는 과정에 대해 배운다. 이 부분은 추측컨대 미분의 좌극한과 우극한을 같게 만들어 부드럽게 그래프를 변형시키는 과정을 다루는 것 같았다. 하지만 자세히 살펴보니 결국 선형회귀를 어느 정도 적용하여 미래 시계열 데이터를 예측하는 기법인 것 같다. 우리말로는 평활법이라고 하는데, moving.. 2022. 12. 28. 이전 1 ··· 13 14 15 16 17 다음