본문 바로가기

전체 글81

시계열 데이터 - 코로나19 확진자 수 ARIMA 모델로 예측하기 (1) 스터디에서 데이콘의 코드를 참고하여 그동안 공부한 내용들을 사용해 실제 데이터에 적용해보는 시간을 가졌었다. 스터디에서 참고한 코드는 아래의 두 편이다. "차트만으로 코스피를 예측할 수 있을까?" 편은 내가 이미 진행한 내용하고 비슷했고, "약형 효율적 시장 가설" 편은 내가 다소 이해하기 어려운 부분들이 있어 생략한 부분들이 많았다. 배운 것을 활용해보고, 다른 사람들의 코드를 참고해봤다는 점에 의의를 두고 싶다. https://dacon.io/competitions/official/235980/codeshare/6556 차트만으로 코스피를 예측할 수 있을까? 월간 데이콘 KOSPI 기반 분석 시각화 경진대회 dacon.io https://dacon.io/competitions/official/2359.. 2023. 2. 8.
시계열 데이터 - 계절성 ARIMA 모델, SARIMA 그동안 공부만 하고 포스팅을 미루었었는데, 오늘은 그간 공부한 내용 중 핵심적인 내용인 계절성 ARIMA 모델, SARIMA 모델에 대해 간단하게 정리해보겠다. 계절성 ARIMA 모델, SARIMA 앞서 데이터의 정상성을 설명할 때, 추세나 계절성을 없애고 싶으면 차분을 진행하고, 분산을 일정하게 만들고 싶으면 로그를 씌운다고 공부한 바가 있다. 그래서 데이터의 계절성을 제거하고 싶을 때 1차 차분 내지 2차 차분을 진행했다. 하지만 SARIMA 에선, 데이터의 계절성을 차분을 통해 진행하는 것이 아닌 그대로 안고 간다고 생각하면 될 것이다. 자세한 건 밑의 예시에서 다루기로 하고, 필요한 개념들을 빠르게 훑어보자. 계절성 차분 앞서 공부한 1차 차분은, 현재 데이터와 이전 데이터, 즉 시차가 1인 데이.. 2023. 2. 7.
시계열 데이터 - AR,MA,ARIMA 모델 시계열 데이터 공부를 시작하고 거의 한 달 만에 ARIMA 모델까지 오게 되었다. 그동안 다른 공부할 거리 때문에 너무 바빴는데, 일 하나가 끝나면 다른 일이 생기고 계속 바쁜 나머지 공부에 많은 시간을 투자하지 못 한 것 같아 아쉬운 마음이 든다. 1월이 거의 다 끝나가는데 아쉬운 생각이 든다. 빨리 ARIMA 모델까진 공부를 마치고 실전 공부를 할 예정이다. 각설하고 이번 포스팅에서는 AR,MA 모델을 공부하고 대망의 ARIMA 모델까지 공부해보도록 하겠다. 사실 앞선 포스팅들을 쓰면서 내용을 자세하게 공부하다 보니 지금 공부할 ARIMA 모델의 내용들의 베이스는 이미 다 공부한 감이 있어서, 공부하는 데에 그렇게 어려울 것 같지는 않다. ARIMA 모델의 AR 모델부터 시작해서, MA, ARIMA .. 2023. 1. 21.
시계열 데이터 - 자기상관함수 ACF와 PACF 이 말을 포스팅 하면서 벌써 3번째 하는 것 같은데.. 이제 정말 ARIMA 함수로 들어가기 전 마지막 내용이 될 것 같다. 이전 포스팅에서 정상성을 판단하는 방법으로 3가지가 있음을 확인할 수 있었다. 지난 포스팅까지 1번과 2번 내용을 다루었으니, 오늘 포스팅으로 자기상관함수에 대해 공부를 마치고 ARIMA 함수로 넘어갈 예정이다. 우선 자기상관 계수의 공식을 보고 넘어가고 싶다. 여기서 T는 전체 시계열의 길이를, k는 시간 사이의 간격을 의미한다. (lagged values 라는 용어가 존재하며 시차값으로 번역되는데 시간 사이의 간격 정도로 해석되는 것 같다.) 즉, T가 10이라면, k는 필연적으로 1부터 9까지 존재할 수 있게 된다. 그리고 이 자기상관 계수값을 가능한 모든 k 값에 대해서 구.. 2023. 1. 15.
시계열 데이터 분석 이론 정리 - 정상성과 비정상성 공부 -> 개념 숙지 완료 -> 포스팅 순으로 블로그를 작성했어야 했는데, 공부와 포스팅을 동시에 하다 보니 중간중간 틀린 내용들과 부족한 내용들이 나오기도 했고, 개념들이 여기저기 흩어지는 현상이 발생했다. 스터디에 진행할 발표도 함께 준비할 겸, 깔끔하게 개념들을 정리하고 넘어가고 싶다. 그래서 시계열 데이터의 특성과 정상성에 대해 지금까지 공부한 내용들을 정리해보기로 했다. 시계열 데이터 (Time Series Data) 일정한 시간 간격으로 측정된 데이터, x축을 시간, y축을 값으로 설정하여 그래프로 나타낼 수 있는 모든 데이터 EX) 출생률, 주식 가격, GDP 등등.. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 import panda.. 2023. 1. 9.
시계열 데이터 - 정상성 분석하기, ADF test ARIMA 모델을 분석하기 전, 파이썬을 이용해 정상성을 검증해보는 시간이 필요할 것 같다. 사실 이번에 정상성에 대해서 추가로 공부하면서, 새롭게 깨달은 사실이 더 있었다. 바로 정상성 데이터가 ARIMA모델 등 분석 모델에 활용된다는 것이었다. 내가 생각했을 때엔 추세-주기, 계절성을 갖는 비정상성 모델이 오히려 예측하기 쉬울것 같아서였기 때문에 처음에는 이해가 잘 가지 않았다. 그래서 많은 자료를 읽었는데, 결국 결론은 평균과 분산이 일정해야 예측하기가 더 쉽다 였다. 내 생각이 짧았던 것이다. 여러 통계 모델 등에서 비정상성 데이터 예측이 불가능한 것은 아니지만, 정상성 데이터여야 더 편하다. 첫 포스팅에서 야심차게 정리한 문장이다. 지금 보니 반은 맞고, 반은 틀렸다. 0부터 T까지의 데이터를 .. 2023. 1. 2.