본문 바로가기

분류 전체보기81

시계열 데이터 - 시계열 분해와 차분 오늘은 ARIMA 모델로 넘어가기 전, 시계열 데이터의 중요 개념들을 다시 한 번 정리하고 시계열 데이터 분석을 할 때 가장 기초로 여겨지는 차분, differencing에 대해 공부해보려고 한다. 앞서 공부한 바로는 시계열 데이터의 3요소인 주기(Cycle), 추세(Trend), 계절성(Seasonality) (오차까지 포함하면 4요소지만 오차는 기본적으로 예측할 수 있는 것이 아니다!) 가 포함되면 비정상성을 띈다고 부른다. 이를 자세히 살펴보고 싶다. 시계열 데이터 공부에 아주 큰 도움을 주고 있는 온라인 교과서, O-text에 실려 있는 예시이다. 나머지는 제쳐두고, 내가 주목하고 싶은 것은 b와 g 이다. 우선 b이다. 구글 주식 가격의 200일 동안의 가격 변동을 나타낸 그래프이다. 160일 .. 2022. 12. 30.
시계열 데이터 - 시작 전 확인해보니 내가 공부할 내용은 5주차, 6주차에 걸쳐있는 것 같았다. 그래서 2,3,4 주차의 내용을 간단하게 개념만 알고 넘어가고 싶었다. 2주차의 내용은 시계열 데이터의 회귀 분석을 다루는 것 같다. 아마 회귀 분석을 이용해 예측하는 방법을 배우는 것 같다. 회귀 분석에 대해선 이미 통계학 시간에 배운 바가 있기 때문에 모르는 내용이 많을 것 같지는 않다. 3주차엔 Smoothing, 즉 시계열 데이터를 부드럽게 만드는 과정에 대해 배운다. 이 부분은 추측컨대 미분의 좌극한과 우극한을 같게 만들어 부드럽게 그래프를 변형시키는 과정을 다루는 것 같았다. 하지만 자세히 살펴보니 결국 선형회귀를 어느 정도 적용하여 미래 시계열 데이터를 예측하는 기법인 것 같다. 우리말로는 평활법이라고 하는데, moving.. 2022. 12. 28.
시계열 데이터 - 정상성과 비정상성 시계열 데이터는 크게 정상성 데이터와 비정상성 데이터로 분류 가능하다. 이는 시계열 데이터 추정 모델 중 하나인 ARIMA 모델에서 기본이 되는 개념이기도 하다. 간단하게 요약하면 다음과 같다. 정상성 (Stationary) 시계열 데이터 - 평균이 유지되고 분산이 시간에 의존하지 않기 때문에 예측하는 것이 쉽다. 비정상성 (Non-Stationary) 시계열 데이터 - 추세, 계절성이 있어 관측된 시간에 따라 평균과 분산이 달라진다. 따라서 비정상성 데이터를 주로 다루게 되고, 이걸 잘 예측하는 것이 결국 시계열 데이터를 잘 다루는 것이다. 정상성 시계열 데이터의 대표적인 예시로는 백색 잡음이 있다. 백색 잡음을 정확히 정의한다면 '자기 상관'이 존재하지 않는 시계열 이다. 여기서 자기 상관이란, 시계.. 2022. 12. 27.