전체 글81 SQL - 기초적인 함수 사용해보기 (2) - 뷰, 서브쿼리 오늘은 뷰와 서브쿼리에 대해 간단하게 배운 내용을 정리해보고자 한다. 뷰와 서브쿼리 뷰는 테이블에서 여러 쿼리를 이용해 보고 싶은 자료를 만들었을 때, 그 자료를 저장하고 싶을 때 사용하는 것이다. 근본적으로 테이블과 같은 역할을 하는데, 뷰는 실제 데이터를 저장하고 있는 것이 아닌 쿼리를 저장하고 있기 때문에 저장용량 면에서 차이가 아주 크다. 1편에서 살펴본 기본 함수들로 원하는 자료를 뽑아볼 수 있지만, 그건 일회용적인 측면이 강하다. 자주 사용하는 쿼리를 매번 작성하지 않고 뷰로 저장하면 아주 유용하게 사용할 수 있게 된다. 1 2 3 4 5 create view GoodSum (goods_classify, cnt_goods) as select goods_classify, count(*) from.. 2023. 3. 24. SQL - 기초적인 함수 사용해보기 블로그에 굉장히 오랜만에 포스팅을 하게 되었다. 오늘은 요즘 학교에서 교양 시간에 배우고 있는 언어인 SQL에 대해 포스팅하면서 복습을 해보기로 한다. 포스팅한 코드 대부분과 자료 일부분은 수업시간에 배운 자료를 그대로 가져왔다. SQL : 데이터베이스를 만들고 관리하는 언어 SQL은 쉽게 말하면 정보를 저장하고 처리하기 위해 데이터베이스를 관리할 때 사용하는 언어이다. 여기서 쿼리란, 데이터베이스에 정보를 요청하는 행위를 의미한다. 아무튼 SQL이 데이터베이스와 관련된 언어라는 것만 알고 넘어가자. 데이터베이스의 개념 데이트베이스의 개념은 위와 같다. 데이터베이스 - 스키마 - 테이블의 구조로 이루어져 있는데, SQL은 데이터베이스와 스키마를 동급취급한다고 한다. 즉 데이터베이스 - 테이블 구조인 셈이.. 2023. 3. 19. 파이썬 - KBO 선수 기록 크롤링해서 엑셀로 저장하기 작년에 학교에서 통계 수업시간에 팀프로젝트를 하면서 특정 KBO 타자들의 기록을 엑셀 파일로 저장할 일이 생겼었다. 당시 나는 데이터 분석 파트를 맡고 있어서 크롤링은 다른 분이 해주셨는데, 그걸 보면서 참 신기하다는 생각을 했었다. 다만 아쉬웠던 점이 있었다. 그때 분석 팀이 원했던 것은 타자의 1년치 성적을 한 파일에 쭉 나열해서 저장하는 것이었는데, 소통이 잘 안 됐던 건지 크롤링 상의 문제였던 건지 수집 팀이 4월, 5월, 6월 등 월별로 기록을 저장해서 분석 팀에 넘겨줬었다. 그래서 일일이 복사 붙여넣기를 통해 파일을 힘들게 합쳤던 기억이 난다. 그래서 이젠 내가 직접 크롤링을 해보고자 한다. 목표는 한 선수의 1년치 기록을 하나의 엑셀파일로 저장하는 것이다. 크롤링을 공부한 책은 '데이터 과학.. 2023. 2. 20. 시계열 데이터 - 파이썬 auto_arima 및 ARIMA 모델 정리 오늘은 파이썬의 auto_arima 함수를 사용해보고 ARIMA 함수 내용을 마치고자 한다. 이전의 코로나 확진자 수를 예측해보는 코드를 짜면서 든 생각이, "그럼 코로나 확진자 말고 다른 데이터들도 다 이렇게 ARIMA 모델로 예측할 수 있는데, 그러면 어떤 데이터가 들어오더라도 사용자에게 일정 수준의 예측치를 제공해줄 수 있겠구나!" 하는 것이었다. 그래서 어떤 데이터가 들어오던 ARIMA 모델로 단기간의 미래를 예측해주는 그런 코드를 짜보기로 했다. 이걸 쉽게 가능하게 해준 것이 바로 auto_arima 함수였다. auto_arima 응용 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 from statsmodels.tsa.ari.. 2023. 2. 13. 시계열 데이터 - 코로나 확진자 수 ARIMA 모델로 예측하기 (2) 저번 포스팅에 이어 코로나 확진자 수를 ARIMA 모델을 사용해 예측해본 결과를 마저 기록해보도록 하겠다. https://tiabet0929.tistory.com/10 2023. 2. 10. 파이썬 - ARIMA predict 함수 오류 기록 https://tiabet0929.tistory.com/10 이 글을 포스팅하면서 발생한 오류를 해결하는 데에 아주 애를 먹었다. 원인을 알아내고 해결하는 데에 꼬박 2일이 걸렸고, stackoverflow 같은 곳에서도 명쾌한 해답을 얻기가 어려웠었기 때문에 따로 포스팅하고자 한다. 우선 발생한 오류는 The start argument could not be matchted to a location related to the index of the data 이다. 발생한 오류 나는 우선 처음에 ACF와 PACF를 확인하고자 했고, 그래서 늘 하던대로 statsmodels 패키지의 plot_acf 함수를 사용하는 코드를 짰다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1.. 2023. 2. 8. 이전 1 ··· 9 10 11 12 13 14 다음