본문 바로가기

파이썬12

파이썬 - 텍스트 데이터 전처리 파이프라인 (1) : 한국어 텍스트 전처리 이번 포스팅에선 내가 텍스트 데이터를 전처리하기 위해 개발한 파이프라인에 대해 간략하게 글을 작성해보고자 한다. 1편과 2편으로 나누어서, 1편에선 전처리 과정에 대해, 2편에선 scikit-learn의 Pipeline 함수에 대해 정리해볼 예정이다. 전체 코드 -> https://github.com/Tiabet/Project_Market/blob/master/%ED%85%8D%EC%8A%A4%ED%8A%B8%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EC%A0%84%EC%B2%98%EB%A6%AC/text_preprocessing_pipeline.py 전각 문자, 반각 문자 변환 전각 문자, 반각 문자의 개념은 다소 생소했다. 일반적으로 타이핑을 할 때 글자를 입력하는 정사각형 한 칸이 있다.. 2023. 8. 19.
파이썬 오류 기록 - LGBM, Python, Dask 관련 AttributeError 오랜만에 주피터 노트북에서 lgbm 모델을 사용하려고 했는데 아래와 같은 오류를 확인했다. import pandas as pd import lightgbm as lgb AttributeError: module 'pandas.core.strings' has no attribute 'StringMethods' lightgbm (경황이 없어서 캡쳐를 하지 못 했다.) 오류가 난 부분은 lightgbm 을 import 하는 코드였다. 어째서 이런 오류가 났는지 ChatGPT에 우선 물어봤는데, pandas의 버전이 compatible하지 않는다고 lightgbm을 update하라는 답변이 돌아왔다. 하지만 pip 로 update를 한 결과 이미 최신버전이었고, pandas도 마찬가지로 최신이어서 더 할 것이 없.. 2023. 6. 4.
파이썬 - 유용한 함수 scipy의 optimize, minimize 활용해보기 오늘은 최근에 여러 공부를 하면서 굉장히 유용하다고 느낀 함수인 Scipy 패키지의 optimizie 함수에 대해 정리해보도록 하겠다. 내용의 출처는 ChatGPT와 https://scipy.org/ (패키지의 소개 홈페이지) 이다. Scipy 패키지 scipy 패키지는 여러 계산 과정에서 굉장히 유용하게 사용되는 패키지이다. 최적화, 보간법, 선형대수 등 여러 수학적인 계산을 넘어서 통계와 이미지 처리 까지 지원해주는 함수들이 내장되어 있다. 오늘 정리할 함수는 이 중 최적화를 도와주는 optimize function이다. Optimize 함수 https://docs.scipy.org/doc/scipy/tutorial/optimize.html# Optimization (scipy.optimize) — .. 2023. 5. 5.
파이썬 - 단순 계산하는 과제 함수 선언해서 쉽게 해결하기 학교 수업을 듣는데 교수님께서 과제를 내주셨는데 과제의 내용이 다소 황당했다. 어렵진 않지만 정말 귀찮은 계산을 시키신 것인데, 동기들의 말로는 하다가 손가락이 부러지는 줄 알았다고 하여 나는 애초에 계산기 두들겨 가면서 푸는 건 포기해버렸다. 대신 주피터랩을 켜서 파이썬 코드를 작성하여 10분만에 풀 수 있었다. 어려운 작업은 아니었지만, 코드를 공유해보고자 한다. (본 포스팅에서 사용한 자료는 학교에서 배운 수업자료이고, 수업자료의 출처는 다음과 같습니다. R. L. Francis and J. A. White, 1974, Facility Layout and Location: An Analytical Approach, Prentice-Hall S. Chopra and P. Meindl, 2001, Su.. 2023. 4. 12.
파이썬 - KBO 선수 기록 크롤링해서 엑셀로 저장하기 작년에 학교에서 통계 수업시간에 팀프로젝트를 하면서 특정 KBO 타자들의 기록을 엑셀 파일로 저장할 일이 생겼었다. 당시 나는 데이터 분석 파트를 맡고 있어서 크롤링은 다른 분이 해주셨는데, 그걸 보면서 참 신기하다는 생각을 했었다. 다만 아쉬웠던 점이 있었다. 그때 분석 팀이 원했던 것은 타자의 1년치 성적을 한 파일에 쭉 나열해서 저장하는 것이었는데, 소통이 잘 안 됐던 건지 크롤링 상의 문제였던 건지 수집 팀이 4월, 5월, 6월 등 월별로 기록을 저장해서 분석 팀에 넘겨줬었다. 그래서 일일이 복사 붙여넣기를 통해 파일을 힘들게 합쳤던 기억이 난다. 그래서 이젠 내가 직접 크롤링을 해보고자 한다. 목표는 한 선수의 1년치 기록을 하나의 엑셀파일로 저장하는 것이다. 크롤링을 공부한 책은 '데이터 과학.. 2023. 2. 20.
파이썬 - ARIMA predict 함수 오류 기록 https://tiabet0929.tistory.com/10 이 글을 포스팅하면서 발생한 오류를 해결하는 데에 아주 애를 먹었다. 원인을 알아내고 해결하는 데에 꼬박 2일이 걸렸고, stackoverflow 같은 곳에서도 명쾌한 해답을 얻기가 어려웠었기 때문에 따로 포스팅하고자 한다. 우선 발생한 오류는 The start argument could not be matchted to a location related to the index of the data 이다. 발생한 오류 나는 우선 처음에 ACF와 PACF를 확인하고자 했고, 그래서 늘 하던대로 statsmodels 패키지의 plot_acf 함수를 사용하는 코드를 짰다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1.. 2023. 2. 8.