본문 바로가기

파이썬9

Colab에 도입된 AI 사용해보기 - ChatGPT, Bard 와 코드 생성 수준 비교 Colab에 코드를 생성해주는 Colab AI가 생겼다. 사용하기도 아주 간편하게 만들어놨다. 그래서 똑같은 프롬프트를 줘보고, 생성하는 코드에 어떠한 차이가 있는지 한 번 비교해보았다. 우선 간단하게 " load any datasets from huggingface and change it to pandas dataframe" 이란 명령을 줘보았다. 올바르게 실행되는지 돌려보았다. 안타깝게도 실행엔 실패했다. 내가 알기로 to_pandas라는 메소드가 실제로 존재하긴 하는데 왜 작동을 안 하나 살펴봤더니, DatasetDict 에는 to_pandas 메소드는 없다. 아무래도 Dictionary 형태이다 보니 dataframe으로 바꿀 수 없나보다. 정답에 거의 근접하긴 했지만 데이터셋 선정엔 실패한 모.. 2023. 12. 17.
Pandas 판다스 데이터프레임 열 추가, 합치기 등 (concat, merge, join) + 삭제된 append 교수님이 수업시간에 배포해주신 실습 코드에 다음과 같은 코드가 있었다. copy_titanic_df.append({'passengerId':1, 'survived':1, 'pclass':1, 'name':1, 'sex':1, 'age':1, 'sibsp':1, 'parch':1, 'ticket':1, 'fare':1, 'cabin':1, 'embarked':1}, ignore_index=True) 그래서 같은 코드를 주피터 노트북에서 돌려봤더니, 다음과 같은 에러메시지가 떴다. DataFrame에는 append라는 메소드가 없다는 것이다. 순간 뇌정지가 왔지만 판다스의 버젼을 확인해보니, 실습 코드가 실행된 코랩에서의 판다스 버젼은 1.5.3, 내가 올해 4월 경에 주피터에 설치한 판다스 버젼은 2.0... 2023. 10. 22.
파이썬 - 텍스트 데이터 전처리 파이프라인 (2) : Sklearn Pipeline 1편에서 텍스트 데이터를 전처리하기 위해 전각-반각 변환, 정규식 적용, 맞춤법 검사 등을 살펴보았다. 2편에서는 파이프라인을 설계하기 위한 Sklearn의 Pipeline 함수에 대해서 간략하게 정리해보고자 한다. 코드 전문 : https://github.com/Tiabet/Project_Market/blob/master/%ED%85%8D%EC%8A%A4%ED%8A%B8%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EC%A0%84%EC%B2%98%EB%A6%AC/text_preprocessing_pipeline.py Pipeline 이란? Pipeline, 파이프라인이란 데이터에 대하여 여러 작업을 수행하되 한 작업의 결과값이 다음 작업의 입력값이 되게끔 설계하는 것을 말한다. 따라서 Pipe.. 2023. 8. 28.
파이썬 - 텍스트 데이터 전처리 파이프라인 (1) : 한국어 텍스트 전처리 이번 포스팅에선 내가 텍스트 데이터를 전처리하기 위해 개발한 파이프라인에 대해 간략하게 글을 작성해보고자 한다. 1편과 2편으로 나누어서, 1편에선 전처리 과정에 대해, 2편에선 scikit-learn의 Pipeline 함수에 대해 정리해볼 예정이다. 전체 코드 -> https://github.com/Tiabet/Project_Market/blob/master/%ED%85%8D%EC%8A%A4%ED%8A%B8%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EC%A0%84%EC%B2%98%EB%A6%AC/text_preprocessing_pipeline.py 전각 문자, 반각 문자 변환 전각 문자, 반각 문자의 개념은 다소 생소했다. 일반적으로 타이핑을 할 때 글자를 입력하는 정사각형 한 칸이 있다.. 2023. 8. 19.
파이썬 오류 기록 - LGBM, Python, Dask 관련 AttributeError 오랜만에 주피터 노트북에서 lgbm 모델을 사용하려고 했는데 아래와 같은 오류를 확인했다. import pandas as pd import lightgbm as lgb AttributeError: module 'pandas.core.strings' has no attribute 'StringMethods' lightgbm (경황이 없어서 캡쳐를 하지 못 했다.) 오류가 난 부분은 lightgbm 을 import 하는 코드였다. 어째서 이런 오류가 났는지 ChatGPT에 우선 물어봤는데, pandas의 버전이 compatible하지 않는다고 lightgbm을 update하라는 답변이 돌아왔다. 하지만 pip 로 update를 한 결과 이미 최신버전이었고, pandas도 마찬가지로 최신이어서 더 할 것이 없.. 2023. 6. 4.
파이썬 - 유용한 함수 scipy의 optimize, minimize 활용해보기 오늘은 최근에 여러 공부를 하면서 굉장히 유용하다고 느낀 함수인 Scipy 패키지의 optimizie 함수에 대해 정리해보도록 하겠다. 내용의 출처는 ChatGPT와 https://scipy.org/ (패키지의 소개 홈페이지) 이다. Scipy 패키지 scipy 패키지는 여러 계산 과정에서 굉장히 유용하게 사용되는 패키지이다. 최적화, 보간법, 선형대수 등 여러 수학적인 계산을 넘어서 통계와 이미지 처리 까지 지원해주는 함수들이 내장되어 있다. 오늘 정리할 함수는 이 중 최적화를 도와주는 optimize function이다. Optimize 함수 https://docs.scipy.org/doc/scipy/tutorial/optimize.html# Optimization (scipy.optimize) — .. 2023. 5. 5.