본문 바로가기

딥러닝9

Colab 에서 cuda error: device-side assert triggered 등 CUDA error 해결 (huggingface 관련) 이번 포스팅도 에러 관련 짧은 포스팅이 될 것이다. 나는 딥러닝을 코랩에서만 돌리기 때문에 코랩에서의 오류라고 정리했지만, 구글링을 해보면 로컬 gpu를 사용하시는 분들도 이런 오류를 겪으신 분들이 많은 것 같다. 나는 trainer API에서 train을 사용할 때 오류가 발생했는데, 또 신기한 게 실행할 때마다 미세하게 다른 오류가 발생했다. 발생한 오류들은 다음과 같다. CUDA error: device-side assert triggered CUBLAS_STATUS_NOT_INITIALIZED Error 대충 이런 식의 Runtime Error 였는데, 워낙 많은 이유로 에러가 발생하다보니 사람마다 말하는 해결법도 아주 다양했다. 하지만 여러 깃헙과 사이트들을 뒤져본 결과 대략적인 가닥을 잡을 수.. 2023. 9. 30.
Trainer API 에서 compute_metrics 사용할 때 CUDA out of memory 해결법 간밤에 KoGPT 를 사용해서 Colab에서 koGPT 를 파인튜닝하고 있었는데, 자꾸만 아래 오류가 발생했다. 처음에는 배치 사이즈나 tokenizer 과정에서 문제가 생겼나 싶어서 이 부분을 고쳐봤으나 인터넷에서 찾을 수 있는 모든 자료를 다 시도해봐도 오류를 벗어날 수 없었다. 내가 시도해본 방법은 1) 커널 재시작 2) batch_size 1까지도 줄여서 적용 3) Garbage Collect import gc gc.collect() 4) 캐시 청소 torch.cuda.empty_cache() 5) import os os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "max_split_size_mb:" 이 정도 방법들이었는데 한국어로 찾아볼 수 있는 거의 모든 방법을 시도해봤.. 2023. 9. 5.
딥러닝 - Pytorch 의 Sampler 정리 서론 프로젝트를 진행하면서 구글의 BERT를 사용하여 쇼핑 리뷰의 감성을 이진 분류하는 작업을 하고 있었다. https://yonghee.io/bert_binary_classification_naver/ BERT로 네이버 영화 리뷰데이터 분류하기 사전학습된 BERT 모델만 이용하여 다른 전처리 없이 문장 긍부정 분류를 할 수 있을지, 귀추가 주목됩니다. yonghee.io 작업에 굉장히 많은 도움을 받은 코드이다. 영화 리뷰데이터를 쇼핑 리뷰데이터로 바꾸고 필요한 부분만 가져다가 쓰면서 열심히 작업을 하였고, 결과까지 원활하게 도출해낼 수 있었다. 그런데 가장 중요한 부분에서 내가 무언가 착각을 하였는지 내 생각과는 다르게 전개되었다. 모델을 훈련하고 테스트한 결과 0.94의 정확도를 보였으나, 긍정-부.. 2023. 8. 11.