전체 글81 [NLP] BPETokenizer 이해하기 최근에 캐글에서 열린 LLM 대회의 최적 솔루션은 아주 인상적이었다. https://www.kaggle.com/code/datafan07/train-your-own-tokenizer Train your own Tokenizer Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com 대회 목적 자체는 문장을 보고 기계가 만든 것인지 인간이 만든 것인지 구분하는 것이었다. 일반적인 솔루션은 BERT 류의 모델을 학습시켜서 분류시키는 것이겠으나, 여기에서 제시된 솔루션은 그런 방식이 아니다. 토크나이저를 로드해오는 게 아니고 데이터셋에 맞게 직접 만들어서, TF.. 2024. 2. 3. [바둑 ai 만들기 프로젝트] 2일차 - alphago 관련 논문 정리 오늘은 바둑 ai 만들기 프로젝트 2일차이다. 우선 당분간은 관련 논문들을 간단하게 읽어보면서 내가 나아가야 할 방향을 정립해보고자 한다. 논문을 읽는 데에는 시간이 꽤 오래 걸리므로, 오늘은 관련 페이퍼들을 찾아보고 정리해보고자 한다. 알파고 관련 논문 알파고를 설명한 원본 논문은 다음과 같다. https://www.nature.com/articles/nature16961 그런데 이걸 읽으려면 네이처지에 접근해야 하는데 내가 다니는 학교랑 네이처가 연결이 안 되어 있는 것 같았다. 그래서 이런 논문들을 가져와서 읽을 수 있게 해주는 사이트를 이용했다. https://sci-hub.wf/10.1038/nature16961 Sci-Hub | Mastering the game of Go with deep n.. 2024. 2. 2. [바둑 AI 만들기 프로젝트] 1일차 - 주제 설정 나는 최근에 취미로 온라인 바둑을 두고 있다. 처음엔 COSUMI라는 바둑 웹사이트에서 인공지능과 주로 두기 시작했다. https://www.cosumi.net/ko/ 바둑 웹 게임 COSUMI - 무료! COSUMI에 어서 오세요! 이 사이트에서는, 5줄∼19줄의 바둑을 할 수 있습니다. 만약 바둑의 방법을 모를 경우는, 우선 Wikipedia(바둑)를 보시고, 그 후 초보자에 적합한 5줄에 도전해 주십시오. 즐겨 www.cosumi.net 바둑 ai는 보통 설치해서 로컬로 돌려야하는 경우가 많다. 아무래도 딥러닝 모델들이 대다수이기 때문에 좋은 성능의 gpu가 필요하지만 gpu 서버는 비용이 아주 비싸기 때문인 것 같다. 하지만 COSUMI라는 사이트는 설치할 필요가 없어서 좋았다. 오래된 사이트인 .. 2024. 1. 26. 머신러닝 - 스태킹 앙상블과 그 변형에 대해 이번엔 스태킹 앙상블을 적용하는 방법에 대해 살펴보고자 한다. 스태킹 앙상블은 메인스트림이 된 배깅, 부스팅과 같은 앙상블 모델하고는 느낌이 조금 다르다. 같이 앙상블이라고 불리긴 하지만, 약간 이런 느낌? 보팅이야 다수결의 원리라는 워낙 간단명료한 기법이라 설명이 필요없고, 스태킹의 개념이 조금 복잡하기도, 다양하기도 한 감이 있다. 그래서 짧게 정리해보고자 한다. 참고자료 : https://www.yes24.com/Product/Goods/69752484 파이썬 머신러닝 완벽 가이드 - 예스24 자세한 이론 설명과 파이썬 실습을 통해 머신러닝을 완벽하게 배울 수 있다!『파이썬 머신러닝 완벽 가이드』는 이론 위주의 머신러닝 책에서 탈피해 다양한 실전 예제를 직접 구현해 보면서 www.yes24.com .. 2024. 1. 7. Colab에 도입된 AI 사용해보기 - ChatGPT, Bard 와 코드 생성 수준 비교 Colab에 코드를 생성해주는 Colab AI가 생겼다. 사용하기도 아주 간편하게 만들어놨다. 그래서 똑같은 프롬프트를 줘보고, 생성하는 코드에 어떠한 차이가 있는지 한 번 비교해보았다. 우선 간단하게 " load any datasets from huggingface and change it to pandas dataframe" 이란 명령을 줘보았다. 올바르게 실행되는지 돌려보았다. 안타깝게도 실행엔 실패했다. 내가 알기로 to_pandas라는 메소드가 실제로 존재하긴 하는데 왜 작동을 안 하나 살펴봤더니, DatasetDict 에는 to_pandas 메소드는 없다. 아무래도 Dictionary 형태이다 보니 dataframe으로 바꿀 수 없나보다. 정답에 거의 근접하긴 했지만 데이터셋 선정엔 실패한 모.. 2023. 12. 17. 머신러닝 - ROC Curve에 대한 확장 : 임계값 캐글에서 진행하는 LLM 관련 대회 중, 아래 대회에 참가하려고 마음먹었다. https://www.kaggle.com/competitions/llm-detect-ai-generated-text/overview LLM - Detect AI Generated Text | Kaggle www.kaggle.com 그래서 평가 지표를 살펴보던 중, 특이하게 AUC를 평가 지표로 삼고 있는 것을 보았다. 나는 자연스럽게 그러면 test data에 대해 사람이 만들었는지, 기계가 만들었는지를 0과 1로 분류하면 되겠구나, 싶었는데 알고 보니 test data에 들어있는 텍스트 데이터가 사람이 썼을 확률을 구해서 제출하는 것이었다. 하지만 내 개념으론 이해가 가지 않았다. 내가 알기로 0 또는 1로 분류되어야 AUC를.. 2023. 12. 13. 이전 1 ··· 3 4 5 6 7 8 9 ··· 14 다음