본문 바로가기

LLM8

[LLM] LLM으로 Tabular Data 학습해보기 3 - Langchain으로 데이터 증강하기 Langchain을 소개하는 칼럼 하나를 읽다가 Langchain으로 Tabular Dataset을 증강시키는 방법이 있다고 해서 궁금했다.  https://tiabet0929.tistory.com/72 [LLM] LLM으로 Tabular Data 학습해보기 - 1. GPT4o Finetuning (경정데이터분석)https://www.kboat.or.kr/contents/customPlaza/noticeView.do?seqId=21256&cPage=1 KBOAT 경정2024 전국 대학생 경정 데이터 분석 경진대회 개최 안내 작성자 관리자 작성일 2024.07.24 조회 4191 첨부파일 파일 첨부됨 [양식]tiabet0929.tistory.com 위 대회에 참가할 때도 학습을 하려고 했던 이유가 LLM을.. 2024. 11. 13.
[LLM] LLM으로 Tabular Data 학습해보기 - 2. 이진분류 (경정데이터분석) https://tiabet0929.tistory.com/72 [LLM] LLM으로 Tabular Data 학습해보기 - 1. GPT4o Finetuning (경정데이터분석)https://www.kboat.or.kr/contents/customPlaza/noticeView.do?seqId=21256&cPage=1 KBOAT 경정2024 전국 대학생 경정 데이터 분석 경진대회 개최 안내 작성자 관리자 작성일 2024.07.24 조회 4191 첨부파일 파일 첨부됨 [양식]tiabet0929.tistory.com1편에 이어서 작성한다.  1편에서 학습이 잘 이루어지지 않는 문제의 해결책으로 나는 두 가지 방법을 채택했다. 1. 프롬프트에서 숫자의 간소화 (소수점 밑으로 열자리가 넘어가는 숫자들을 줄이는 방법)2.. 2024. 9. 29.
[LLM] LLM으로 Tabular Data 학습해보기 - 1. GPT4o Finetuning (경정데이터분석) https://www.kboat.or.kr/contents/customPlaza/noticeView.do?seqId=21256&cPage=1 KBOAT 경정2024 전국 대학생 경정 데이터 분석 경진대회 개최 안내 작성자 관리자 작성일 2024.07.24 조회 4191 첨부파일 파일 첨부됨 [양식]개인정보 수집·활용 동의서.pdf  국민체육진흥공단 경륜경정총괄본www.kboat.or.kr친구들과 함께 이 대회에 참가하고 있다. 정형데이터 (Tabular) 분석할 때는 아무래도 머신러닝 알고리즘인 XGB, LGBM, CatBoost, Random Forest 등을 사용하는 것이 정설이다. 하지만 최근 LLM이 워낙 발전하면서 이런 정형데이터들도 LLM으로 풀어보려는 시도들이 여러 공모전에서 활발히 이루어지.. 2024. 9. 20.
[LLM] OPENAI 새로운 모델 ChatGPT o1 사용 후기 블로그에 글을 거의 세 달만에 쓰는데 그 사이에 방문자 수가 꽤 늘었다. 글을 안 썼는데 왜 늘었는지는 모르지만.. 아무튼 그동안 쓸 글들이 엄청 밀려있는데 우선 빠르게 쓸 수 있는 글부터 써본다. https://openai.com/index/introducing-openai-o1-preview/9월 12일, OPENAI가 GPT의 뉴 버전인 o1을 공개했다. 정확히 말하면 Preview인데, 한 번 직접 사용해보고 뭐가 달라졌는지 살펴보고자 한다. 우선 위 링크에서 소개글을 정리해보면, 답변을 하기 전 생각을 하는 시간이 더 길어졌다고 한다. 계산 속도가 느려진 것이 아닌, 이 답변이 맞는지 틀렸는지 점검도 하고, 더 좋은 답변은 없는지 고민도 하느라 답변 시간이 더 느려졌다는 것이다.그러면서 특히 코.. 2024. 9. 15.
LLM - ChatGPT로 학습 데이터를 생성하는 방법 - 텍스트 데이터, 프롬프트 엔지니어링 요즘은 그야말로 데이터 전쟁이다. 빅테크 기업들의 AI 전문가들을 포함해 많은 사람들이 좋은 AI를 만드려면 양질의 좋은 데이터가 많이 필요함을 끊임없이 언급 중이다. 최근에 캐글 대회를 보면 LLM을 이용해 데이터를 자체적으로 생산하여 학습 데이터 수를 늘리는 방식으로 고득점을 노리는 시도들이 많다. 특히 내가 최근에 참여한 텍스트 데이터 분류 대회에서 그랬다. https://www.kaggle.com/datasets/thedrcat/daigt-v2-train-dataset DAIGT V2 Train Dataset A dataset you can actually train on for the LLM Detect AI Generated Text comp. www.kaggle.com 위 데이터셋은 공식 데.. 2024. 3. 27.
[LLM] Deeplearning.AI Langchain 강의 내용 정리 오늘은 Langchain에 대해 공부하고 싶어서 코세라에서 찾은 Langchain 강의를 들은 내용을 정리해보고자 한다. 강의 링크 : https://www.coursera.org/projects/langchain-chat-with-your-data-project?skipBrowseRedirect=true LangChain Chat with Your Data 2시간 이내에 이 안내 프로젝트를 완료하세요. LangChain: Chat With Your Data delves into two main topics: (1) Retrieval Augmented Generation (RAG), a common LLM application ... www.coursera.org Coursera와 Deeplearning.. 2024. 2. 10.