본문 바로가기

전체 글69

[LLM] LLM으로 Tabular Data 학습해보기 - 1. GPT4o Finetuning (경정데이터분석) https://www.kboat.or.kr/contents/customPlaza/noticeView.do?seqId=21256&cPage=1 KBOAT 경정2024 전국 대학생 경정 데이터 분석 경진대회 개최 안내 작성자 관리자 작성일 2024.07.24 조회 4191 첨부파일 파일 첨부됨 [양식]개인정보 수집·활용 동의서.pdf  국민체육진흥공단 경륜경정총괄본www.kboat.or.kr친구들과 함께 이 대회에 참가하고 있다. 정형데이터 (Tabular) 분석할 때는 아무래도 머신러닝 알고리즘인 XGB, LGBM, CatBoost, Random Forest 등을 사용하는 것이 정설이다. 하지만 최근 LLM이 워낙 발전하면서 이런 정형데이터들도 LLM으로 풀어보려는 시도들이 여러 공모전에서 활발히 이루어지.. 2024. 9. 20.
[LLM] OPENAI 새로운 모델 ChatGPT o1 사용 후기 블로그에 글을 거의 세 달만에 쓰는데 그 사이에 방문자 수가 꽤 늘었다. 글을 안 썼는데 왜 늘었는지는 모르지만.. 아무튼 그동안 쓸 글들이 엄청 밀려있는데 우선 빠르게 쓸 수 있는 글부터 써본다. https://openai.com/index/introducing-openai-o1-preview/9월 12일, OPENAI가 GPT의 뉴 버전인 o1을 공개했다. 정확히 말하면 Preview인데, 한 번 직접 사용해보고 뭐가 달라졌는지 살펴보고자 한다. 우선 위 링크에서 소개글을 정리해보면, 답변을 하기 전 생각을 하는 시간이 더 길어졌다고 한다. 계산 속도가 느려진 것이 아닌, 이 답변이 맞는지 틀렸는지 점검도 하고, 더 좋은 답변은 없는지 고민도 하느라 답변 시간이 더 느려졌다는 것이다.그러면서 특히 코.. 2024. 9. 15.
[딥러닝] 생성형 AI (LLM) 에서 Loss는 어떻게 계산될까 LLM을 그래도 1년 남짓 공부하면서 종종 들었던 의문이 하나 있다. LLM(트랜스포머 아키텍처) 특정 단어 뒤에 어떤 단어가 오는지 확률로 계산한다.  대강 이런 식으로. 그래서 LLM은 가장 확률이 높은 단어를 반환하거나, top_k, top_p 샘플링과 temperature 같은 파라미터를 통해 더욱 다양한 답변을 내놓거나 그렇지 않도록 설정할 수 있다. 하지만 LLM을 훈련, 특히 QA 데이터셋 (질문 - 답변)으로 LLM을 훈련시키고 있는 상황을 생각해보자. 질문 : 나는 오늘 기분이 정말 별로였어. 내가 무엇을 하면 좋을지 추천해줘.답변 : 기분을 좋게 만드는 방법엔 음악 듣기, 게임하기, 운동하기 등이 있습니다. 위와 같은 형식으로 훈련을 시킨다고 치면, LLM은 가장 자연스러운 답변을 생성.. 2024. 6. 22.
[NLP] Transformer의 Attnetion 간단한 정리 https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a newarxiv.org논문의 부록을 내리다 보면 다음처럼 Attention이 무엇인지, 특히 Self-Attention이 무엇인지와 어떻게 작동하는지를 설명해.. 2024. 6. 11.
[NLP] 트랜스포머 구조 파악하기 (Attention is All You Need) 드디어 오랜 시간 공부해온 트랜스포머에 대해서 정리할 수 있을 정도로 개념이 쌓인 것 같다. 그래서 순차적으로 쭉 자세히 정리해보려고 하는데, 인트로 느낌으로 논문 리뷰를 하면 좋을 것 같다. https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mech.. 2024. 6. 11.
[NLP] Transformer의 Input은 어떻게 Embedding Vector로 변환되나? https://tiabet0929.tistory.com/68 [NLP] 트랜스포머 구조 파악하기 (Attention is All You Need)드디어 오랜 시간 공부해온 트랜스포머에 대해서 정리할 수 있을 정도로 개념이 쌓인 것 같다. 그래서 순차적으로 쭉 자세히 정리해보려고 하는데, 인트로 느낌으로 논문 리뷰를 하면 좋을 것tiabet0929.tistory.com 이번 포스팅에선 트랜스포머의 임베딩에 대해 자세히 살펴보고자 한다.  트랜스포머엔 가장 처음 Input을 Embedding으로 변환시켜주는 과정이 필수적이다. (다른 Seq2Seq 모델들도 마찬가지) Embedding(임베딩) 이란 일련의 단어, 즉 문장의 의미와 관계 포착하는 숫자로 변환하는 방법이다.  이미지, 문서, 소리 등 많은 비정.. 2024. 6. 6.