전체 글73 [딥러닝] 생성형 AI (LLM) 에서 Loss는 어떻게 계산될까 LLM을 그래도 1년 남짓 공부하면서 종종 들었던 의문이 하나 있다. LLM(트랜스포머 아키텍처) 특정 단어 뒤에 어떤 단어가 오는지 확률로 계산한다. 대강 이런 식으로. 그래서 LLM은 가장 확률이 높은 단어를 반환하거나, top_k, top_p 샘플링과 temperature 같은 파라미터를 통해 더욱 다양한 답변을 내놓거나 그렇지 않도록 설정할 수 있다. 하지만 LLM을 훈련, 특히 QA 데이터셋 (질문 - 답변)으로 LLM을 훈련시키고 있는 상황을 생각해보자. 질문 : 나는 오늘 기분이 정말 별로였어. 내가 무엇을 하면 좋을지 추천해줘.답변 : 기분을 좋게 만드는 방법엔 음악 듣기, 게임하기, 운동하기 등이 있습니다. 위와 같은 형식으로 훈련을 시킨다고 치면, LLM은 가장 자연스러운 답변을 생성.. 2024. 6. 22. [NLP] Transformer의 Attnetion 간단한 정리 https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a newarxiv.org논문의 부록을 내리다 보면 다음처럼 Attention이 무엇인지, 특히 Self-Attention이 무엇인지와 어떻게 작동하는지를 설명해.. 2024. 6. 11. [NLP] 트랜스포머 구조 파악하기 (Attention is All You Need) 드디어 오랜 시간 공부해온 트랜스포머에 대해서 정리할 수 있을 정도로 개념이 쌓인 것 같다. 그래서 순차적으로 쭉 자세히 정리해보려고 하는데, 인트로 느낌으로 논문 리뷰를 하면 좋을 것 같다. https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mech.. 2024. 6. 11. [NLP] Transformer의 Input은 어떻게 Embedding Vector로 변환되나? https://tiabet0929.tistory.com/68 [NLP] 트랜스포머 구조 파악하기 (Attention is All You Need)드디어 오랜 시간 공부해온 트랜스포머에 대해서 정리할 수 있을 정도로 개념이 쌓인 것 같다. 그래서 순차적으로 쭉 자세히 정리해보려고 하는데, 인트로 느낌으로 논문 리뷰를 하면 좋을 것tiabet0929.tistory.com 이번 포스팅에선 트랜스포머의 임베딩에 대해 자세히 살펴보고자 한다. 트랜스포머엔 가장 처음 Input을 Embedding으로 변환시켜주는 과정이 필수적이다. (다른 Seq2Seq 모델들도 마찬가지) Embedding(임베딩) 이란 일련의 단어, 즉 문장의 의미와 관계 포착하는 숫자로 변환하는 방법이다. 이미지, 문서, 소리 등 많은 비정.. 2024. 6. 6. [NLP] Transformer의 Positional Encoding 정리 이번 포스팅에선 Positional Encoding과 Embedding에 대해 정리해보고자 한다. 더보기https://tiabet0929.tistory.com/68 [NLP] 트랜스포머 구조 파악하기 (Attention is All You Need)드디어 오랜 시간 공부해온 트랜스포머에 대해서 정리할 수 있을 정도로 개념이 쌓인 것 같다. 그래서 순차적으로 쭉 자세히 정리해보려고 하는데, 인트로 느낌으로 논문 리뷰를 하면 좋을 것tiabet0929.tistory.comhttps://tiabet0929.tistory.com/67 [NLP] Transformer의 Input은 어떻게 Embedding Vector로 변환되나?https://tiabet0929.tistory.com/68 [NLP] 트랜스포머 구.. 2024. 6. 6. [후기] SKT FLY AI Challenger 5기 지원 + 합격 후기 (2024.05) https://www.skttechacademy.com/nonmember/flyAi/flyAiMain SKT TECH ACADEMYSK Tech기반 핵심 개발자 양성교육www.skttechacademy.com 국비지원사업 K-Digital Training의 일환으로 SKT에서 진행하는 AI 교육-프로젝트인 SKT Fly AI Challenger 5기에 서류를 통과했다. 작년 4기 때도 서류는 통과했었는데 내가 코딩테스트 날에 오랫동안 계획한 일본 여행이 잡혀 있었어서 어쩔 수 없이 포기했었다. 정말 탐나는 기회였어서 이번 5기에도 지원했는데 운좋게 서류에 통과해서 코딩테스트에 임했다. (본 교육은 특이하게도 코딩테스트 결과와 일반면접 점수를 합산하여 최종 선발을 진행했다.) 코딩테스트코딩테스트는 프로그래.. 2024. 5. 24. 이전 1 2 3 4 5 ··· 13 다음