본문 바로가기

LLM5

[NLP] BERT : Pre-training of Deep Bidirectional Transformers forLanguage Understanding 논문 리뷰 1 이번 포스팅에선 BERT를 리뷰해보려고 한다. 워낙 유명한 모델이고 또 전세계적으로 많은 분들이 잘 정리해주신 게 많기 때문에, 나는 내가 잘 몰랐던 부분을 중점적으로 정리해보려고 한다.  https://arxiv.org/abs/1810.04805 BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingWe introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation model.. 2025. 3. 8.
[NLP] Transformer Residual Connection, FFNN, Output Layer 정리 https://tiabet0929.tistory.com/83 [NLP] Transformer Multi-Head Attention 파이썬으로 정리https://tiabet0929.tistory.com/77 [NLP] Transformer의 Attention Head 파이썬으로 정리미루고 미루다 다시 한 번 Transformer 구조 정리를 시작하고자 한다. 이번 포스팅에선 Attention Head와 Scaled-dot Product Attention을tiabet0929.tistory.com이 포스팅을 작성하고도 시간이 꽤 흘러버렸다. 드디어 Transformer의 마지막 포스팅이 될 것 같다. 이번 포스팅에선 그동안 다루지 않고 남았던 모든 내용들을 다뤄보고자 한다. Residual Connection.. 2025. 2. 19.
[LLM] Attention is All You Need 의 Base Transformer 파라미터 수 계산 오랜만에 논문을 다시 읽다가 파라미터 수에 꽂혔다.  여기서 베이스 모델의 파라미터가 65M이라고 나와있길래, 재미삼아 GPT에게 물어봤는데, 당연히 위에 사진만 보여주면 환각 현상 때문에 65M이라고 대답한다. 그래서 구체적인 수치를 주고 다시 대답시켜봤는데 아래처럼 답변했다.  계산에 사용된 파이썬 코드를 보면 다음과 같다.V = 37000 # Vocabulary SizeL = 512 # Sequence Lengthd_model = 512 # Model dimensionh = 8 # Number of attention headsd_ff = 2048 # Feedforward dimensionN = 6 # Number of layers in encoder and decoder# 1. Emb.. 2025. 2. 11.
[LLM] Deeplearning.AI Langchain 강의 내용 정리 오늘은 Langchain에 대해 공부하고 싶어서 코세라에서 찾은 Langchain 강의를 들은 내용을 정리해보고자 한다. 강의 링크 : https://www.coursera.org/projects/langchain-chat-with-your-data-project?skipBrowseRedirect=true LangChain Chat with Your Data 2시간 이내에 이 안내 프로젝트를 완료하세요. LangChain: Chat With Your Data delves into two main topics: (1) Retrieval Augmented Generation (RAG), a common LLM application ... www.coursera.org Coursera와 Deeplearning.. 2024. 2. 10.
LLM - RAG 란 무엇일까? 간단하게 이론 정리 진로를 LLM과 NLP 쪽으로 설정해놓긴 했고, 또 관련 공부를 많이 하고 있지만 블로그에 정리를 제대로 안 하고 스윽 넘어가기만 했었다. 사실 포스팅을 한 번 쓰면 하루가 그냥 날아가버려서 시간도 모자라고, 그러다 보니 마음도 잘 안 잡혔기 때문이다. 그래서 너무 완벽한 포스팅을 쓰는 것보단 정말 간단하게 LLM 관련 이론들을 하나씩 정리해보고자 한다. 사실 정리하면서 확실히 개념을 잡고 싶은 생각이 더 크지만. 가장 먼저 아주 핫한 토픽들 중 하나인 RAG, Retrieval-Augmented Generation 에 대해 정리하려고 한다. RAG와 Hallucination https://www.youtube.com/watch?v=T-D1OfcDW1M&t=15s&ab_channel=IBMTechnolo.. 2023. 12. 7.