분류 전체보기94 [NLP] BERT : Pre-training of Deep Bidirectional Transformers forLanguage Understanding 논문 리뷰 2 이번 포스팅은 지난 포스팅에서 다루지 못한 BERT의 Pre-train 및 파인튜닝 Approach를 다뤄보도록 하겠다. https://tiabet0929.tistory.com/90 [NLP] BERT : Pre-training of Deep Bidirectional Transformers forLanguage Understanding 논문 리뷰 1이번 포스팅에선 BERT를 리뷰해보려고 한다. 워낙 유명한 모델이고 또 전세계적으로 많은 분들이 잘 정리해주신 게 많기 때문에, 나는 내가 잘 몰랐던 부분을 중점적으로 정리해보려고 한다. httiabet0929.tistory.com 글을 시작하기에 앞서 최근 내가 여러 모델들의 논문을 읽으면서, 후대에 공부를 시작한 사람으로서 깨달은 점을 적어보려고 한다. .. 2025. 3. 14. [NLP] 유사도 검색 알고리즘 TF-IDF 및 BM25 파이썬과 정리 RAG를 공부하다보면 DPR을 공부하게 되는데, DPR에서 기존 SOTA로 언급한 메소드가 있으니 바로 BM25이다. 그래서 이번 포스팅에선 TF-IDF와 BM25를 간단하게 정리하려고 한다. TF-IDFTF-IDF는 텍스트마이닝 공부를 하다보면 초반에 배우게 되는 알고리즘이다. 문서를 어떻게 벡터, 즉 숫자로 바꿀 것이냐에 대한 알고리즘인데, 방식이 쉽고 간단한 점이 장점이다. 또한 문서 내에서 단어가 얼마나 중요한지를 나타낼 수 있는 통계적 지표로도 활용 가능하여 처음 제시된 것이 1972년이니 얼마나 이 분야에서 잘 활용되었는지 알 수 있다. 공식을 살펴보면$\text{TF-IDF}(t,d) = \text{TF}(t,d) \times \text{IDF}(t)$ $\text{TF}(t,d) = \fr.. 2025. 3. 11. [NLP] BERT : Pre-training of Deep Bidirectional Transformers forLanguage Understanding 논문 리뷰 1 이번 포스팅에선 BERT를 리뷰해보려고 한다. 워낙 유명한 모델이고 또 전세계적으로 많은 분들이 잘 정리해주신 게 많기 때문에, 나는 내가 잘 몰랐던 부분을 중점적으로 정리해보려고 한다. https://arxiv.org/abs/1810.04805 BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingWe introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation model.. 2025. 3. 8. [NLP] Transformer Residual Connection, FFNN, Output Layer 정리 https://tiabet0929.tistory.com/83 [NLP] Transformer Multi-Head Attention 파이썬으로 정리https://tiabet0929.tistory.com/77 [NLP] Transformer의 Attention Head 파이썬으로 정리미루고 미루다 다시 한 번 Transformer 구조 정리를 시작하고자 한다. 이번 포스팅에선 Attention Head와 Scaled-dot Product Attention을tiabet0929.tistory.com이 포스팅을 작성하고도 시간이 꽤 흘러버렸다. 드디어 Transformer의 마지막 포스팅이 될 것 같다. 이번 포스팅에선 그동안 다루지 않고 남았던 모든 내용들을 다뤄보고자 한다. Residual Connection.. 2025. 2. 19. [딥러닝] Layer Normalization과 Batch Normalization 정리 이번 포스팅에선 Neural Network에서 자주 사용되는 두 정규화 기법인 Layer Normalization과 Batch Normalization에 대해 정리해보고자 한다. 우선 Normalization이 왜 필요한지는 다소 직관적으로 느껴진다. Neural Network, 즉 인공신경망 모델에서 모델을 학습시키는 과정은 역전파다. 역전파를 위해선 경사하강법이 사용되고, 경사하강법이란 정답과 모델의 예측치의 차이를 바탕으로 구해진다. 그런데 만약 학습시키는 데이터마다 스케일이 다르다면? 정답과 예측치의 차이가 들쑥날쑥할 것이고, 그러면 역전파로 인해 모델의 가중치도 들쑥날쑥 바뀔 것이다. 또한 인공신경망이 사용하는 활성화함수에 따라서 Gradient 소실/폭발 문제가 발생할 수도 있다. 역전파에 대.. 2025. 2. 17. [LLM] 심심해서 구해본 BERT의 파라미터 수 어제 Base Transformer의 파라미터 수를 정리해봤는데, 이번엔 보너스 느낌으로 Base BERT의 파라미터 수를 정리해보고자 한다. BERT의 개념 정리는 나중에 하도록 하겠다.https://tiabet0929.tistory.com/86 [LLM] Attention is All You Need 의 Base Transformer 파라미터 수 계산오랜만에 논문을 다시 읽다가 파라미터 수에 꽂혔다. 여기서 베이스 모델의 파라미터가 65M이라고 나와있길래, 재미삼아 GPT에게 물어봤는데, 당연히 위에 사진만 보여주면 환각 현상 때문에 65tiabet0929.tistory.com BERT는 인코더로만 이루어져 있는 모델이라 파라미터 수 계산이 훨씬 편하다. 또한 몇 가지 공식을 사용해 계산을 훨씬 .. 2025. 2. 12. 이전 1 2 3 4 5 ··· 16 다음