본문 바로가기

전체 글86

[NLP] BERT : Pre-training of Deep Bidirectional Transformers forLanguage Understanding 논문 리뷰 1 이번 포스팅에선 BERT를 리뷰해보려고 한다. 워낙 유명한 모델이고 또 전세계적으로 많은 분들이 잘 정리해주신 게 많기 때문에, 나는 내가 잘 몰랐던 부분을 중점적으로 정리해보려고 한다.  https://arxiv.org/abs/1810.04805 BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingWe introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation model.. 2025. 3. 8.
[NLP] Transformer Residual Connection, FFNN, Output Layer 정리 https://tiabet0929.tistory.com/83 [NLP] Transformer Multi-Head Attention 파이썬으로 정리https://tiabet0929.tistory.com/77 [NLP] Transformer의 Attention Head 파이썬으로 정리미루고 미루다 다시 한 번 Transformer 구조 정리를 시작하고자 한다. 이번 포스팅에선 Attention Head와 Scaled-dot Product Attention을tiabet0929.tistory.com이 포스팅을 작성하고도 시간이 꽤 흘러버렸다. 드디어 Transformer의 마지막 포스팅이 될 것 같다. 이번 포스팅에선 그동안 다루지 않고 남았던 모든 내용들을 다뤄보고자 한다. Residual Connection.. 2025. 2. 19.
[딥러닝] Layer Normalization과 Batch Normalization 정리 이번 포스팅에선 Neural Network에서 자주 사용되는 두 정규화 기법인 Layer Normalization과 Batch Normalization에 대해 정리해보고자 한다. 우선 Normalization이 왜 필요한지는 다소 직관적으로 느껴진다. Neural Network, 즉 인공신경망 모델에서 모델을 학습시키는 과정은 역전파다. 역전파를 위해선 경사하강법이 사용되고, 경사하강법이란 정답과 모델의 예측치의 차이를 바탕으로 구해진다. 그런데 만약 학습시키는 데이터마다 스케일이 다르다면? 정답과 예측치의 차이가 들쑥날쑥할 것이고, 그러면 역전파로 인해 모델의 가중치도 들쑥날쑥 바뀔 것이다. 또한 인공신경망이 사용하는 활성화함수에 따라서 Gradient 소실/폭발 문제가 발생할 수도 있다. 역전파에 대.. 2025. 2. 17.
[LLM] 심심해서 구해본 BERT의 파라미터 수 어제 Base Transformer의 파라미터 수를 정리해봤는데, 이번엔 보너스 느낌으로 Base BERT의 파라미터 수를 정리해보고자 한다. BERT의 개념 정리는 나중에 하도록 하겠다.https://tiabet0929.tistory.com/86 [LLM] Attention is All You Need 의 Base Transformer 파라미터 수 계산오랜만에 논문을 다시 읽다가 파라미터 수에 꽂혔다.  여기서 베이스 모델의 파라미터가 65M이라고 나와있길래, 재미삼아 GPT에게 물어봤는데, 당연히 위에 사진만 보여주면 환각 현상 때문에 65tiabet0929.tistory.com  BERT는 인코더로만 이루어져 있는 모델이라 파라미터 수 계산이 훨씬 편하다. 또한 몇 가지 공식을 사용해 계산을 훨씬 .. 2025. 2. 12.
[LLM] Attention is All You Need 의 Base Transformer 파라미터 수 계산 오랜만에 논문을 다시 읽다가 파라미터 수에 꽂혔다.  여기서 베이스 모델의 파라미터가 65M이라고 나와있길래, 재미삼아 GPT에게 물어봤는데, 당연히 위에 사진만 보여주면 환각 현상 때문에 65M이라고 대답한다. 그래서 구체적인 수치를 주고 다시 대답시켜봤는데 아래처럼 답변했다.  계산에 사용된 파이썬 코드를 보면 다음과 같다.V = 37000 # Vocabulary SizeL = 512 # Sequence Lengthd_model = 512 # Model dimensionh = 8 # Number of attention headsd_ff = 2048 # Feedforward dimensionN = 6 # Number of layers in encoder and decoder# 1. Emb.. 2025. 2. 11.
[통계학] Expectation-Maximization EM 알고리즘 정리 인공지능 강의를 듣다 보면 항상 나오는 개념이 몇 개 있다. 그 중 하나가 EM 알고리즘이다. 처음에 이 알고리즘에 대해 수업을 들을 때는 뭔 말인지 감도 안오고 어려운 느낌이 있었다. 하지만 내용을 알고 보면 그렇게까지 어려운 건 아니라, 차근차근 정리해보고자 한다. EM알고리즘의 목적은 MLEEM알고리즘을 먼저 언제 사용하는 지를 정확하게 아는 것이 이해가 쉬울 것 같다. 그러기 위해선 설명해야 하는 개념이 있는데 우도함수다. 우도함수는 어떤 데이터의 분포(이항분포인지, 다항분포인지 확률분포의 종류를 의미)를 알고 있지만 정확한 모수(이항분포에서 특정 사건이 일어날 확률)를 알지 못할 때, 이 정확한 모수, 즉 파라미터를 찾기 위해 사용된다. 일반적으로 확률분포에서 모수라 함은 평균, 표준편차 같은 .. 2025. 1. 24.