트랜스포머1 [LLM] Attention is All You Need 의 Base Transformer 파라미터 수 계산 오랜만에 논문을 다시 읽다가 파라미터 수에 꽂혔다. 여기서 베이스 모델의 파라미터가 65M이라고 나와있길래, 재미삼아 GPT에게 물어봤는데, 당연히 위에 사진만 보여주면 환각 현상 때문에 65M이라고 대답한다. 그래서 구체적인 수치를 주고 다시 대답시켜봤는데 아래처럼 답변했다. 계산에 사용된 파이썬 코드를 보면 다음과 같다.V = 37000 # Vocabulary SizeL = 512 # Sequence Lengthd_model = 512 # Model dimensionh = 8 # Number of attention headsd_ff = 2048 # Feedforward dimensionN = 6 # Number of layers in encoder and decoder# 1. Emb.. 2025. 2. 11. 이전 1 다음