본문 바로가기

딥러닝9

[딥러닝] 딥러닝과 역전파의 핵심, Optimzier AdamW 위주로 정리 딥러닝 모델을 만들 때 이론적으로 가장 중요한 게 뭘까? 나는 단연코 역전파라고 생각한다. 물론 지금 우리는 pytorch나 tensorflow 같은 잘 만들어진 프레임워크에서 간단한 함수 몇 줄로 이 역전파 및 훈련이 가능하기 때문에, 실제 활용할 때는 그 중요성이 잘 느껴지지 않는다.https://tiabet0929.tistory.com/79 [딥러닝] 역전파를 단 한 줄로 가능하게 해주는 backward() 함수 탐구많은 사람들이 딥러닝 이론을 공부할 때 가장 열심히 공부하는 부분이 역전파 부분일 것이다.그 이유는 단순한데, 역전파가 있어야 딥러닝이고 또 그 과정이 만만치 않게 복잡하기 때문이다.httptiabet0929.tistory.com이전에 backward() 함수에 대해 탐구해보면서 언젠가.. 2025. 4. 29.

[딥러닝] 논문 리뷰 - Normalization 꼭 필요없다. Transformers without Normalization 3일 전 Normalization과 관련된 굉장히 재밌는 논문이 메타에서 나왔다. https://arxiv.org/abs/2503.10622 Transformers without NormalizationNormalization layers are ubiquitous in modern neural networks and have long been considered essential. This work demonstrates that Transformers without normalization can achieve the same or better performance using a remarkably simple technique. We introduarxiv.org 나는 일전에도 Batch Norm.. 2025. 3. 17.

[딥러닝] Layer Normalization과 Batch Normalization 정리 이번 포스팅에선 Neural Network에서 자주 사용되는 두 정규화 기법인 Layer Normalization과 Batch Normalization에 대해 정리해보고자 한다. 우선 Normalization이 왜 필요한지는 다소 직관적으로 느껴진다. Neural Network, 즉 인공신경망 모델에서 모델을 학습시키는 과정은 역전파다. 역전파를 위해선 경사하강법이 사용되고, 경사하강법이란 정답과 모델의 예측치의 차이를 바탕으로 구해진다. 그런데 만약 학습시키는 데이터마다 스케일이 다르다면? 정답과 예측치의 차이가 들쑥날쑥할 것이고, 그러면 역전파로 인해 모델의 가중치도 들쑥날쑥 바뀔 것이다. 또한 인공신경망이 사용하는 활성화함수에 따라서 Gradient 소실/폭발 문제가 발생할 수도 있다. 역전파에 대.. 2025. 2. 17.

[딥러닝] 역전파를 단 한 줄로 가능하게 해주는 backward() 함수 탐구 많은 사람들이 딥러닝 이론을 공부할 때 가장 열심히 공부하는 부분이 역전파 부분일 것이다.그 이유는 단순한데, 역전파가 있어야 딥러닝이고 또 그 과정이 만만치 않게 복잡하기 때문이다.https://www.youtube.com/watch?v=tIeHLnjs5U8&ab_channel=3Blue1Brown 내가 공부하면서 본 유튜브 채널 중 하나인데, 간단한 예제로 역전파 계산 방법에 대해서만 10분짜리 영상이 나올 정도로 그 계산이 쉽지 않다. 미분이 떡칠되어 있기 때문이다. 그래서 이 부분으로 필기시험을 본다면 아마 그 시험에서 가장 계산량이 많은 파트일 것이다. 그런데 코딩을 하게 되면 말이 다르다. 가장 어려운 부분인 기울기 계산은 pytorch 기준으로는 backward() 함수 한 줄이면 끝나고, .. 2024. 11. 20.

[딥러닝] 생성형 AI (LLM) 에서 Loss는 어떻게 계산될까 LLM을 그래도 1년 남짓 공부하면서 종종 들었던 의문이 하나 있다. LLM(트랜스포머 아키텍처) 특정 단어 뒤에 어떤 단어가 오는지 확률로 계산한다. 대강 이런 식으로. 그래서 LLM은 가장 확률이 높은 단어를 반환하거나, top_k, top_p 샘플링과 temperature 같은 파라미터를 통해 더욱 다양한 답변을 내놓거나 그렇지 않도록 설정할 수 있다. 하지만 LLM을 훈련, 특히 QA 데이터셋 (질문 - 답변)으로 LLM을 훈련시키고 있는 상황을 생각해보자. 질문 : 나는 오늘 기분이 정말 별로였어. 내가 무엇을 하면 좋을지 추천해줘.답변 : 기분을 좋게 만드는 방법엔 음악 듣기, 게임하기, 운동하기 등이 있습니다. 위와 같은 형식으로 훈련을 시킨다고 치면, LLM은 가장 자연스러운 답변을 생성.. 2024. 6. 22.

[딥러닝] 활성화 함수 정리 (ReLU, softmax) 오늘은 딥러닝의 인공신경망에서 활용되는 활성화 함수 중 가장 많이 사용되는 ReLU와 Softmax 함수에 대해서 정리해보고자 한다.참고자료:https://wikidocs.net/24987 07-02 인공 신경망(Artificial Neural Network) 훑어보기인공 신경망에 대한 기본적인 내용들을 정리합니다. ## 1. 피드 포워드 신경망(Feed-Forward Neural Network, FFNN) ![](https://wikid…wikidocs.net ReLUReLU는 대표적인 활성화함수다. ReLU는 엄밀히 따지면 비선형함수긴 하지만 양수에 대해선 선형인 함수다. https://pytorch.org/docs/stable/generated/torch.nn.ReLU.html ReLU — PyTo.. 2024. 5. 5.

이전 1 2 다음

티스토리툴바