본문 바로가기

NLP15

[NLP] Transformer의 Attnetion 간단한 정리 https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a newarxiv.org논문의 부록을 내리다 보면 다음처럼 Attention이 무엇인지, 특히 Self-Attention이 무엇인지와 어떻게 작동하는지를 설명해.. 2024. 6. 11.
[NLP] 트랜스포머 구조 파악하기 (Attention is All You Need) 드디어 오랜 시간 공부해온 트랜스포머에 대해서 정리할 수 있을 정도로 개념이 쌓인 것 같다. 그래서 순차적으로 쭉 자세히 정리해보려고 하는데, 인트로 느낌으로 논문 리뷰를 하면 좋을 것 같다. https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mech.. 2024. 6. 11.
[NLP] Transformer의 Input은 어떻게 Embedding Vector로 변환되나? https://tiabet0929.tistory.com/68 [NLP] 트랜스포머 구조 파악하기 (Attention is All You Need)드디어 오랜 시간 공부해온 트랜스포머에 대해서 정리할 수 있을 정도로 개념이 쌓인 것 같다. 그래서 순차적으로 쭉 자세히 정리해보려고 하는데, 인트로 느낌으로 논문 리뷰를 하면 좋을 것tiabet0929.tistory.com 이번 포스팅에선 트랜스포머의 임베딩에 대해 자세히 살펴보고자 한다.  트랜스포머엔 가장 처음 Input을 Embedding으로 변환시켜주는 과정이 필수적이다. (다른 Seq2Seq 모델들도 마찬가지) Embedding(임베딩) 이란 일련의 단어, 즉 문장의 의미와 관계 포착하는 숫자로 변환하는 방법이다.  이미지, 문서, 소리 등 많은 비정.. 2024. 6. 6.
[NLP] Transformer의 Positional Encoding 정리 이번 포스팅에선 Positional Encoding과 Embedding에 대해 정리해보고자 한다. 더보기https://tiabet0929.tistory.com/68 [NLP] 트랜스포머 구조 파악하기 (Attention is All You Need)드디어 오랜 시간 공부해온 트랜스포머에 대해서 정리할 수 있을 정도로 개념이 쌓인 것 같다. 그래서 순차적으로 쭉 자세히 정리해보려고 하는데, 인트로 느낌으로 논문 리뷰를 하면 좋을 것tiabet0929.tistory.comhttps://tiabet0929.tistory.com/67 [NLP] Transformer의 Input은 어떻게 Embedding Vector로 변환되나?https://tiabet0929.tistory.com/68 [NLP] 트랜스포머 구.. 2024. 6. 6.
[NLP] 트랜스포머 사용 시 숫자 텍스트 데이터 전처리에 대해 최근에 텍스트데이터를 임베딩 벡터로 변환하는 태스크를 하다가 문득 이런 궁금증이 들었다. '숫자는 어떤 토큰으로 변환되는거지?' 왜냐면 토크나이저의 Map 에는 제한된 개수의 단어들(물론 엄청 많은 수지만)이 정수에 매핑이 되어 있는 걸로 아는데, 1,2,3... 등 양의 정수를 넘어 4.5, -103, 등 숫자끼리 조합하면 정말 무수히 많은 새로운 숫자들이 계속 탄생하기 때문이다. 그래서 한 번 직접 일부 모델의 토크나이저를 사용하여 숫자가 어떻게 처리되는지를 알아보고, 결론을 정리해보고자 한다. Integer, Float 토크나이징 해보기 우선 간단하게 정수와 소수가들이 어떻게 토크나이징되고 매핑되는지 체크해봤다. 모델은 가장 보편적인 Bert의 uncased 버전을 사용했다. tokenizer = .. 2024. 4. 18.
[NLP Study] - LSTM 이번 포스팅에선 LSTM에 대해 공부해보면서 어떻게 RNN보다 좋은 모델로 평가받을 수 있었는지에 대해 살펴보고자 한다. 참고자료 https://wikidocs.net/22888 08-02 장단기 메모리(Long Short-Term Memory, LSTM) 바닐라 아이스크림이 가장 기본적인 맛을 가진 아이스크림인 것처럼, 앞서 배운 RNN을 가장 단순한 형태의 RNN이라고 하여 바닐라 RNN(Vanilla RNN)이라고 합니다. (… wikidocs.net https://deeplearning.cs.cmu.edu/F23/document/readings/LSTM.pdf LSTM 논문 Vanilla RNN의 문제 순환형 신경망 중 가장 기초적인 신경망을 Vanilla RNN (바닐라 RNN) 이라고 한다. .. 2024. 3. 22.