본문 바로가기

NLP11

[NLP] 트랜스포머 사용 시 숫자 텍스트 데이터 전처리에 대해 최근에 텍스트데이터를 임베딩 벡터로 변환하는 태스크를 하다가 문득 이런 궁금증이 들었다. '숫자는 어떤 토큰으로 변환되는거지?' 왜냐면 토크나이저의 Map 에는 제한된 개수의 단어들(물론 엄청 많은 수지만)이 정수에 매핑이 되어 있는 걸로 아는데, 1,2,3... 등 양의 정수를 넘어 4.5, -103, 등 숫자끼리 조합하면 정말 무수히 많은 새로운 숫자들이 계속 탄생하기 때문이다. 그래서 한 번 직접 일부 모델의 토크나이저를 사용하여 숫자가 어떻게 처리되는지를 알아보고, 결론을 정리해보고자 한다. Integer, Float 토크나이징 해보기 우선 간단하게 정수와 소수가들이 어떻게 토크나이징되고 매핑되는지 체크해봤다. 모델은 가장 보편적인 Bert의 uncased 버전을 사용했다. tokenizer = .. 2024. 4. 18.
[NLP Study] - LSTM 이번 포스팅에선 LSTM에 대해 공부해보면서 어떻게 RNN보다 좋은 모델로 평가받을 수 있었는지에 대해 살펴보고자 한다. 참고자료 https://wikidocs.net/22888 08-02 장단기 메모리(Long Short-Term Memory, LSTM) 바닐라 아이스크림이 가장 기본적인 맛을 가진 아이스크림인 것처럼, 앞서 배운 RNN을 가장 단순한 형태의 RNN이라고 하여 바닐라 RNN(Vanilla RNN)이라고 합니다. (… wikidocs.net https://deeplearning.cs.cmu.edu/F23/document/readings/LSTM.pdf LSTM 논문 Vanilla RNN의 문제 순환형 신경망 중 가장 기초적인 신경망을 Vanilla RNN (바닐라 RNN) 이라고 한다. .. 2024. 3. 22.
[NLP Study] - RNN 트랜스포머가 무엇이 대단한지를 이해하려면, Seq2Seq부터 이해해야 하고, 결국엔 그 전의 자연어 처리가 어떠한 식으로 이루어졌는지를 완전히 이해해야 할 것 같다. 그래서 한 달 동안 RNN부터 쭉 공부를 해보고자 한다. 나중에는 관련 논문들을 읽어보고 코드로 구현할 수 있을 수준까지 실력을 올리고 싶기 때문에 논문 베이스 + 관련 자료 공부하고 정리하는 형식으로 포스팅이 이어질 것 같다. 참고자료 https://www.youtube.com/watch?v=Hn3GHHOXKCE&ab_channel=%EB%A9%94%ED%83%80%EC%BD%94%EB%93%9CM 이번에 RNN을 공부하면서 참고한 영상이다. https://arxiv.org/abs/1808.03314 Fundamentals of Recur.. 2024. 2. 6.
[NLP] BPETokenizer 이해하기 최근에 캐글에서 열린 LLM 대회의 최적 솔루션은 아주 인상적이었다. https://www.kaggle.com/code/datafan07/train-your-own-tokenizer Train your own Tokenizer Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com 대회 목적 자체는 문장을 보고 기계가 만든 것인지 인간이 만든 것인지 구분하는 것이었다. 일반적인 솔루션은 BERT 류의 모델을 학습시켜서 분류시키는 것이겠으나, 여기에서 제시된 솔루션은 그런 방식이 아니다. 토크나이저를 로드해오는 게 아니고 데이터셋에 맞게 직접 만들어서, TF.. 2024. 2. 3.
[NLP Study] - Attention Mechanism이 특별한 이유 사실상 세상을 바꾼 아키텍쳐라고 봐도 무방한 트랜스포머의 어텐션 매커니즘에 대해서 정리해보고자 한다. 참고자료 https://wikidocs.net/22893 15-01 어텐션 메커니즘 (Attention Mechanism) 앞서 배운 seq2seq 모델은 **인코더**에서 입력 시퀀스를 컨텍스트 벡터라는 하나의 고정된 크기의 벡터 표현으로 압축하고, **디코더**는 이 컨텍스트 벡터를 통해서 출력 … wikidocs.net 당연히 트랜스포머를 처음 제시한 구글 연구원들의 "Attention is All You Need" 도 참고했다. https://arxiv.org/abs/1706.03762 Attention Is All You Need The dominant sequence transduction m.. 2023. 12. 10.