본문 바로가기

nlp2

[NLP] Transformer의 Attention Head 파이썬으로 정리 미루고 미루다 다시 한 번 Transformer 구조 정리를 시작하고자 한다. 이번 포스팅에선 Attention Head와 Scaled-dot Product Attention을 파이썬 코드와 함께 정리해보고자 한다. -이전 포스팅-https://tiabet0929.tistory.com/66 [NLP] Transformer의 Positional Encoding 정리이번 포스팅에선 Positional Encoding과 Embedding에 대해 정리해보고자 한다. 더보기https://tiabet0929.tistory.com/68 [NLP] 트랜스포머 구조 파악하기 (Attention is All You Need)드디어 오랜 시간 공부해온 트랜스포tiabet0929.tistory.comhttps://tiabet.. 2024. 10. 30.
[NLP] 트랜스포머 사용 시 숫자 텍스트 데이터 전처리에 대해 최근에 텍스트데이터를 임베딩 벡터로 변환하는 태스크를 하다가 문득 이런 궁금증이 들었다. '숫자는 어떤 토큰으로 변환되는거지?' 왜냐면 토크나이저의 Map 에는 제한된 개수의 단어들(물론 엄청 많은 수지만)이 정수에 매핑이 되어 있는 걸로 아는데, 1,2,3... 등 양의 정수를 넘어 4.5, -103, 등 숫자끼리 조합하면 정말 무수히 많은 새로운 숫자들이 계속 탄생하기 때문이다. 그래서 한 번 직접 일부 모델의 토크나이저를 사용하여 숫자가 어떻게 처리되는지를 알아보고, 결론을 정리해보고자 한다. Integer, Float 토크나이징 해보기 우선 간단하게 정수와 소수가들이 어떻게 토크나이징되고 매핑되는지 체크해봤다. 모델은 가장 보편적인 Bert의 uncased 버전을 사용했다. tokenizer = .. 2024. 4. 18.