분류 전체보기78 [NLP] 트랜스포머 사용 시 숫자 텍스트 데이터 전처리에 대해 최근에 텍스트데이터를 임베딩 벡터로 변환하는 태스크를 하다가 문득 이런 궁금증이 들었다. '숫자는 어떤 토큰으로 변환되는거지?' 왜냐면 토크나이저의 Map 에는 제한된 개수의 단어들(물론 엄청 많은 수지만)이 정수에 매핑이 되어 있는 걸로 아는데, 1,2,3... 등 양의 정수를 넘어 4.5, -103, 등 숫자끼리 조합하면 정말 무수히 많은 새로운 숫자들이 계속 탄생하기 때문이다. 그래서 한 번 직접 일부 모델의 토크나이저를 사용하여 숫자가 어떻게 처리되는지를 알아보고, 결론을 정리해보고자 한다. Integer, Float 토크나이징 해보기 우선 간단하게 정수와 소수가들이 어떻게 토크나이징되고 매핑되는지 체크해봤다. 모델은 가장 보편적인 Bert의 uncased 버전을 사용했다. tokenizer = .. 2024. 4. 18. 2024 전반기 삼성 sw 역량테스트 후기 (2024/04/14) 여름방학 인턴으로 삼성 DX의 Research 분야 중 LLM,NLP 분야에 지원을 했는데 4월 5일에 서류 합격 문자를 받았다. 우선 서류 합격한 건 기쁘긴 한데, 역시나 제일 높은 벽은 코딩테스트다. 시험은 4/14였는데, 네이버 코딩테스트를 떨어졌다는 소식을 4/8에 접했어서 이번 시험은 더욱 열심히 공부해야겠다는 의지를 불태워봤다. 하지만 내 알고리즘 실력이 뛰어나지 않기 때문에... (백준 티어 골드4, 무난하게 푸는 수준은 실버 중위, 시간 들여서 푸는 수준은 실버 상위 ~ 골드 하위) 준비하는 데에 정말 막막했다. 우선은 기초적인 부분을 강화하는게 우선이겠다 싶어서 코드트리에서 연습을 했다. https://www.codetree.ai/missions 코드트리 | 코딩테스트 준비를 위한 알고리.. 2024. 4. 13. LLM - ChatGPT로 학습 데이터를 생성하는 방법 - 텍스트 데이터, 프롬프트 엔지니어링 요즘은 그야말로 데이터 전쟁이다. 빅테크 기업들의 AI 전문가들을 포함해 많은 사람들이 좋은 AI를 만드려면 양질의 좋은 데이터가 많이 필요함을 끊임없이 언급 중이다. 최근에 캐글 대회를 보면 LLM을 이용해 데이터를 자체적으로 생산하여 학습 데이터 수를 늘리는 방식으로 고득점을 노리는 시도들이 많다. 특히 내가 최근에 참여한 텍스트 데이터 분류 대회에서 그랬다. https://www.kaggle.com/datasets/thedrcat/daigt-v2-train-dataset DAIGT V2 Train Dataset A dataset you can actually train on for the LLM Detect AI Generated Text comp. www.kaggle.com 위 데이터셋은 공식 데.. 2024. 3. 27. 2024 네이버 공채 Tech 코딩테스트 후기 오늘 아침에 네이버의 Tech 분야 코딩테스트가 있었다. 사실 취업할 때 제일 자신없는 부분이 이 코딩테스트 쪽이다. 한 번 뚫은 적이 있긴 하지만 떨어진 적이 압도적으로 많기 때문이다. 그런데 올해 네이버의 코딩테스트 문제들은 다소 쉬웠던 것 같다. 내가 세 문제를 모두 풀었기 때문이다. 원래 쉬웠는지는 알 수 없는데 후기를 좀 찾아보니 올해가 유독 쉽다고 하는 분들이 많았다. 그래서 규정을 어기지 않는 선에서 올해 네이버의 코딩테스트는 어떠한 문제가 나왔는지 말해보고자 한다. 전체적인 흐름 전체적으로 어떻게 풀어야하지? 하는 아리송한 문제들이 많았다. BFS,DFS 같은 그래프 탐색, 이진 탐색, DP 등 명확한 풀이법이 떠오르지 않는 문제들만 나왔다. 그래서 완전 탐색, 즉 브루트포스를 써서 다 해.. 2024. 3. 23. [NLP Study] - LSTM 이번 포스팅에선 LSTM에 대해 공부해보면서 어떻게 RNN보다 좋은 모델로 평가받을 수 있었는지에 대해 살펴보고자 한다. 참고자료 https://wikidocs.net/22888 08-02 장단기 메모리(Long Short-Term Memory, LSTM) 바닐라 아이스크림이 가장 기본적인 맛을 가진 아이스크림인 것처럼, 앞서 배운 RNN을 가장 단순한 형태의 RNN이라고 하여 바닐라 RNN(Vanilla RNN)이라고 합니다. (… wikidocs.net https://deeplearning.cs.cmu.edu/F23/document/readings/LSTM.pdf LSTM 논문 Vanilla RNN의 문제 순환형 신경망 중 가장 기초적인 신경망을 Vanilla RNN (바닐라 RNN) 이라고 한다. .. 2024. 3. 22. 구글 2024 SWE Intern 면접 후기 원래 면접 후기는 잘 안쓰는데 이런 식의 코딩 면접은 처음이라 후기를 써놓고자 한다. https://www.google.com/about/careers/applications/jobs/results/88174919918985926-software-engineering-intern/ Software Engineering Intern, Summer 2024 — Google Careers Equal Opportunity Google is proud to be an equal opportunity and affirmative action employer. We are committed to building a workforce that is representative of the users we serve, c.. 2024. 3. 8. 이전 1 2 3 4 5 6 7 ··· 13 다음