본문 바로가기

Ai7

[LLM] OpenAI 드디어 "Open" 모델 공개. GPT-OSS 분석 OpenAI가 드디어 오픈소스 모델을 공개하였다. GPT-OSS라는 이름을 달고 나왔다.https://openai.com/index/introducing-gpt-oss/ ChatGPT에 사용되는 모델들처럼 상용화된 모델은 아니라서, 추측컨대 수익화를 노려보다가 기존 모델(o3, o4 등)들보다 성능이 안 나와서 오픈소스로 공개한 것이 아닌가 싶다.공개된 모델은 총 2개로, GPT-OSS를 기본으로 20B, 120B의 상당히 큰 파라미터를 가지고 공개되었다. 비록 ChatGPT 모델들은 아니지만, 세계 최고의 AI를 만드는 OpenAI가 공개한 모델이니만큼 어떤 구조를 갖고 있는지 분석해보고자 한다.MoE와 CoT(Reasoning)이번에 공개된 GPT-OSS의 핵심은 2가지다.하나는 이 모델들이 모두 M.. 2025. 8. 7.
[딥러닝] 딥러닝과 역전파의 핵심, Optimzier AdamW 위주로 정리 딥러닝 모델을 만들 때 이론적으로 가장 중요한 게 뭘까? 나는 단연코 역전파라고 생각한다. 물론 지금 우리는 pytorch나 tensorflow 같은 잘 만들어진 프레임워크에서 간단한 함수 몇 줄로 이 역전파 및 훈련이 가능하기 때문에, 실제 활용할 때는 그 중요성이 잘 느껴지지 않는다.https://tiabet0929.tistory.com/79 [딥러닝] 역전파를 단 한 줄로 가능하게 해주는 backward() 함수 탐구많은 사람들이 딥러닝 이론을 공부할 때 가장 열심히 공부하는 부분이 역전파 부분일 것이다.그 이유는 단순한데, 역전파가 있어야 딥러닝이고 또 그 과정이 만만치 않게 복잡하기 때문이다.httptiabet0929.tistory.com이전에 backward() 함수에 대해 탐구해보면서 언젠가.. 2025. 4. 29.
[LLM] 네이버 생성형AI 하이퍼클로바X 전격 오픈소스 공개. 사용 후기 네이버 하이퍼클로바X SEED 무료 오픈소스 공개 CLOVA하이퍼스케일 AI로 플랫폼 경쟁력을 강화하고 비즈니스 시너지를 확장합니다.clova.ai▲네이버 하이퍼클로바X 오픈소스화 공지 https://huggingface.co/naver-hyperclovax naver-hyperclovax (HyperCLOVA X)NAVER's generative AI, HyperCLOVA X, demonstrates exceptional Korean language understanding within the broader societal context. Its scalability and connectivity to the wider AI ecosystem enable the creation of novel user.. 2025. 4. 25.
[NLP] Transformer Multi-Head Attention 파이썬으로 정리 https://tiabet0929.tistory.com/77 [NLP] Transformer의 Attention Head 파이썬으로 정리미루고 미루다 다시 한 번 Transformer 구조 정리를 시작하고자 한다. 이번 포스팅에선 Attention Head와 Scaled-dot Product Attention을 파이썬 코드와 함께 정리해보고자 한다. -이전 포스팅-https://tiabet0929.titiabet0929.tistory.com 이 글을 작성하고 어느덧 두 달이 지나고 해가 바뀌어버렸다. 내 게으름을 탓하며 정리를 마저 하려고 한다. 아마도 멀티 헤드 어텐션을 정리하는 이번 포스팅이 지나고 다음 포스팅에서 피드포워드와 최종 부분을 정리하면 길었던 Transformer 정리 글을 마무리하고, .. 2025. 1. 1.
[딥러닝] 역전파를 단 한 줄로 가능하게 해주는 backward() 함수 탐구 많은 사람들이 딥러닝 이론을 공부할 때 가장 열심히 공부하는 부분이 역전파 부분일 것이다.그 이유는 단순한데, 역전파가 있어야 딥러닝이고 또 그 과정이 만만치 않게 복잡하기 때문이다.https://www.youtube.com/watch?v=tIeHLnjs5U8&ab_channel=3Blue1Brown 내가 공부하면서 본 유튜브 채널 중 하나인데, 간단한 예제로 역전파 계산 방법에 대해서만 10분짜리 영상이 나올 정도로 그 계산이 쉽지 않다. 미분이 떡칠되어 있기 때문이다. 그래서 이 부분으로 필기시험을 본다면 아마 그 시험에서 가장 계산량이 많은 파트일 것이다. 그런데 코딩을 하게 되면 말이 다르다. 가장 어려운 부분인 기울기 계산은 pytorch 기준으로는 backward() 함수 한 줄이면 끝나고, .. 2024. 11. 20.
[NLP] Transformer의 Attention Head 파이썬으로 정리 미루고 미루다 다시 한 번 Transformer 구조 정리를 시작하고자 한다. 이번 포스팅에선 Attention Head와 Scaled-dot Product Attention을 파이썬 코드와 함께 정리해보고자 한다. -이전 포스팅-https://tiabet0929.tistory.com/66 [NLP] Transformer의 Positional Encoding 정리이번 포스팅에선 Positional Encoding과 Embedding에 대해 정리해보고자 한다. 더보기https://tiabet0929.tistory.com/68 [NLP] 트랜스포머 구조 파악하기 (Attention is All You Need)드디어 오랜 시간 공부해온 트랜스포tiabet0929.tistory.comhttps://tiabet.. 2024. 10. 30.