본문 바로가기

전체 글97

[LLM] OpenAI 드디어 "Open" 모델 공개. GPT-OSS 분석 OpenAI가 드디어 오픈소스 모델을 공개하였다. GPT-OSS라는 이름을 달고 나왔다.https://openai.com/index/introducing-gpt-oss/ ChatGPT에 사용되는 모델들처럼 상용화된 모델은 아니라서, 추측컨대 수익화를 노려보다가 기존 모델(o3, o4 등)들보다 성능이 안 나와서 오픈소스로 공개한 것이 아닌가 싶다.공개된 모델은 총 2개로, GPT-OSS를 기본으로 20B, 120B의 상당히 큰 파라미터를 가지고 공개되었다. 비록 ChatGPT 모델들은 아니지만, 세계 최고의 AI를 만드는 OpenAI가 공개한 모델이니만큼 어떤 구조를 갖고 있는지 분석해보고자 한다.MoE와 CoT(Reasoning)이번에 공개된 GPT-OSS의 핵심은 2가지다.하나는 이 모델들이 모두 M.. 2025. 8. 7.

[LLM] 새로 출시된 ChatGPT의 공부 도우미 모드, 간단 후기 연구실 생활로 바쁘다보니 블로그에 글도 많이 못 쓰고 있었다.마침 얼마 전 첫 논문을 제출했는데, 오늘 아침에 ChatGPT에 Study 모드가 나왔다는 기사를 읽었다.그래서 짧은 사용 후기 및 대략적인 가이드를 남겨보려고 한다.더보기블로그를 처음 작성하기 시작했을 땐 공부한 걸 정리하자는 목적이 강했다. 그런데 어느 시점(아마 채용 후기를 올렸을 때 즈음)부터 조회수가 신경쓰이기 시작했고, 그러다 보니 방문 수가 많았던 ChatGPT 관련이라던가, 대기업 면접 후기 등에 집중하게 되었다.. 중간중간 공부하고 정리한 글들을 올렸는데 조회수가 10~100배는 차이가 나기 때문에, 나로써도 초심을 잃을 수밖에 없게 되는 것 같다. 그래도 종종 읽은 논문 같은 건 정리해보려고 한다.기존 공부 앱들최근엔 LLM.. 2025. 7. 31.

[LLM] OpenAI 코딩 에이전트, ChatGPT Codex 기능 출시, 짧게 써보고 느낀 후기 바빴어서 글을 굉장히 오랜만에 쓴다. OpenAI가 코딩 에이전트 Codex를 깃허브를 통해 공개했고, 6월 4일 (현지시간 6월 3일) ChatGPT Plus에 이 기능을 공개했다. https://github.com/openai/codex GitHub - openai/codex: Lightweight coding agent that runs in your terminalLightweight coding agent that runs in your terminal - openai/codexgithub.comhttps://openai.com/index/introducing-codex/ 나는 로컬로 써보기까진 귀찮아서 안 쓰고 있다가 ChatGPT Plus에 공개되어서 한 번 사용해봤다. CodexCodex는.. 2025. 6. 5.

[딥러닝] 딥러닝과 역전파의 핵심, Optimzier AdamW 위주로 정리 딥러닝 모델을 만들 때 이론적으로 가장 중요한 게 뭘까? 나는 단연코 역전파라고 생각한다. 물론 지금 우리는 pytorch나 tensorflow 같은 잘 만들어진 프레임워크에서 간단한 함수 몇 줄로 이 역전파 및 훈련이 가능하기 때문에, 실제 활용할 때는 그 중요성이 잘 느껴지지 않는다.https://tiabet0929.tistory.com/79 [딥러닝] 역전파를 단 한 줄로 가능하게 해주는 backward() 함수 탐구많은 사람들이 딥러닝 이론을 공부할 때 가장 열심히 공부하는 부분이 역전파 부분일 것이다.그 이유는 단순한데, 역전파가 있어야 딥러닝이고 또 그 과정이 만만치 않게 복잡하기 때문이다.httptiabet0929.tistory.com이전에 backward() 함수에 대해 탐구해보면서 언젠가.. 2025. 4. 29.

[LLM] 네이버 생성형AI 하이퍼클로바X 전격 오픈소스 공개. 사용 후기 네이버 하이퍼클로바X SEED 무료 오픈소스 공개 CLOVA하이퍼스케일 AI로 플랫폼 경쟁력을 강화하고 비즈니스 시너지를 확장합니다.clova.ai▲네이버 하이퍼클로바X 오픈소스화 공지 https://huggingface.co/naver-hyperclovax naver-hyperclovax (HyperCLOVA X)NAVER's generative AI, HyperCLOVA X, demonstrates exceptional Korean language understanding within the broader societal context. Its scalability and connectivity to the wider AI ecosystem enable the creation of novel user.. 2025. 4. 25.

[LLM] ChatGPT는 이제 모든 대화를 기억할 수 있다. 메모리 최신업데이트에 대한 탐구 (+Context Length, RAG) ChatGPT를 사용하다가 메모리가 업데이트된다는 알림을 다들 받아봤을 것이다.업데이트된 메모리를 설정칸에서 확인해보면 아래와 같이 뜬다. 이렇게 ChatGPT를 사용하다 보면 사용자에 대한 정보를 GPT가 Memory 라는 기억저장소에 기억하게 된다. 이 방식의 원리와 목적은 너무나도 당연해보인다. 목적 ▶ 사용자의 ChatGPT 사용 경험성을 높이기 위해. 기본적인 정보를 사용자가 계속 제공할 필요가 없음.원리 ▶ 매 입력, 혹은 새로운 채팅마다 '메모리'에 저장된 정보를 프롬프트로 GPT에게 계속 입력 내 추측으론 ChatGPT, 그리고 다른 LLM들의 놀라울 정도로 길어진 Context Length가 이 방식을 가능하게 했다. (ChatGPT 초창기엔 이런 메모리 기억 기능이 없었다.) 그런데 내.. 2025. 4. 14.

이전 1 2 3 4 ··· 17 다음

티스토리툴바