전체 글94 [딥러닝] 딥러닝과 역전파의 핵심, Optimzier AdamW 위주로 정리 딥러닝 모델을 만들 때 이론적으로 가장 중요한 게 뭘까? 나는 단연코 역전파라고 생각한다. 물론 지금 우리는 pytorch나 tensorflow 같은 잘 만들어진 프레임워크에서 간단한 함수 몇 줄로 이 역전파 및 훈련이 가능하기 때문에, 실제 활용할 때는 그 중요성이 잘 느껴지지 않는다.https://tiabet0929.tistory.com/79 [딥러닝] 역전파를 단 한 줄로 가능하게 해주는 backward() 함수 탐구많은 사람들이 딥러닝 이론을 공부할 때 가장 열심히 공부하는 부분이 역전파 부분일 것이다.그 이유는 단순한데, 역전파가 있어야 딥러닝이고 또 그 과정이 만만치 않게 복잡하기 때문이다.httptiabet0929.tistory.com이전에 backward() 함수에 대해 탐구해보면서 언젠가.. 2025. 4. 29. [LLM] 네이버 생성형AI 하이퍼클로바X 전격 오픈소스 공개. 사용 후기 네이버 하이퍼클로바X SEED 무료 오픈소스 공개 CLOVA하이퍼스케일 AI로 플랫폼 경쟁력을 강화하고 비즈니스 시너지를 확장합니다.clova.ai▲네이버 하이퍼클로바X 오픈소스화 공지 https://huggingface.co/naver-hyperclovax naver-hyperclovax (HyperCLOVA X)NAVER's generative AI, HyperCLOVA X, demonstrates exceptional Korean language understanding within the broader societal context. Its scalability and connectivity to the wider AI ecosystem enable the creation of novel user.. 2025. 4. 25. [LLM] ChatGPT는 이제 모든 대화를 기억할 수 있다. 메모리 최신업데이트에 대한 탐구 (+Context Length, RAG) ChatGPT를 사용하다가 메모리가 업데이트된다는 알림을 다들 받아봤을 것이다.업데이트된 메모리를 설정칸에서 확인해보면 아래와 같이 뜬다. 이렇게 ChatGPT를 사용하다 보면 사용자에 대한 정보를 GPT가 Memory 라는 기억저장소에 기억하게 된다. 이 방식의 원리와 목적은 너무나도 당연해보인다. 목적 ▶ 사용자의 ChatGPT 사용 경험성을 높이기 위해. 기본적인 정보를 사용자가 계속 제공할 필요가 없음.원리 ▶ 매 입력, 혹은 새로운 채팅마다 '메모리'에 저장된 정보를 프롬프트로 GPT에게 계속 입력 내 추측으론 ChatGPT, 그리고 다른 LLM들의 놀라울 정도로 길어진 Context Length가 이 방식을 가능하게 했다. (ChatGPT 초창기엔 이런 메모리 기억 기능이 없었다.) 그런데 내.. 2025. 4. 14. [LLM] ChatGPT 4o 이미지 생성 모델, 어떻게 만들었는지 원리 탐구 한국시간으로 3월 26일, OpenAI는 새로운 이미지 생성 모델을 ChatGPT 4o를 통해 공개했다. 무료 버전에선 하루 3회, 유료 버전은 무제한으로 사용가능하다고 하는데, 무료 버전을 사용하는 일부 사람들은 정상작동하지 않는다는 말도 있다. https://openai.com/index/introducing-4o-image-generation/ 이 모델은 OpenAI의 기존 이미지 생성 모델인 DALL-E를 포함하여 세상의 이미지 생성 모델들이 불가능했던 것들, 예를 들면 이미지에 글자 넣기나 동일한 캐릭터 연속 생성, 사진의 객체는 그대로 유지하고 스타일만 바꾸는 등 정말 놀라운 성능을 보여줬다. 아래와 같은 놀라운 작업이 프롬프트 한 줄로 가능한 시대가 온 것이다. 특히 커뮤니티에서는 위에.. 2025. 3. 28. [LLM] LG의 LLM EXAONE Deep 사용 후기 및 딥시크 R1, OpenAI o1 과의 비교 오늘(3/18) 아침 LG의 야심작 EXAONE 모델의 새로운 버전이 오픈소스로 공개됐다. https://huggingface.co/LGAI-EXAONE LGAI-EXAONE (LG AI Research)LG AI EXAONE Welcome to the official HuggingFace organization of EXAONE, which refers to the family of Large Language Models (LLMs) and Large Multimodal Models (LMMs) developed by LG AI Research. EXAONE stands for EXpert AI for EveryONE, a vision that LG ihuggingface.co보통 모델에 Deep이 들.. 2025. 3. 18. [딥러닝] 논문 리뷰 - Normalization 꼭 필요없다. Transformers without Normalization 3일 전 Normalization과 관련된 굉장히 재밌는 논문이 메타에서 나왔다. https://arxiv.org/abs/2503.10622 Transformers without NormalizationNormalization layers are ubiquitous in modern neural networks and have long been considered essential. This work demonstrates that Transformers without normalization can achieve the same or better performance using a remarkably simple technique. We introduarxiv.org 나는 일전에도 Batch Norm.. 2025. 3. 17. 이전 1 2 3 4 ··· 16 다음