[LLM] OpenAI 코딩 에이전트, ChatGPT Codex 기능 출시, 짧게 써보고 느낀 후기

바빴어서 글을 굉장히 오랜만에 쓴다.

OpenAI가 코딩 에이전트 Codex를 깃허브를 통해 공개했고, 6월 4일 (현지시간 6월 3일) ChatGPT Plus에 이 기능을 공개했다.

https://github.com/openai/codex

GitHub - openai/codex: Lightweight coding agent that runs in your terminal

Lightweight coding agent that runs in your terminal - openai/codex

github.com

https://openai.com/index/introducing-codex/

나는 로컬로 써보기까진 귀찮아서 안 쓰고 있다가 ChatGPT Plus에 공개되어서 한 번 사용해봤다.

Codex

Codex는 openai의 설명에 따르면 Software Engineering Agent 이다. Software Engineering은 굉장히 추상적인 개념인데, 사실 Software와 관련된 모든 일을 다 아우르는 말이라 취준할 때도 이런 쪽으로 취준하면 무슨 일을 할 지 예측이 안 된다. 아무튼 두루두루 잘 할 수 있다고 예측이 되고, 지금 핫한 MCP 기반 코딩 에이전트들(Claude Code 등)을 써본 경험은 없지만(유료여서), 기존에 관심이 많았기 때문에 이번 기회에 한 번 사용해봤다.

Codex 기능 소개

우선 Codex를 시작하면 깃허브를 연결하게끔 된다. 깃허브에 로그인하고 연결하면, 레포지토리 하나를 선택하게 되고 환경 설정이라는 창으로 넘어간다.

이런 식으로 레포지토리 하나 선택 후 브랜치까지 설정하면

언어 버전 설정 및 인터넷 접속 허용할지와 환경 변수들을 사전에 설정하는 곳도 있다. 컨테이너로 돌아가는 것은 Codex가 자체 클라우드에서 코드를 실행하기 때문에 설정해줘야 하는 것으로 보인다.

이렇게 필요한 부분들을 설정하면 메인 화면으로 넘어가서, 우리가 아는 ChatGPT처럼 대화할 수 있는 창이 나온다.

메인 화면의 기능은 두 가지다. 하나는 질문하기, 하나는 코딩이다.

질문하기는 이 레포지토리에 있는 코드들에 대해 질문이 있을 때 사용하는 기능이다. 코딩은 이 레포지토리에 코드를 추가하거나 존재하는 코드를 수정할 때 사용하는 기능이다. 아마 에이전트 사용에 있어서 이 두 가지를 한 번에 수행할 수 없기에 라우터를 하나 달아놓은 것으로 보인다.

그리고 밑에는 이런 식으로 실행했던 작업들과 (ChatGPT의 대화창 같은 느낌) 작업이 많이 쌓였거나 중요한 작업을 했을 경우 잊는 경우가 있을 수 있어 아카이브 기능까지 구현해놨다.

기존에 이미 존재하는 레포나, 내가 만들어놓은 레포를 분석하려면 크게 두 가지 방법이 있었다. 레포 주소를 통채로 복사하여 ChatGPT안에 넣고 "이 안에서 ~~~~하고 싶은데 기능 찾아줘."라고 물어보는 방법은 가끔씩 성공할 때도 있지만 원하는 대로 결과가 나오지 않을 때가 많다. 두 번째는 직접 원하는 파일까진 수동으로 찾고, 전체 복붙해서 GPT에 넣고 질문하는 것이었다. 이 방법은 정확도와 만족도는 높지만 수동이라서 다소 귀찮고 오래 걸린다는 단점이 있었다.

하지만 Codex는 아예 Github Repository와 결합되어 있어서 모든 파일에 계속해서 접근할 수 있으며, o3, o4의 추론 기능을 활용해 작업하므로 훨씬 좋은 결과물을 기대할 수 있다.

이렇게 원하는 작업을 시키고 완료되고 나면, Github 레포에 pull request를 보내고 merge할 수 있는 기능까지 제공해준다. commit message도 알아서 작성해줘서, 사용자는 작업이 끝나면 한 번 검토하고 클릭 몇 번만 하면 된다.

그럼 내가 이제 Codex를 써보고 느낀 후기를 작성해보겠다.

Codex 후기를 가장한 단점 나열

많이 써본 건 아니고 오늘 하루 정도 써봤는데, 좋고 신기한 점도 많지만 다소 부족한 점이 느껴졌다.

1. 코딩 성능의 부족함

왜인지 모르겠는데, ChatGPT 창 내에서 코딩을 시켰을 때의 결과보다 Codex 내에서 시켰을 때의 결과가 다소 좋지 않다. 즉, Codex의 코딩 실력이 다소 떨어지고, 내가 생각하는 결과물을 바로 생성하지 못한다.

OpenAI 측은 공식 Documents에서 Codex에게 신중한 프롬프트 엔지니어링을 수행해줄 것을 당부하고 있으며, 상기한 공식 소개글에서도 아직 한계점들이 있다고 말하고 있다. Codex에는 o3와 o4-mini-high 모델을 결합시켜놓았다고 했는데 어째서 성능 차이가 발생하는지는 의문이다. 내부 프롬프트 엔지니어링 때문일지도?

2. WindSurf, Cursor 등 기타 MCP 대비 불편한 점

깃헙과 직접 연결해서 바로바로 Pull도 할 수 있는 건 장점이면서 단점인 지점같다. 최근 아주 핫한 개발 툴 Windsurf나 Cursor 등 MCP 기반 Tool 들을 보면 우리가 기존에 개발하던 VSCode나 Pycharm 같은 IDE 에 기능이 추가된 느낌인데, Codex는 완전히 새로운 IDE를 사용하는 기분이다. 왜냐하면 사용자가 직접 코딩을 할 수 있는 기능이 없다! 상기한 툴들은 이용하다가 굳이 AI한테 시킬 필요 없는 간단한 파일이나 함수 이름 변경, 위치 이동 등은 직접 하고 간단한 코딩도 직접 할 수 있는데, Codex는 코딩 에이전트가 아니라 '코딩 지원 에이전트' 같은 느낌이라 그런 거 같다. 물론 이는 클론이나 다운받아서 Local에서 돌리면 해결되는 문제긴 한다. 다만 이 기능은 API Call이기 때문에 유료다. 가격은 아래 참고.

입력 토큰: $1.50 / 100만 토큰
출력 토큰: $6.00 / 100만 토큰

3. Claude Code와 똑같은 기능, 그렇지만 확연히 떨어지는 성능?

사실 로컬에 다운받아서 돌린다고 쳐도, 이미 똑같은 기능을 제공하고 있는 Anthropic의 Cluade Code라는 게 존재한다.

https://support.anthropic.com/en/articles/11145838-using-claude-code-with-your-pro-or-max-plan#h_091d4329f6

Using Claude Code with your Pro or Max Plan | Anthropic Help Center

support.anthropic.com

이 Claude Code는 마찬가지로 Local, 즉 터미널에서 돌릴 수 있기 때문에 VSCode같은 기존 IDE 와의 연계가 가능하다. 문제는 비용인데, Claude Code는 구독형 요금제를 사용하고 있는 유저에게 로컬에서 실행해도 API call 요금을 걷지 않는다. 다만 사용량에 제한이 있을 뿐. 근데 Codex는 ChatGPT 구독 여부와는 별개로 API call 요금을 받는다. 이 차이가 매우매우 크다. 또한 성능에 대해서도 물음표가 붙는다.

https://www.reddit.com/r/ClaudeAI/comments/1kp221z/claude_code_vs_openai_codex_the_browser_based/

From the ClaudeAI community on Reddit

Explore this post and more from the ClaudeAI community

www.reddit.com

내가 주변 사용자들에게 물어보고 들은 답변이나, 위처럼 레딧에 올라오는 글들을 보면 대부분이 Claude Code가 Codex보다 훨씬 좋다고 평가하고 있다. 그나마 긍정적으로 평가하는 사람들도 최소한 현재는 Claude가 OpenAI보다 이 분야 (MCP, 크게 보면 바이브 코딩) 에선 앞서고 있다고 말한다. 더 비싼 요금, 똑같은 기능, 그런데 떨어지는 성능? Codex를 과연 사용할 이유가 있을까?

결론

Codex는 ChatGPT Plus 사용자들에겐 웹 버전에서 작업을 한다 치면 오류 수정이나 복잡한 코딩을 할 때 기존처럼 파일을 직접 업로드해야하는 불편함을 덜어주고 클라우드에서 직접 실행하면서 여러 파일에 걸친 오류를 고쳐줄 수 있다는 점에서는 장점을 가진다. 어차피 구독자들에겐 웹 버전에선 무료니까 돈도 더 안 들고. 하지만 이마저도 불편한 점이 있어서 Local에서 돌리자면 Claude Code라는 완벽한 대체제가 존재한다. 즉 Claude Code의 하위버전이 Codex CLI(Local용 Codex)다. 따라서 아직까진 효용성을 느끼지 못하겠다. 다만 지속적인 업데이트가 이루어질 것이라고 하니 지켜볼 필요는 있다고 보인다.

'LLM' 카테고리의 다른 글

[LLM] OpenAI 드디어 "Open" 모델 공개. GPT-OSS 분석 (2)	2025.08.07
[LLM] 새로 출시된 ChatGPT의 공부 도우미 모드, 간단 후기 (8)	2025.07.31
[LLM] 네이버 생성형AI 하이퍼클로바X 전격 오픈소스 공개. 사용 후기 (2)	2025.04.25
[LLM] ChatGPT는 이제 모든 대화를 기억할 수 있다. 메모리 최신업데이트에 대한 탐구 (+Context Length, RAG) (0)	2025.04.14
[LLM] ChatGPT 4o 이미지 생성 모델, 어떻게 만들었는지 원리 탐구 (4)	2025.03.28

Tiabet 공부일지