Hermes 모델 Provider 선택 가이드
Provider 선택 기준
상시 운용은 구독/OAuth·월 플랜을 기본으로, API는 테스트·고난도 보조·fallback에 쓴다.
- 현재 active: OpenAI Codex. 기본 코딩 엔진 후보로 먼저 둔다.
- Z.AI/GLM, Kimi/Moonshot, OpenRouter는 필요할 때 붙이는 API 선택지다.
- Hermes/OpenClaw는 입력 토큰이 계속 쌓이므로 순수 API 종량제는 비용 상한을 먼저 정한다.
구독/OAuth·월 플랜은 상시 운용, API는 실험·고난도 보조·fallback으로 나누는 provider 선택 기준
Provider 선택 기준
상시 운용은 구독/OAuth·월 플랜을 기본값으로 둔다.
API 사용은 테스트·고난도 보조·fallback으로 역할을 제한한다. OpenRouter, Z.AI/GLM, Kimi/Moonshot 같은 API가 여기에 들어간다.
저가 API 예외는 실제 agent 사용량까지 같이 볼 때 의미가 있다. OpenRouter의 Tencent Hy3 preview처럼 100만 입력 토큰당 0.5달러 미만인 모델은 Hermes/OpenClaw용 실험·보조 엔진으로 특히 주목할 만하다.
이유는 단순하다. Hermes/OpenClaw는 파일, 로그, 도구 결과가 입력 토큰으로 계속 쌓인다. 그래서 순수 종량제 API는 가격, context, 사용량 랭킹을 함께 봐야 한다.
| 지금 상황 | 선택 | 이유 |
|---|---|---|
| 코딩 작업을 계속 맡길 기본 엔진 | OpenAI Codex, Nous Portal, OpenCode Go | 계속 켜둘 작업은 비용 예측이 먼저다. 월 구독·플랜형이 유리하다. |
| 여러 모델을 비교하거나 한 번씩 강하게 써야 함 | OpenRouter, Z.AI / GLM, Kimi Coding Plan & Moonshot API | API는 기본 엔진보다 실험·고난도 burst·fallback에 더 잘 맞는다. Hy3처럼 저가·대량 사용 사례가 보이는 모델은 별도 후보로 본다. |
| 민감 자료·로컬 실험 | LM Studio | 외부 전송을 줄여야 하는 자료는 로컬에서 먼저 처리하는 편이 안전하다. 비용도 통제하기 쉽다. |
| OAuth 구독 연결 | 편하지만 계정 정책 확인 후 사용 | 싸고 편해 보여도 장시간 자동화는 약관·계정 리스크가 먼저다. |
현재 선택 예시는 이렇게 읽으면 됩니다.
| Provider | 판단 |
|---|---|
| OpenAI Codex | 현재 active라면 기본 코딩 엔진 후보로 먼저 둔다. |
| Z.AI / GLM | Zhipu AI direct API. 가격·성능을 따져보는 실험용과 fallback 후보로 본다. |
| Kimi Coding Plan & Moonshot API | 긴 문서·코드베이스 읽기와 API 실험에 맞는 후보로 본다. |
| OpenCode Go | 월 구독형 open models 선택지로, 보조 에이전트 축에 넣기 좋다. |
OpenRouter 화면에서 tencent/hy3-preview는 262,144 context, 100만 입력 토큰당 약 $0.066, 100만 출력 토큰당 약 $0.26로 표시됩니다. 이 정도면 100만 입력 토큰당 0.5달러 미만의 저가 모델군입니다. 같은 화면의 월간 공개 앱 사용량에서도 Hermes Agent가 2.62B tokens, OpenClaw가 582M tokens로 상위에 보이므로, Hy3는 단순한 새 모델이 아니라 agent 사용층에서 실제로 테스트와 입소문을 타는 OpenRouter 후보로 볼 수 있습니다.
Provider가 실제로 결정하는 것
Hermes에서 provider를 바꾸는 실제 진입점은 모델 선택 화면입니다. ChatGPT 사용량이 부족하거나 코딩 작업에 다른 모델이 필요할 때 여기서 기본 엔진과 보조 엔진을 나눕니다.
PowerShell: docker run -it --rm -v "$($env:USERPROFILE)\.hermes-bot5:/opt/data" nousresearch/hermes-agent model
Hermes에서 provider는 모델이 실제로 어디서 실행되는가를 정하는 선택입니다. 같은 Hermes Agent라도 provider가 바뀌면 응답 품질만 바뀌는 것이 아니라 속도, 비용, 장애 양상, 인증 방식, 사용량 제한이 함께 바뀝니다.
예를 들어 같은 코드 리뷰 요청을 해도 OpenRouter를 쓰면 모델을 빠르게 바꿔 비교할 수 있고, LM Studio를 쓰면 네트워크 없이 로컬 모델로 처리할 수 있으며, Anthropic을 쓰면 긴 문맥과 복잡한 reasoning에 강한 Claude 계열을 쓸 수 있습니다. OpenAI Codex를 쓰면 코딩 에이전트 흐름에 맞춘 모델과 CLI 생태계의 이점을 기대할 수 있습니다.
그래서 모델 설정은 “한 번 정하고 끝”이 아닙니다. Hermes를 운영 도구로 쓰려면 작업 유형별 provider 선택 기준을 정해야 합니다.
- 긴 코드베이스 분석: Claude Sonnet/Opus 계열, GPT 계열 고성능 모델, OpenRouter의 상위 coding model
- 빠른 초안·요약: 저렴한 fast model, OpenRouter 라우팅, Gemini Flash 계열, DeepSeek flash/pro 계열
- 민감한 로컬 파일 실험: LM Studio, Ollama 계열 로컬 모델
- 장시간 자동화: 비용 상한과 rate limit이 예측 가능한 API provider
- 품질이 중요한 공개 콘텐츠: 고성능 모델 1차 작성 후 다른 모델로 검수
- 모델 장애 대비: OpenRouter, Hugging Face Inference Providers, fallback provider 구성
기본 provider 4가지
Nous Portal
Nous Portal은 Hermes Agent를 만든 Nous Research 생태계와 잘 맞는 선택지입니다. Hermes를 처음 쓰는 사람에게는 “설정이 덜 복잡한 구독형 입구”라는 장점이 큽니다. API 키를 여러 회사에서 따로 만들고, base URL을 바꾸고, model name을 외우는 과정을 줄일 수 있습니다.
좋은 용도는 Hermes 자체를 계속 켜 두고 쓰는 운영형 작업입니다. 예를 들어 Telegram에서 작업 지시를 보내고, 파일을 읽고, 서버 상태를 확인하고, 글을 작성하고, 반복 작업을 cron으로 돌리는 식입니다. Hermes의 장점은 모델 하나가 아니라 memory, skills, terminal, browser, cron, gateway가 합쳐진 운영 루프에 있기 때문에, Nous Portal은 그 루프를 빨리 시작하기 좋은 선택지입니다.
주의할 점도 있습니다. 구독형 portal은 제공 모델, 사용량 정책, rate limit이 바뀔 수 있습니다. 따라서 중요한 운영 작업에서는 “Nous Portal만 있으면 된다”가 아니라 “Nous Portal을 기본값으로 두되 OpenRouter나 API provider를 백업으로 둔다”가 안정적입니다. 특히 공개 사이트 운영, 자동 게시, 장시간 research처럼 중간에 멈추면 손실이 나는 작업은 fallback provider를 준비해 두는 편이 좋습니다.
OpenRouter
OpenRouter는 여러 모델을 하나의 OpenAI 호환 API처럼 호출할 수 있게 해 주는 라우터입니다. 공식 문서에서도 수백 개 모델 접근, fallback, 비용 효율적인 provider 선택을 강조합니다. Hermes 사용자에게 OpenRouter가 매력적인 이유는 단순합니다. 모델 비교가 쉽습니다.
다만 OpenRouter를 무조건 기본값으로 보는 것은 조심해야 합니다. Hermes나 OpenClaw는 일반 채팅보다 입력 토큰 누적이 큽니다. 파일 내용, 이전 작업 요약, tool 결과, 검증 로그가 계속 context에 들어가기 때문입니다. 그래서 API 종량제 연결은 오래 켜 두는 상시 운영보다 어떤 모델이 맞는지 체험하는 용도, 어려운 작업에 잠깐 투입하는 용도, 다른 provider가 막혔을 때 fallback으로 이해하면 비용을 훨씬 쉽게 관리할 수 있습니다.
예를 들어 같은 프롬프트를 Claude 계열, GPT 계열, Gemini 계열, DeepSeek, Qwen, Llama, Mistral 계열로 바꿔 볼 수 있습니다. AI 콘텐츠 운영에서는 초안 모델과 검수 모델을 다르게 쓰는 전략이 가능합니다. 코딩에서는 빠른 모델로 1차 탐색을 하고, 고성능 모델로 실제 patch 계획을 세우는 식으로 비용을 줄일 수 있습니다.
OpenRouter를 쓸 때 봐야 할 기준은 네 가지입니다.
| 기준 | 의미 | 운영 팁 |
|---|---|---|
| context length | 한 번에 넣을 수 있는 코드·문서 양 | 긴 repo 분석은 큰 context 모델 선택 |
| tool calling | 함수 호출·에이전트 루프 안정성 | Hermes 도구 사용이 많은 작업에서는 필수 확인 |
| latency | 응답 시작과 완료 속도 | 짧은 반복 작업은 빠른 모델 우선 |
| price | 입력·출력 비용 | cron 작업은 월간 비용으로 계산 |
OpenRouter의 단점은 선택지가 너무 많다는 것입니다. 초보자는 모델 이름을 고르는 데 시간을 다 씁니다. 그래서 운영 기준을 이렇게 단순화하는 것이 좋습니다. “중요한 코딩과 검수는 상위 모델, 반복 초안은 저렴한 fast model, 실패하면 다른 provider로 재시도.” 이 정도 규칙만 있어도 충분합니다.
LM Studio
LM Studio는 로컬 모델을 내려받아 데스크톱 앱 또는 로컬 서버로 실행하는 도구입니다. 공식 문서 기준으로 OpenAI 호환 endpoint, Anthropic 호환 endpoint, REST API, model download, load/unload, structured output, tool use, embeddings 같은 기능을 제공합니다. Hermes 입장에서는 “로컬에서 OpenAI 호환 서버를 띄워 놓고 거기에 붙는 방식”으로 이해하면 됩니다.
LM Studio의 핵심 장점은 데이터 통제와 고정 비용입니다. API 사용량이 폭증해도 클라우드 요금이 바로 늘지 않습니다. 인터넷 연결 없이도 일부 작업을 처리할 수 있습니다. 회사 내부 문서, 개인 파일, 실험 코드처럼 외부 API로 보내기 애매한 자료를 다룰 때도 선택지가 됩니다.
하지만 로컬 모델은 마법이 아닙니다. 성능은 모델 크기, quantization, VRAM, RAM, CPU, prompt template, context 설정에 크게 좌우됩니다. LM Studio 문서는 모델 다운로드 옵션에서 Q3, Q4, Q8 같은 quantization을 설명합니다. 숫자가 낮을수록 가볍지만 품질 손실이 커질 수 있습니다. 실전에서는 4-bit 이상을 기본으로 보고, 중요한 reasoning 작업은 더 큰 모델이나 cloud model로 넘기는 편이 안전합니다.
추천 사용 패턴은 이렇습니다.
- 로컬 초안: 공개 전 검수 전의 rough draft, 아이디어 확장, 간단한 정리
- 민감 자료 요약: 외부 전송이 부담되는 문서의 1차 요약
- 비용 절감 루프: 반복적인 분류, 태깅, 간단한 변환
- 실패 허용 작업: 틀려도 사람이 다시 볼 수 있는 보조 작업
반대로 대형 코드베이스 전체 수정, 공개 콘텐츠 최종 검수, 보안 판단, 법률·의료·금융성 판단은 로컬 작은 모델 하나에 맡기면 안 됩니다. LM Studio는 “비용 0원 만능 모델”이 아니라 “내가 직접 운영하는 작은 inference 서버”입니다.
Anthropic Claude
Claude 계열은 긴 문맥, 코드 이해, 문서 기반 reasoning, agentic coding에서 강한 선택지로 자주 언급됩니다. Anthropic 공식 문서 기준 최신 Claude 계열은 Opus, Sonnet, Haiku처럼 성능·속도·비용 포지션이 나뉩니다. Opus는 복잡한 reasoning과 agentic coding, Sonnet은 속도와 지능의 균형, Haiku는 빠른 응답과 비용 효율 쪽에 가깝습니다.
Hermes에서 Claude를 쓸 때 좋은 작업은 다음과 같습니다.
- 큰 변경 전 코드 구조 분석
- 긴 문서와 로그를 읽고 원인 추론
- 운영 사고의 증거 패킷 정리
- 복잡한 콘텐츠 초안의 논리 재구성
- 테스트 실패 원인 분석
- 다른 모델이 만든 초안의 품질 검수
다만 사용 경로를 구분해야 합니다. 공식 API 키를 이용하는 방식은 일반적인 서버/API 사용 방식입니다. 반면 Claude Code나 Google Gemini Code Assist 같은 구독형 OAuth 계정을 제3자 agent backend처럼 연결할 때는 도구가 약관·계정 리스크 경고를 띄울 수 있습니다. “가능하니까 쓴다”와 “운영 계정에 안전하다”는 다릅니다. 개인 실험이면 몰라도, 장시간 자동화나 공개 사이트 운영에는 공식 API 키, 정식 enterprise 경로, 혹은 provider가 명시적으로 허용하는 방식이 낫습니다.
Hy3 preview가 Hermes/OpenClaw 사용자에게 보이는 이유
OpenRouter에서 최근 눈에 띄는 흐름 중 하나는 Tencent: Hy3 preview입니다. 공개 API 기준으로 tencent/hy3-preview는 262,144 context를 제공하고, 가격은 100만 입력 토큰당 약 $0.066, 100만 출력 토큰당 약 $0.26 수준입니다. 입력 토큰 기준으로는 100만 토큰당 0.5달러 미만이므로, 파일·로그·도구 결과를 많이 읽는 Hermes/OpenClaw 실험에는 비용 부담이 낮은 편입니다.
중요한 점은 가격만이 아닙니다. OpenRouter의 공개 앱 사용량 화면에서 Hy3 preview를 쓰는 앱으로 Hermes Agent와 OpenClaw가 상위에 보입니다. 사용자가 실제 agent 작업에서 많이 호출하고 있다는 신호이므로, Hy3는 싼 모델이라서 한 번 눌러보는 후보를 넘어 Hermes/OpenClaw 사용자 커뮤니티에서 입소문을 타는 실전 API 후보로 볼 수 있습니다.
다만 이것이 곧 상시 기본 엔진이라는 뜻은 아닙니다. preview 모델은 품질, 안정성, rate limit, provider routing 상태가 바뀔 수 있습니다. 그래서 추천 위치는 명확합니다. OpenAI Codex, Nous Portal, OpenCode Go 같은 구독·플랜형을 기본 축으로 두고, Hy3는 OpenRouter 안에서 저비용 대량 읽기, 후보 비교, 실패 시 fallback, 특정 장문 작업 burst에 붙이는 방식이 가장 안전합니다.
OpenAI Codex를 기본 코딩 엔진으로 쓰는 경우
OpenAI Codex는 코딩 에이전트 흐름에 맞춘 선택지입니다. OpenAI의 Codex 문서와 Codex CLI 저장소는 code generation, local shell, file editing, patch application, agent workflow와 밀접합니다. Hermes에서 Codex가 active인 상태라면, 일반 잡담보다 “repo를 읽고 수정하고 테스트하는 일”에 초점을 맞추는 것이 좋습니다.
좋은 용도는 다음과 같습니다.
- 이미 있는 프로젝트에서 버그 수정
- 테스트 로그를 읽고 원인 좁히기
- 작은 feature를 계획하고 patch 작성
- refactor 범위 제안
- shell command와 파일 변경이 이어지는 작업
주의점은 Codex 역시 만능이 아니라는 점입니다. 코딩 모델은 코드 수정에는 강하지만, 최신 AI 뉴스 조사나 여러 회사의 요금 정책 비교처럼 web research와 출처 판단이 중요한 작업에서는 별도 research 루프가 필요합니다. 또한 Docker 안에서 Hermes를 돌릴 때는 mount된 data directory가 곧 Hermes의 기억과 설정이므로, profile별로 분리해 쓰면 계정·세션·작업 기록이 섞이는 일을 줄일 수 있습니다.
구독 요금제 OAuth를 선호하는 이유
Hermes 사용자들이 구독 요금제 OAuth 연결을 선호하는 데는 현실적인 이유가 있습니다. Hermes나 OpenClaw는 보통 한두 번 질문하고 끝나는 챗봇이 아닙니다. 파일을 읽고, 로그를 보고, 이전 작업 요약을 들고, 도구 실행 결과를 다시 해석하고, 다음 명령을 이어 갑니다. 이 과정에서 출력 토큰보다 입력 토큰이 계속 커집니다.
API 종량제에서는 이 누적 입력이 곧 비용입니다. 처음에는 몇 센트처럼 보이지만, 하루 종일 켜 두고 repo 분석, 브라우저 확인, 콘텐츠 작성, 테스트 로그 분석을 반복하면 부담이 됩니다. 그래서 많은 사용자는 api사용을 모델 체험판처럼 씁니다. 어떤 모델이 좋은지 확인하고, 어려운 작업에만 잠깐 쓰고, 평소 장시간 운용은 구독형·플랜형·로컬 모델을 섞는 방식입니다.
| 사용 방식 | 적합한 선택지 | 비용 감각 |
|---|---|---|
| 매일 오래 켜 두기 | Nous Portal, OpenAI Codex, OpenCode Go, 로컬 LM Studio | 월 구독·플랜·고정 비용 쪽이 심리적으로 편함 |
| 모델 비교와 체험 | OpenRouter, Hugging Face Inference Providers, 각 direct API | 여러 모델을 빠르게 맛보기 좋지만 오래 돌리면 종량제 부담 |
| 어려운 순간만 투입 | Claude API, Kimi Coding Plan, Z.AI/GLM, 상위 OpenRouter 모델 | 고난도 reasoning·코딩·검수에 선택적으로 사용 |
| 민감 자료·반복 작업 | LM Studio | 품질은 모델에 따라 다르지만 비용과 데이터 통제가 좋음 |
중요한 점은 OAuth가 무조건 안전하다는 뜻이 아니라는 것입니다. 구독형 연결은 사용자가 선호하는 방식이지만, provider가 이 계정을 장시간 자동화 backend로 써도 된다고 보장하는지 확인해야 합니다. 특히 Claude Code나 Gemini Code Assist처럼 원래 IDE/CLI 보조 경험을 중심으로 설계된 구독형 도구는 경고 문구가 뜰 수 있습니다. 편의성과 정책 리스크를 분리해서 봐야 합니다.
Kimi, GLM, OpenCode Go를 보는 기준
OpenAI Codex
화면에서 OpenAI Codex currently active로 표시된다면 지금 Hermes가 코딩 중심 작업에 맞는 provider를 쓰고 있다는 뜻입니다. Codex는 파일 수정, patch 작성, 테스트 로그 해석, 로컬 shell 작업처럼 코드를 실제로 바꾸는 일에 강점이 있습니다. 일반 글쓰기보다 repo 기반 작업에서 빛이 납니다.
추천 상황은 버그 수정, 기능 구현, 테스트 실패 원인 분석, 작은 refactor입니다. 단, 최신 모델·서비스 비교나 외부 정책 조사는 별도 research가 필요합니다. Codex가 active여도 공식 문서 확인 없이 provider 정책을 단정하면 안 됩니다.
Z.AI / GLM
Z.AI / GLM은 Zhipu AI 계열 모델을 direct API로 연결하는 선택지입니다. 중국권 모델 생태계, GLM 계열 reasoning, 비용 대비 성능을 비교하고 싶을 때 후보가 됩니다. OpenRouter나 글로벌 provider만 쓰면 특정 지역·언어권 모델의 장점을 놓칠 수 있으므로, 한국어·중국어 혼합 자료나 중국권 서비스 조사에서는 실험 가치가 있습니다.
다만 direct API는 계정 생성, 결제, quota, region, endpoint 안정성을 직접 봐야 합니다. Hermes 장시간 운용의 기본값으로 바로 두기보다는, 먼저 작은 작업으로 tool calling 안정성, 긴 context 처리, 한국어 답변 품질을 확인하는 편이 안전합니다.
Kimi Coding Plan & Moonshot API
Kimi와 Moonshot은 긴 문맥과 coding plan 성격으로 자주 비교되는 선택지입니다. 긴 문서, 큰 코드 맥락, 설계 검토, 중국어·영어 혼합 자료 분석에서 후보가 됩니다. 특히 한 번에 많은 맥락을 읽고 판단해야 하는 작업이라면 Kimi 계열을 OpenRouter 모델이나 Claude 계열과 비교해 볼 만합니다.
운영 팁은 간단합니다. 긴 문맥이 필요할 때만 쓰고, 반복 자동화에는 비용과 rate limit을 먼저 확인합니다. Hermes가 계속 파일과 로그를 읽는 상황에서는 context가 길다는 장점이 곧 비용 증가로 이어질 수 있기 때문입니다.
OpenCode Go
OpenCode Go는 open models를 월 구독형으로 쓰는 선택지입니다. API 종량제가 부담스럽고, 오픈 모델을 꾸준히 써 보고 싶다면 눈여겨볼 만합니다. Hermes나 OpenClaw처럼 입력 토큰 누적이 큰 agent에서는 고정 비용에 가까운 플랜이 심리적으로 안정적입니다.
다만 open model 기반 플랜은 모델 품질과 tool calling 안정성을 직접 확인해야 합니다. 코드 수정, JSON 출력, 긴 대화 유지, 한국어 설명 품질을 작은 작업에서 테스트한 뒤 기본값으로 올리는 것이 좋습니다.
Hermes model provider 전체 목록
Hermes의 model 화면에는 생각보다 많은 provider가 뜹니다. 이 표의 목적은 “어느 모델이 최고인가”를 정하는 것이 아니라, Hermes에서 어떤 연결 경로를 고를 수 있는지 한눈에 보이게 하는 것입니다. 실제 선택은 각자의 계정, 비용, 작업 종류, 보안 기준에 따라 달라집니다.
커뮤니티에서 자주 출발점으로 삼는 것은 보통 위쪽 4개입니다. Nous Portal, OpenRouter, LM Studio, Anthropic은 Hermes 사용자가 가장 먼저 비교해 볼 만한 기본 축입니다. 여기에 코딩 작업을 실제로 많이 맡긴다면 현재 active로 보이는 OpenAI Codex를 별도 후보로 봅니다.
| 화면 표시 | 분류 | 이렇게 읽으면 됩니다 |
|---|---|---|
| Nous Portal | Nous Research subscription | Hermes를 처음 켜고 운영 루프를 빨리 시작하는 구독형 입구 |
| OpenRouter | 100+ models, pay-per-use | 여러 모델을 빠르게 비교하고 fallback을 만들기 좋은 종량제 라우터 |
| LM Studio | local desktop app with built-in model server | 로컬 PC에서 모델 서버를 띄워 민감 자료·초안·반복 작업을 처리하는 선택지 |
| Anthropic | Claude models — API key or Claude Code | Claude 계열을 API key 또는 Claude Code 흐름으로 쓰는 선택지 |
| OpenAI Codex | currently active coding engine | repo 읽기, patch 작성, 테스트 로그 해석 같은 코딩 작업 중심 후보 |
| Xiaomi MiMo | MiMo-V2.5 and V2 models — pro, omni, flash | Xiaomi 모델군을 직접 비교하고 싶은 경우의 중국권 모델 후보 |
| Tencent TokenHub | Hy3 Preview — direct API via tokenhub.tencentmaas.com | Hy3 Preview를 Tencent MaaS 경로로 직접 붙이는 선택지 |
| NVIDIA NIM | Nemotron models — build.nvidia.com or local NIM | NVIDIA NIM 또는 로컬/서버 inference 운영을 전제로 한 기업형 선택지 |
| Qwen OAuth | reuses local Qwen CLI login | 로컬 Qwen CLI 로그인을 Hermes에서 재사용하는 OAuth 계열 |
| GitHub Copilot | uses GITHUB_TOKEN or gh auth token | GitHub 개발 워크플로우와 Copilot 인증을 활용하는 선택지 |
| GitHub Copilot ACP | spawns copilot --acp --stdio | Copilot ACP 프로세스를 Hermes가 띄워 agent protocol 흐름을 쓰는 방식 |
| Hugging Face Inference Providers | 20+ open models | Hugging Face provider 생태계에서 오픈 모델을 비교하는 경로 |
| Google AI Studio | Gemini models — native Gemini API | Gemini를 공식 API key 기반으로 안정적으로 호출하는 경로 |
| Google Gemini via OAuth + Code Assist | free tier supported; no API key needed | Google 계정 OAuth와 Code Assist 흐름을 쓰는 방식. 장시간 자동화에는 주의 |
| DeepSeek | DeepSeek-V3, R1, coder — direct API | DeepSeek direct API로 coding/reasoning 모델을 비교하는 후보 |
| xAI | Grok models — direct API | Grok 계열을 direct API로 실험하는 후보 |
| Z.AI / GLM | Zhipu AI direct API | GLM 계열 reasoning과 중국권 모델 생태계를 직접 비교하는 후보 |
| Kimi Coding Plan & Moonshot API | api.kimi.com | Kimi coding plan과 Moonshot API를 긴 문맥·코딩 계획용으로 보는 후보 |
| Kimi / Moonshot China | Moonshot CN direct API | Moonshot 중국 endpoint를 쓰는 별도 경로 |
| StepFun Step Plan | agent/coding models via Step Plan API | StepFun의 agent/coding 모델을 Step Plan API로 쓰는 후보 |
| MiniMax | global direct API | MiniMax global API로 긴 문맥·멀티모달·중국권 모델을 비교하는 후보 |
| MiniMax via OAuth browser login | Coding Plan, minimax.io | MiniMax Coding Plan을 브라우저 OAuth 로그인으로 쓰는 방식 |
| MiniMax China | domestic direct API | MiniMax 중국 domestic endpoint를 쓰는 별도 경로 |
| Alibaba Cloud / DashScope Coding | Qwen + multi-provider | Qwen과 Alibaba Cloud DashScope 기반 coding/provider 경로 |
| Ollama Cloud | cloud-hosted open models — ollama.com | Ollama 생태계를 로컬에서 cloud-hosted open model로 확장하는 선택지 |
| Arcee AI | Trinity models — direct API | Arcee Trinity 모델군을 direct API로 쓰는 후보 |
| GMI Cloud | multi-model direct API | 여러 모델을 direct API로 제공하는 대안 provider |
| Kilo Code | Kilo Gateway API | Kilo Gateway를 통해 coding 모델을 쓰는 후보 |
| OpenCode Zen | 35+ curated models, pay-as-you-go | OpenCode에서 curated model을 종량제로 쓰는 경로 |
| OpenCode Go | open models, $10/month subscription | open models를 월 구독형으로 쓰는 OpenCode 플랜 |
| AWS Bedrock | Claude, Nova, Llama, DeepSeek — IAM or API key | AWS 계정, IAM, Bedrock 운영 기준이 있는 팀에 맞는 기업형 경로 |
| Azure Foundry | OpenAI-style or Anthropic-style endpoint | Azure AI deployment를 OpenAI/Anthropic 스타일 endpoint로 연결하는 경로 |
| Vercel AI Gateway | Vercel AI Gateway | Vercel 계정과 AI Gateway를 통해 모델 호출을 묶는 방식 |
| Alibaba Cloud Coding Plan | dedicated coding tier | Alibaba Cloud의 coding 전용 tier를 쓰는 경로 |
| custom | direct API | 정해진 provider가 아닌 direct API 연결 |
| Custom endpoint | enter URL manually | URL을 직접 넣어 OpenAI 호환 endpoint 등을 연결하는 수동 경로 |
| Configure auxiliary models | 보조 모델 설정 | 기본 모델 외에 요약·보조·특정 작업 모델을 따로 잡는 설정 |
| Leave unchanged | 변경 없음 | 현재 provider를 유지하고 나가는 선택 |
Google Gemini via OAuth + Code Assist와 Claude Code 같은 구독요금제 OAuth 연결은 가능하더라도 장시간 agent backend처럼 쓰면 계정 정책 경고가 뜰 수 있습니다. 개인 실험과 공개 운영은 다릅니다. 공개 사이트 운영, 자동 게시, 장시간 watch loop에는 공식 API key, enterprise 경로, provider가 명시적으로 허용한 방식이 더 안전합니다.
이 목록은 성능 순위표가 아닙니다. Hermes 화면에서 보이는 provider 선택지를 정리한 지도입니다. 어떤 것을 쓸지는 사용자가 자신의 비용, 계정, 작업 위험, 보안 기준으로 판단해야 합니다.
작업별 모델 라우팅
Hermes 운영에서 좋은 모델 선택은 “모델 랭킹”이 아니라 “작업 분해”에서 나옵니다.
콘텐츠 작성
공개 콘텐츠는 초안 모델과 검수 모델을 분리하는 것이 좋습니다. 초안은 OpenRouter의 빠른 모델이나 Nous Portal 기본 모델로 만들 수 있습니다. 하지만 공개 전에 Claude, GPT 상위 모델, 혹은 다른 provider로 구조·사실·중복·톤을 검수해야 합니다. 특히 AI 뉴스는 공식 출처를 우선하고, Hermes 팁은 실제 설정·운영 순서·실패 기준을 포함해야 합니다.
코드 수정
코드 수정은 OpenAI Codex, Claude Sonnet/Opus, OpenRouter의 상위 coding model이 좋습니다. 모델보다 중요한 것은 테스트 루프입니다. Hermes에게 “수정해”라고만 하지 말고, “먼저 실패 재현, 관련 파일 확인, 최소 patch, focused test, 전체 gate 순서로 진행”처럼 작업 계약을 주면 품질이 올라갑니다.
로컬 실험
LM Studio는 로컬 실험에 좋습니다. 하지만 작은 quantized model이 복잡한 repo 전체를 정확히 고치리라 기대하면 안 됩니다. 로컬 모델에는 반복 분류, 초안, 간단한 요약, 민감 자료의 1차 정리처럼 실패 비용이 낮은 작업을 맡기고, 최종 판단은 더 강한 모델이나 사람 검수로 넘기는 편이 안전합니다.
장시간 자동화
cron, watch loop, Q&A 자동 응답, 콘텐츠 큐 운영처럼 오래 도는 작업은 “한 번의 성능”보다 예측 가능성이 중요합니다. rate limit, 비용 상한, fallback, 실패 시 중단 기준, 요약 보고 형식이 있어야 합니다. provider가 자주 끊기면 모델이 좋아도 운영에는 나쁩니다.
OAuth 구독 연결의 리스크
사용자들이 자주 헷갈리는 지점이 있습니다. Claude Code, Gemini Code Assist, Copilot 같은 구독형 도구는 원래 사람이 IDE나 CLI에서 쓰는 흐름을 기준으로 설계된 경우가 많습니다. Hermes가 OAuth로 연결할 수 있다고 해서 모든 자동화 사용이 정책적으로 안전하다는 뜻은 아닙니다.
따라서 다음 기준을 권합니다.
- 개인 실험: OAuth 연결을 해도 되지만 경고 문구와 약관을 읽고, 계정 정지 가능성을 감수할 수 있는 범위에서만 사용합니다.
- 공개 사이트 운영: 공식 API key, enterprise 계정, 혹은 provider가 agent/backend 사용을 명확히 허용하는 경로를 우선합니다.
- 장시간 자동화: 구독형 interactive plan보다 사용량·과금·rate limit이 명확한 API provider를 우선합니다.
- 중요 계정: 개인 주력 계정보다 분리된 운영 계정을 쓰고, 계정 정지 시 대체 provider를 준비합니다.
이 말은 Claude나 Gemini가 나쁘다는 뜻이 아닙니다. 오히려 모델은 훌륭합니다. 다만 “모델 품질”과 “계정 사용 정책”은 별개의 문제입니다.
추천 조합
초보자 조합
Nous Portal 하나로 시작하고, 모델 변경 화면 사용법을 익힙니다. 이후 OpenRouter API 키를 추가해 백업 provider를 만듭니다. 로컬 PC 성능이 좋다면 LM Studio를 붙여서 간단 작업을 로컬로 넘깁니다.
콘텐츠 운영자 조합
OpenRouter를 중심으로 초안·검수 모델을 나눕니다. Hermes 팁이나 AI 뉴스는 공식 출처를 확인해야 하므로 browser/web research가 가능한 세션에서 조사하고, 공개 전에는 다른 모델로 검수합니다. DB-only 게시처럼 배포를 피해야 하는 작업은 모델보다 검증 루프가 더 중요합니다.
개발자 조합
OpenAI Codex 또는 Claude Sonnet 계열을 기본 coding model로 두고, OpenRouter를 fallback으로 둡니다. 긴 reasoning이나 복잡한 refactor는 상위 모델, 반복적인 test log 분류는 저렴한 모델로 나눕니다. 로컬 실험은 LM Studio로 처리하되, 실제 commit 전에는 강한 모델과 테스트로 확인합니다.
비용 민감 조합
LM Studio와 저렴한 OpenRouter 모델을 기본으로 두고, 고비용 모델은 최종 검수와 어려운 디버깅에만 씁니다. 작업마다 “이 작업은 틀려도 되는가?”를 먼저 묻습니다. 틀려도 되는 초안은 저렴한 모델, 틀리면 큰일 나는 배포·보안·데이터 작업은 강한 모델을 씁니다.
기록은 모델 성능표가 아니라 콘텐츠가 된다
여기서 말하는 기록은 “어떤 모델이 몇 토큰을 썼고, context가 몇이고, 사용료가 얼마였다”를 적으라는 뜻이 아닙니다. 그런 숫자는 각자 계정, 작업량, provider 정책에 따라 달라지고, 최종 판단도 사용자가 해야 합니다.
핵심은 주제 하나를 잡고 써 본 경험 자체를 공개 가능한 글로 남기는 것입니다. Hermes provider 선택, OpenRouter 실험, LM Studio 로컬 운영, OAuth 연결 경고, Codex로 repo를 고친 경험처럼 “다음 사람이 보면 참고가 되겠다” 싶은 것을 정리하면 그 자체가 콘텐츠가 됩니다.
예를 들면 이런 식입니다.
2026년 5월 10일 오전 1시 49분
본 커뮤니티에 다양한 정보가 공개될 수 있는 건, 단순합니다.
기록을 하냐 OR 안 하냐.
여러분들도 주제 하나 잡고, 기록하고 공개해보세요.
그게 콘텐츠입니다.
따라서 기록할 것은 모델 사용료 장부가 아니라 공개 가능한 맥락입니다.
- 내가 고른 주제: Hermes provider 선택, 로컬 모델, OAuth 연결 경고, fallback 설계 등
- 왜 이 주제가 필요했는가
- 실제 화면에서 무엇을 봤는가
- 어떤 선택지가 있었는가
- 초보자가 헷갈릴 지점은 무엇인가
- 내가 추천하거나 비추천하는 이유는 무엇인가
- 다음 사람이 따라 할 때 조심할 점은 무엇인가
좋은 기록은 정답 강요가 아니라 판단 재료를 남기는 일입니다. 모델 성능과 비용은 사용자가 자기 상황에서 판단하게 두고, 글은 “어떤 선택지가 있고, 왜 조심해야 하고, 어디서 시작하면 되는지”를 보여주면 됩니다.
실전 운영 체크리스트
- 먼저 Hermes model 화면에서 현재 active provider를 확인합니다.
- ChatGPT 사용량이 부족하거나 다른 모델이 필요하면 docker run 명령으로 모델 선택 화면을 엽니다.
- 자주 쓰는 4개 후보를 먼저 봅니다: Nous Portal, OpenRouter, LM Studio, Anthropic.
- 코딩 전용 작업이면 OpenAI Codex도 후보에 넣습니다.
- Claude Code나 Gemini OAuth 연결은 경고를 읽고, 장시간 자동화에는 신중하게 씁니다.
- 공개 사이트 운영에는 공식 API key 또는 명시적으로 허용된 provider 경로를 우선합니다.
- 로컬 모델은 실패 비용이 낮은 작업부터 맡깁니다.
- 모델 사용료 장부가 아니라, 다음 사람이 참고할 수 있는 선택 맥락을 글로 기록합니다.
- 중요한 작업은 초안 모델과 검수 모델을 분리합니다.
- 비용·속도·품질·정책 리스크를 같이 봅니다.
FAQ
OpenRouter 하나만 쓰면 충분한가요?
대부분의 개인 사용자에게는 꽤 충분합니다. 여러 모델을 한 곳에서 바꿔 쓸 수 있기 때문입니다. 다만 장애, 가격 변화, 특정 모델의 tool calling 문제에 대비하려면 Nous Portal, 직접 API provider, 로컬 LM Studio 중 하나를 백업으로 두는 것이 좋습니다.
LM Studio로 모든 작업을 무료로 처리할 수 있나요?
가능은 하지만 추천하지는 않습니다. 로컬 모델은 하드웨어와 모델 크기에 따라 품질 차이가 큽니다. 초안, 요약, 분류, 민감 자료 1차 정리에는 좋지만, 공개 콘텐츠 최종 검수나 복잡한 코드 변경은 더 강한 모델 또는 사람 검수가 필요합니다.
Claude Code나 Gemini OAuth는 왜 비추천이라고 하나요?
모델이 나빠서가 아닙니다. 구독형 interactive 계정을 장시간 agent backend처럼 쓰는 방식이 약관·계정 정책과 충돌할 수 있다는 경고가 있기 때문입니다. 운영 작업에는 공식 API 키나 enterprise/정식 제공 경로가 더 안전합니다.
OpenAI Codex와 ChatGPT는 어떻게 다르게 봐야 하나요?
ChatGPT는 대화형 범용 도구에 가깝고, Codex는 코드 작업과 agent workflow에 더 초점이 맞습니다. Hermes에서 repo 수정, 테스트, patch 루프를 돌릴 때는 Codex가 좋은 선택지가 될 수 있습니다.
모델 선택보다 더 중요한 것은 무엇인가요?
작업 계약입니다. “이 파일을 고쳐”보다 “먼저 현재 상태를 읽고, 실패를 재현하고, 최소 수정 후, focused test와 live smoke를 해라”가 훨씬 좋은 결과를 만듭니다. 좋은 모델도 나쁜 작업 지시를 받으면 흔들립니다.
공식 자료와 확인 링크
- Hermes Agent AI Providers 문서: https://hermes-agent.nousresearch.com/docs/integrations/providers
- Hermes Agent Configuration 문서: https://hermes-agent.nousresearch.com/docs/user-guide/configuration
- OpenRouter Quickstart: https://openrouter.ai/docs/quickstart
- LM Studio Developer Docs: https://lmstudio.ai/docs/app/api
- LM Studio 모델 다운로드/quantization 설명: https://lmstudio.ai/docs/app/basics/download-model
- Anthropic Claude Models Overview: https://docs.anthropic.com/en/docs/about-claude/models/overview
- OpenAI Codex 문서: https://developers.openai.com/codex/
- OpenAI Codex CLI 저장소: https://github.com/openai/codex
- Google Gemini Code Assist Overview: https://developers.google.com/gemini-code-assist/docs/overview
- GitHub Copilot AI model comparison: https://docs.github.com/en/copilot/using-github-copilot/ai-models/choosing-the-right-ai-model-for-your-task
- Hugging Face Inference Providers: https://huggingface.co/docs/inference-providers/index
- DeepSeek API Docs: https://api-docs.deepseek.com/
- Qwen3 공식 블로그: https://qwenlm.github.io/blog/qwen3/
- NVIDIA NIM LLM 문서: https://docs.nvidia.com/nim/large-language-models/latest/introduction.html
마지막으로, 모델 선택은 지식보다 습관입니다. provider를 바꿔 보고, 결과를 기록하고, 공개 가능한 형태로 정리하세요. 기록을 하느냐 안 하느냐가 차이를 만듭니다. 그 기록이 곧 콘텐츠입니다.