AI 시스템은 크게 SaaS형 서비스, API/플랫폼형, **설치/자체 구축형(Self-hosted)**으로 구분된다.
| 이름 |
특징 |
장점 |
단점 |
| ChatGPT |
범용 대화형 LLM |
최신 모델, 다양한 기능, UX 우수 |
데이터 외부 전송, 비용 |
| Claude |
안전성 중심 LLM |
긴 컨텍스트, 자연스러운 글쓰기 |
생태계 제한 |
| Gemini |
멀티모달 AI |
Google 연동, 멀티모달 |
성능 편차 |
| Genspark |
검색 기반 AI |
최신 정보 반영 |
reasoning 약함 |
| Gamma |
프레젠테이션 생성 |
자동 디자인 |
커스터마이징 제한 |
|
| 이름 |
특징 |
장점 |
단점 |
| OpenAI API |
GPT API 제공 |
고품질 모델 |
비용, 종속성 |
| Anthropic API |
Claude API |
긴 context |
기능 제한 |
| Vertex AI |
통합 AI 플랫폼 |
MLOps, 확장성 |
설정 복잡 |
|
| 이름 |
특징 |
장점 |
단점 |
| Ollama |
로컬 실행 플랫폼 |
설치 간단, 로컬 운영 |
성능 제한 |
| vLLM |
고성능 inference |
GPU 최적화, throughput |
GPU 필수 |
| TGI |
HF inference 서버 |
모델 호환성 |
설정 난이도 |
| Local LLM |
오픈소스 모델 |
데이터 통제 |
운영 부담 |
|
| 이름 |
특징 |
장점 |
단점 |
| LiteLLM |
멀티 LLM 게이트웨이 |
모델 통합, 비용 제어 |
UI 없음 |
| Open WebUI |
Chat UI |
로컬 UI 제공 |
확장성 제한 |
| TypingMind |
개인용 UI |
로컬 저장 |
유료 |
|
| 구분 |
대표 |
특징 |
용도 |
| SaaS |
ChatGPT, Claude |
즉시 사용 |
생산성 |
| API |
OpenAI API |
개발 중심 |
서비스 |
| Self-hosted |
Ollama |
내부 운영 |
보안 |
| Gateway |
LiteLLM |
통합 관리 |
멀티 LLM |
|
| 구성 |
역할 |
| Ollama |
로컬 LLM 실행 |
| Open WebUI |
Chat UI |
| (옵션) LiteLLM |
멀티 모델 라우팅 |
|
- 특징: 단일 노드, CPU 기반
- 장점: 설치 간단, 비용 최소
- 단점: 성능 제한, 대형 모델 불가
| 구성 |
역할 |
| vLLM |
고성능 inference |
| LiteLLM |
API 통합 |
| Open WebUI / TypingMind |
UI |
|
- 특징: GPU 활용
- 장점: 속도/처리량 향상
- 단점: 초기 설정 필요
| 구성 |
역할 |
| vLLM or TGI |
모델 serving |
| Kubernetes |
오케스트레이션 |
| LiteLLM |
API Gateway |
| Redis |
캐시 |
| Prometheus + Grafana |
모니터링 |
|
- 특징: 확장형 구조
- 장점: 고가용성, 확장성
- 단점: 운영 복잡도 증가
| 구성 |
역할 |
| Multi vLLM Cluster |
분산 inference |
| Kubernetes + Istio |
트래픽 제어 |
| LiteLLM |
모델 라우팅 |
| Vector DB (Milvus 등) |
RAG |
| Data Pipeline (Kafka) |
데이터 처리 |
|
- 특징: 분산 아키텍처
- 장점: 대규모 처리, SLA 대응
- 단점: 높은 비용, 복잡도
| 조건 |
추천 |
| GPU 없음 |
Ollama |
| 단일 사용자 |
WebUI |
| API 통합 필요 |
LiteLLM |
| 고성능 필요 |
vLLM |
| 확장 필요 |
Kubernetes |
|
- 빠른 시작 → Ollama + Open WebUI
- 성능 강화 → vLLM + GPU
- 멀티 모델 → LiteLLM 필수
- 운영 환경 → Kubernetes 기반