Update docs/gitops-cicd/11-ollama-comprehensive-enterprise-guide.md
This commit is contained in:
@@ -52,7 +52,88 @@ Self-hosted AI-инфраструктура на базе Ollama с интегр
|
|||||||
---
|
---
|
||||||
|
|
||||||
## Архитектура корпоративного AI-решения
|
## Архитектура корпоративного AI-решения
|
||||||
|
### 2.1 High-Level Architecture
|
||||||
|
|
||||||
|
```
|
||||||
|
┌─────────────────────────────────────────────────────────────┐
|
||||||
|
│ USER ACCESS LAYER │
|
||||||
|
│ │
|
||||||
|
│ ┌──────────┐ ┌───────────┐ ┌──────────┐ │
|
||||||
|
│ │ Web UI │ │ VS Code │ │ CLI Tool │ │
|
||||||
|
│ │(Gradio) │ │(Extension)│ │ (Python) │ │
|
||||||
|
│ └────┬─────┘ └─────┬─────┘ └────┬─────┘ │
|
||||||
|
└───────┼──────────────┼──────────────┼─────────────────────┘
|
||||||
|
│ │ │
|
||||||
|
└──────────────┼──────────────┘
|
||||||
|
│
|
||||||
|
┌──────────────────────▼─────────────────────────────────────┐
|
||||||
|
│ API GATEWAY / REVERSE PROXY │
|
||||||
|
│ (Traefik/Nginx) │
|
||||||
|
│ • TLS termination │
|
||||||
|
│ • Authentication (LDAP/OIDC) │
|
||||||
|
│ • Rate limiting (100 req/min per user) │
|
||||||
|
│ • IP: 10.30.10.5 │
|
||||||
|
└──────────────────────┬─────────────────────────────────────┘
|
||||||
|
│
|
||||||
|
┌──────────────────────▼─────────────────────────────────────┐
|
||||||
|
│ OLLAMA INFERENCE LAYER │
|
||||||
|
│ │
|
||||||
|
│ ┌─────────────────────────────────────┐ │
|
||||||
|
│ │ Ollama Server │ │
|
||||||
|
│ │ │ │
|
||||||
|
│ │ Models (Hot-loaded): │ │
|
||||||
|
│ │ • qwen2.5-coder:32b (Code) │ │
|
||||||
|
│ │ • deepseek-r1:32b (Reasoning) │ │
|
||||||
|
│ │ • llama3.3:70b-q4 (Universal) │ │
|
||||||
|
│ │ │ │
|
||||||
|
│ │ GPU: 1x NVIDIA RTX 4090 24GB │ │
|
||||||
|
│ │ CPU: 32 vCPU │ │
|
||||||
|
│ │ RAM: 128 GB │ │
|
||||||
|
│ │ IP: 10.30.10.10:11434 │ │
|
||||||
|
│ └─────────────────────────────────────┘ │
|
||||||
|
└──────────────────────┬─────────────────────────────────────┘
|
||||||
|
│
|
||||||
|
┌──────────────────────▼─────────────────────────────────────┐
|
||||||
|
│ MCP (MODEL CONTEXT PROTOCOL) LAYER │
|
||||||
|
│ │
|
||||||
|
│ ┌─────────────────────────────────────┐ │
|
||||||
|
│ │ MCP Orchestrator │ │
|
||||||
|
│ │ • Request routing │ │
|
||||||
|
│ │ • Context assembly │ │
|
||||||
|
│ │ IP: 10.30.10.20 │ │
|
||||||
|
│ └───────┬─────────────────────────────┘ │
|
||||||
|
│ │ │
|
||||||
|
│ ┌────┼────┬────────┬────────┬────────┬────────┐ │
|
||||||
|
│ │ │ │ │ │ │ │ │
|
||||||
|
│ ┌──▼─┐ ┌▼──┐ ┌▼────┐ ┌▼─────┐ ┌▼────┐ ┌▼─────┐ │
|
||||||
|
│ │Git │ │Swm│ │ K8s │ │ Logs │ │Docs │ │CI/CD │ │
|
||||||
|
│ │ea │ │arm│ │ │ │(Loki)│ │ │ │ │ │
|
||||||
|
│ └────┘ └───┘ └─────┘ └──────┘ └─────┘ └──────┘ │
|
||||||
|
└──────────────────────┬─────────────────────────────────────┘
|
||||||
|
│
|
||||||
|
┌──────────────────────▼─────────────────────────────────────┐
|
||||||
|
│ KNOWLEDGE BASE / RAG LAYER │
|
||||||
|
│ │
|
||||||
|
│ ┌─────────────────────────────────────┐ │
|
||||||
|
│ │ Vector Database (Qdrant) │ │
|
||||||
|
│ │ • technical-docs (5000+ docs) │ │
|
||||||
|
│ │ • code-snippets (10000+ samples) │ │
|
||||||
|
│ │ • k8s-configs (500+ manifests) │ │
|
||||||
|
│ │ • incidents (1000+ postmortems) │ │
|
||||||
|
│ │ Storage: 500 GB │ │
|
||||||
|
│ │ IP: 10.30.10.30:6333 │ │
|
||||||
|
│ └─────────────────────────────────────┘ │
|
||||||
|
│ │
|
||||||
|
│ ┌─────────────────────────────────────┐ │
|
||||||
|
│ │ Embedding Service │ │
|
||||||
|
│ │ • bge-large-en-v1.5 │ │
|
||||||
|
│ │ • Text chunking (512 tokens) │ │
|
||||||
|
│ │ IP: 10.30.10.31 │ │
|
||||||
|
│ └─────────────────────────────────────┘ │
|
||||||
|
└─────────────────────────────────────────────────────────────┘
|
||||||
|
```
|
||||||
|
|
||||||
|
---
|
||||||
|
|
||||||
### Многоуровневая архитектура
|
### Многоуровневая архитектура
|
||||||
|
|
||||||
|
|||||||
Reference in New Issue
Block a user