diff --git a/docs/gitops-cicd/11-ollama-comprehensive-enterprise-guide.md b/docs/gitops-cicd/11-ollama-comprehensive-enterprise-guide.md index 8664a76..618a321 100644 --- a/docs/gitops-cicd/11-ollama-comprehensive-enterprise-guide.md +++ b/docs/gitops-cicd/11-ollama-comprehensive-enterprise-guide.md @@ -51,8 +51,82 @@ Self-hosted AI-инфраструктура на базе Ollama с интегр --- -## Архитектура корпоративного AI-решения - +## Архитектура корпоративного AI-решения┌─────────────────────────────────────────────────────────────┐ +│ USER ACCESS LAYER │ +│ │ +│ ┌──────────┐ ┌───────────┐ ┌──────────┐ │ +│ │ Web UI │ │ VS Code │ │ CLI Tool │ │ +│ │(Gradio) │ │(Extension)│ │ (Python) │ │ +│ └────┬─────┘ └─────┬─────┘ └────┬─────┘ │ +└───────┼──────────────┼──────────────┼─────────────────────┘ + │ │ │ + └──────────────┼──────────────┘ + │ +┌──────────────────────▼─────────────────────────────────────┐ +│ API GATEWAY / REVERSE PROXY │ +│ (Traefik/Nginx) │ +│ • TLS termination │ +│ • Authentication (LDAP/OIDC) │ +│ • Rate limiting (100 req/min per user) │ +│ • IP: 10.30.10.5 │ +└──────────────────────┬─────────────────────────────────────┘ + │ +┌──────────────────────▼─────────────────────────────────────┐ +│ OLLAMA INFERENCE LAYER │ +│ │ +│ ┌─────────────────────────────────────┐ │ +│ │ Ollama Server │ │ +│ │ │ │ +│ │ Models (Hot-loaded): │ │ +│ │ • qwen2.5-coder:32b (Code) │ │ +│ │ • deepseek-r1:32b (Reasoning) │ │ +│ │ • llama3.3:70b-q4 (Universal) │ │ +│ │ │ │ +│ │ GPU: 1x NVIDIA RTX 4090 24GB │ │ +│ │ CPU: 32 vCPU │ │ +│ │ RAM: 128 GB │ │ +│ │ IP: 10.30.10.10:11434 │ │ +│ └─────────────────────────────────────┘ │ +└──────────────────────┬─────────────────────────────────────┘ + │ +┌──────────────────────▼─────────────────────────────────────┐ +│ MCP (MODEL CONTEXT PROTOCOL) LAYER │ +│ │ +│ ┌─────────────────────────────────────┐ │ +│ │ MCP Orchestrator │ │ +│ │ • Request routing │ │ +│ │ • Context assembly │ │ +│ │ IP: 10.30.10.20 │ │ +│ └───────┬─────────────────────────────┘ │ +│ │ │ +│ ┌────┼────┬────────┬────────┬────────┬────────┐ │ +│ │ │ │ │ │ │ │ │ +│ ┌──▼─┐ ┌▼──┐ ┌▼────┐ ┌▼─────┐ ┌▼────┐ ┌▼─────┐ │ +│ │Git │ │Swm│ │ K8s │ │ Logs │ │Docs │ │CI/CD │ │ +│ │ea │ │arm│ │ │ │(Loki)│ │ │ │ │ │ +│ └────┘ └───┘ └─────┘ └──────┘ └─────┘ └──────┘ │ +└──────────────────────┬─────────────────────────────────────┘ + │ +┌──────────────────────▼─────────────────────────────────────┐ +│ KNOWLEDGE BASE / RAG LAYER │ +│ │ +│ ┌─────────────────────────────────────┐ │ +│ │ Vector Database (Qdrant) │ │ +│ │ • technical-docs (5000+ docs) │ │ +│ │ • code-snippets (10000+ samples) │ │ +│ │ • k8s-configs (500+ manifests) │ │ +│ │ • incidents (1000+ postmortems) │ │ +│ │ Storage: 500 GB │ │ +│ │ IP: 10.30.10.30:6333 │ │ +│ └─────────────────────────────────────┘ │ +│ │ +│ ┌─────────────────────────────────────┐ │ +│ │ Embedding Service │ │ +│ │ • bge-large-en-v1.5 │ │ +│ │ • Text chunking (512 tokens) │ │ +│ │ IP: 10.30.10.31 │ │ +│ └─────────────────────────────────────┘ │ +└─────────────────────────────────────────────────────────────┘ ### Многоуровневая архитектура Эффективная корпоративная AI-инфраструктура строится по принципу разделения ответственности между специализированными компонентами. Архитектура состоит из пяти основных слоев.