Update docs/gitops-cicd/11-ollama-comprehensive-enterprise-guide.md

This commit is contained in:
2026-01-13 08:48:26 +00:00
parent 5debbf9454
commit a829ebd117

View File

@@ -51,82 +51,9 @@ Self-hosted AI-инфраструктура на базе Ollama с интегр
---
## Архитектура корпоративного AI-решения┌─────────────────────────────────────────────────────────────┐
│ USER ACCESS LAYER │
│ │
│ ┌──────────┐ ┌───────────┐ ┌──────────┐ │
│ │ Web UI │ │ VS Code │ │ CLI Tool │ │
│ │(Gradio) │ │(Extension)│ │ (Python) │ │
│ └────┬─────┘ └─────┬─────┘ └────┬─────┘ │
└───────┼──────────────┼──────────────┼─────────────────────┘
│ │ │
└──────────────┼──────────────┘
┌──────────────────────▼─────────────────────────────────────┐
│ API GATEWAY / REVERSE PROXY │
│ (Traefik/Nginx) │
│ • TLS termination │
│ • Authentication (LDAP/OIDC) │
│ • Rate limiting (100 req/min per user) │
│ • IP: 10.30.10.5 │
└──────────────────────┬─────────────────────────────────────┘
┌──────────────────────▼─────────────────────────────────────┐
│ OLLAMA INFERENCE LAYER │
│ │
│ ┌─────────────────────────────────────┐ │
│ │ Ollama Server │ │
│ │ │ │
│ │ Models (Hot-loaded): │ │
│ │ • qwen2.5-coder:32b (Code) │ │
│ │ • deepseek-r1:32b (Reasoning) │ │
│ │ • llama3.3:70b-q4 (Universal) │ │
│ │ │ │
│ │ GPU: 1x NVIDIA RTX 4090 24GB │ │
│ │ CPU: 32 vCPU │ │
│ │ RAM: 128 GB │ │
│ │ IP: 10.30.10.10:11434 │ │
│ └─────────────────────────────────────┘ │
└──────────────────────┬─────────────────────────────────────┘
┌──────────────────────▼─────────────────────────────────────┐
│ MCP (MODEL CONTEXT PROTOCOL) LAYER │
│ │
│ ┌─────────────────────────────────────┐ │
│ │ MCP Orchestrator │ │
│ │ • Request routing │ │
│ │ • Context assembly │ │
│ │ IP: 10.30.10.20 │ │
│ └───────┬─────────────────────────────┘ │
│ │ │
│ ┌────┼────┬────────┬────────┬────────┬────────┐ │
│ │ │ │ │ │ │ │ │
│ ┌──▼─┐ ┌▼──┐ ┌▼────┐ ┌▼─────┐ ┌▼────┐ ┌▼─────┐ │
│ │Git │ │Swm│ │ K8s │ │ Logs │ │Docs │ │CI/CD │ │
│ │ea │ │arm│ │ │ │(Loki)│ │ │ │ │ │
│ └────┘ └───┘ └─────┘ └──────┘ └─────┘ └──────┘ │
└──────────────────────┬─────────────────────────────────────┘
┌──────────────────────▼─────────────────────────────────────┐
│ KNOWLEDGE BASE / RAG LAYER │
│ │
│ ┌─────────────────────────────────────┐ │
│ │ Vector Database (Qdrant) │ │
│ │ • technical-docs (5000+ docs) │ │
│ │ • code-snippets (10000+ samples) │ │
│ │ • k8s-configs (500+ manifests) │ │
│ │ • incidents (1000+ postmortems) │ │
│ │ Storage: 500 GB │ │
│ │ IP: 10.30.10.30:6333 │ │
│ └─────────────────────────────────────┘ │
│ │
│ ┌─────────────────────────────────────┐ │
│ │ Embedding Service │ │
│ │ • bge-large-en-v1.5 │ │
│ │ • Text chunking (512 tokens) │ │
│ │ IP: 10.30.10.31 │ │
│ └─────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────┘
## Архитектура корпоративного AI-решения
### Многоуровневая архитектура
Эффективная корпоративная AI-инфраструктура строится по принципу разделения ответственности между специализированными компонентами. Архитектура состоит из пяти основных слоев.