k3s-gitops/docs/gitops-cicd/Ollama.md

# Требования к серверу и архитектуре Self-hosted Ollama для DevOps - Kubernetes - Knowledge Base


### 1. Цели и назначение системы

Система предназначена для:

- Анализа **Kubernetes-кластеров** (YAML, manifests, events, states)

- Анализа **логов** (application / infra / CI)

- Работы с **технической документацией** (Markdown, PDF, AsciiDoc)

- Написания и ревью **кода** (Bash, Go, Python, Terraform, Helm)

- Создания **внутренней базы знаний** (RAG)

- Одновременной работы **до 10 пользователей**

- Интеграции с **MCP-сервисами** для получения данных из:

    - Gitea

    - Docker Swarm

    - Kubernetes API

    - CI/CD и лог-хранилищ


---

## 2. Архитектура (High Level)

```
Users (Web UI / IDE)
        |
        v
API Gateway / Reverse Proxy
        |
        v
Ollama Server (LLM inference)
        |
        +--> MCP: Gitea
        |
        +--> MCP: Docker Swarm
        |
        +--> MCP: Kubernetes
        |
        +--> MCP: Logs / Docs
        |
        v
Vector DB (Knowledge Base / RAG)
```

---
![[ollama_architecture.png]]

## 3. Серверные требования (Hardware)

### 3.1 Минимальная конфигурация (рекомендуемая)

|Компонент|Требование|
|---|---|
|CPU|16–32 vCPU (x86_64)|
|RAM|**128 GB** (минимум 64 GB)|
|GPU|**1× NVIDIA 24–48 GB VRAM** (A5000 / A6000 / L40 / RTX 4090)|
|Disk (NVMe)|2–4 TB|
|Disk IOPS|≥ 100k|
|Network|10 Gbps (желательно)|
|OS|Ubuntu Server 22.04 LTS|

> ❗ Для моделей 70B в Q4/Q5 — **GPU обязателен**.
> Без GPU возможна работа только с 14–32B (ограниченно).

---

### 3.2 Рекомендуемые модели Ollama

|Задача|Модель|
|---|---|
|Анализ кода|`qwen2.5-coder:32b`|
|Логи / reasoning|`deepseek-r1:32b`|
|Документация|`llama3.1:70b-q4`|
|Универсальная|`qwen2.5:72b-q4`|

---

## 4. Программные компоненты

### 4.1 Базовые сервисы

|Компонент|Назначение|
|---|---|
|Ollama|LLM inference|
|Reverse Proxy (Traefik / Nginx)|Auth + TLS|
|Vector DB (Qdrant / Milvus)|Knowledge Base|
|Object Storage (S3-compatible)|Документы|
|MCP Services|Data ingestion|
|Auth (OIDC / Basic)|Контроль доступа|

---

### 4.2 MCP (Model Context Protocol) сервисы

#### MCP-Gitea

- Чтение репозиториев

- Анализ:

    - Kubernetes manifests

    - Helm charts

    - Terraform

    - Jenkinsfile / GitHub Actions

- Поддержка:

    - branch / tag / commit

    - diff / blame


#### MCP-Docker-Swarm

- Сервисы и стеки

- docker-compose.yml

- Service logs

- Versions / rollout state


#### MCP-Kubernetes

- API Server (read-only)

- Resources:

    - Pods / Deployments / StatefulSets

    - Events

    - ConfigMaps / Secrets (masked)

- kubectl-like queries


#### MCP-Docs / Logs

- Markdown / PDF / TXT

- Centralized logs (Loki / files)

- Chunking + embedding


---

## 5. Knowledge Base (RAG)

### Источники данных

- Git-репозитории

- Kubernetes manifests

- CI/CD pipelines

- Runbooks

- ADR / RFC

- Logs (выборочно)


### Требования

- Chunk size: 500–1000 tokens

- Embeddings: bge / nomic / instructor

- Versioning источников

- Re-index по webhook


---

## 6. Безопасность

### Обязательно

- TLS (internal + external)

- Read-only доступ к Kubernetes

- Secrets masking

- Role-based access (RBAC)

- Network isolation (VLAN / namespaces)


### Желательно

- Audit logs

- Prompt filtering

- Rate limiting

- Per-user context limits


---

## 7. Производительность и лимиты

|Параметр|Значение|
|---|---|
|Users|до 10|
|Concurrent requests|5–8|
|Context length|32k–128k|
|Avg response|2–10 сек|
|Max model load|1–2 модели одновременно|

---

## 8. Развертывание

### Варианты

- Standalone bare-metal

- VM + GPU passthrough

- Kubernetes (с GPU node pool)


### Рекомендуется

- Docker Compose / systemd для Ollama

- Отдельный namespace для MCP

- GitOps (Argo CD)


---

## 9. Эксплуатация

- Model cache warming

- Scheduled re-index

- GPU monitoring (nvidia-smi)

- Backup:

    - Vector DB

    - Docs storage

- Upgrade policy:

    - Models

    - MCP schemas


---

## 10. Ограничения и риски

- VRAM — основной bottleneck

- Большие контексты = latency

- Нужен контроль prompt-leak

- Не замена SRE/DevOps решений


---

## 11. Итоговая рекомендация (baseline)

**Оптимальная конфигурация:**

- 1× GPU 48 GB

- 128 GB RAM

- NVMe 2 TB

- Ollama + Qwen / DeepSeek

- MCP-Gitea + MCP-K8s

- Qdrant как Vector DB