20 мая 2026 AI-инфраструктура

Развернули Llama 3.1 70B в закрытом контуре производственного предприятия

Кейс: миграция с облачного GPT на собственную on-prem инсталляцию. Две недели от ТЗ до приёмки, инференс на 4×A100, ноль данных за периметром.

Клиент — производственное предприятие, регламент безопасности запрещает любую передачу данных во внешние сервисы. До нас инженеры пользовались GPT-4 через VPN с личных устройств — это нарушало внутренний приказ и создавало риск утечки конструкторской документации.

Что сделали

Подняли инференс Llama 3.1 70B Instruct в quantized FP8 на четырёх NVIDIA A100 (80 ГБ).
Завернули в vLLM с OpenAI-совместимым API — приложения клиента переключились правкой одной переменной окружения OPENAI_BASE_URL.
Настроили mTLS между сервисами, токены — через внутренний Vault.
Подключили RAG-индекс по 12 ГБ конструкторской документации (Qdrant + bge-m3 для эмбеддингов).

Метрики после двух недель эксплуатации

Метрика	Было (GPT-4 API)	Стало (Llama on-prem)
Latency p50	2.3 с	0.8 с
Latency p95	6.1 с	1.9 с
Запросов в сутки	~400	~1800
Данные за периметром	да	нет

Рост числа запросов — побочный эффект: когда снимается психологический барьер «это утечёт», люди начинают пользоваться инструментом по делу.

Что дальше

Готовим вторую очередь — fine-tuning на корпоративном корпусе ТУ и КД для специализированных задач (генерация черновиков технологических карт). Об этом — отдельной заметкой.