Клиент — производственное предприятие, регламент безопасности запрещает любую передачу данных во внешние сервисы. До нас инженеры пользовались GPT-4 через VPN с личных устройств — это нарушало внутренний приказ и создавало риск утечки конструкторской документации.
Что сделали
- Подняли инференс Llama 3.1 70B Instruct в quantized FP8 на четырёх NVIDIA A100 (80 ГБ).
- Завернули в vLLM с OpenAI-совместимым API — приложения клиента
переключились правкой одной переменной окружения
OPENAI_BASE_URL. - Настроили mTLS между сервисами, токены — через внутренний Vault.
- Подключили RAG-индекс по 12 ГБ конструкторской документации (Qdrant + bge-m3 для эмбеддингов).
Метрики после двух недель эксплуатации
| Метрика | Было (GPT-4 API) | Стало (Llama on-prem) |
|---|---|---|
| Latency p50 | 2.3 с | 0.8 с |
| Latency p95 | 6.1 с | 1.9 с |
| Запросов в сутки | ~400 | ~1800 |
| Данные за периметром | да | нет |
Рост числа запросов — побочный эффект: когда снимается психологический барьер «это утечёт», люди начинают пользоваться инструментом по делу.
Что дальше
Готовим вторую очередь — fine-tuning на корпоративном корпусе ТУ и КД для специализированных задач (генерация черновиков технологических карт). Об этом — отдельной заметкой.