Все новости

Развернули Llama 3.1 70B в закрытом контуре производственного предприятия

Кейс: миграция с облачного GPT на собственную on-prem инсталляцию. Две недели от ТЗ до приёмки, инференс на 4×A100, ноль данных за периметром.

Клиент — производственное предприятие, регламент безопасности запрещает любую передачу данных во внешние сервисы. До нас инженеры пользовались GPT-4 через VPN с личных устройств — это нарушало внутренний приказ и создавало риск утечки конструкторской документации.

Что сделали

  • Подняли инференс Llama 3.1 70B Instruct в quantized FP8 на четырёх NVIDIA A100 (80 ГБ).
  • Завернули в vLLM с OpenAI-совместимым API — приложения клиента переключились правкой одной переменной окружения OPENAI_BASE_URL.
  • Настроили mTLS между сервисами, токены — через внутренний Vault.
  • Подключили RAG-индекс по 12 ГБ конструкторской документации (Qdrant + bge-m3 для эмбеддингов).

Метрики после двух недель эксплуатации

МетрикаБыло (GPT-4 API)Стало (Llama on-prem)
Latency p502.3 с0.8 с
Latency p956.1 с1.9 с
Запросов в сутки~400~1800
Данные за периметромданет

Рост числа запросов — побочный эффект: когда снимается психологический барьер «это утечёт», люди начинают пользоваться инструментом по делу.

Что дальше

Готовим вторую очередь — fine-tuning на корпоративном корпусе ТУ и КД для специализированных задач (генерация черновиков технологических карт). Об этом — отдельной заметкой.