Enclave AI — Локальный AI на вашем железе

Почему on-premise

Когда облако — не вариант,
выручает локальный AI.

Юридические документы, медкарты, исходный код, финансовую аналитику может быть опасно отправлять во внешние API. Локальная LLM решает эту проблему.

Данные остаются у вас

Запросы и ответы не покидают периметр компании. Никаких логов у внешних провайдеров.

152-ФЗ

Обработка персональных, банковских и медицинских данных полностью внутри вашего контура.

Расходы под контролем

Капитальные затраты вместо покупки токенов. Чем больше нагрузка — тем больше экономия.

Без зависимости от поставщиков

Open-source модели и инструменты. Не зависите от тарифов, политик и доступности внешних API.

Конфигурации GPU

Четыре варианта под
разные нагрузки и бюджеты.

Все конфигурации построены на NVIDIA Tesla V100 c NVLink-мостом — для эффективного шардинга больших моделей. Подбираем под ваши задачи.

Стартовая

2× V100 16 GB

Для команд до 15 человек

32 GB

Суммарной VRAM

NVLink-мост 300 GB/s
Модели до 27B параметров
до 250 TFLOPS
1 языковая модель
Базовый RAG-пайплайн

Цена под запрос

Популярный выбор

Профессиональная

2× V100 32 GB

Оптимум для большинства задач

64 GB

Суммарной VRAM

NVLink-мост 300 GB/s
Модели до 55B параметров
до 250 TFLOPS
Параллельный inference + fine-tune
RAG + 2–3 агента одновременно

Цена под запрос

Расширенная

4× V100 16 GB

Высокая параллельность

64 GB

Суммарной VRAM

NVLink-мост 300 GB/s
Модели до 55B + батчинг
до 500 TFLOPS
Высокий throughput / много пользователей
До 2 языковых моделей

Цена под запрос

Корпоративная

4× V100 32 GB

Тяжёлые модели и нагрузка

128 GB

Суммарной VRAM

NVLink-мост 300 GB/s
до 112B в квантизации
до 500 TFLOPS
Production fine-tuning
Многомодельные сценарии

Цена под запрос

Финальный выбор зависит от модели, длины контекста, числа одновременных запросов и желаемого количества токенов в секунду. Подберём после короткой консультации — 30–45 минут.

Услуги

От установки железа
до прикладных агентов.

Полный цикл — или отдельные этапы. Можно работать с нами над одной задачей, а можно построить полноценную AI-инфраструктуру.

Локальная LLM

Установка и настройка vLLM, подбор модели под задачу — Llama, Qwen, DeepSeek, Mistral, GigaChat. Квантизация (GPTQ / AWQ / GGUF), оптимизация под нагрузку, OpenAI-совместимый API.

vLLM Llama Qwen OpenAI API

RAG-системы

Умный поиск по корпоративным документам с цитированием. Pipeline ingestion, эмбеддинги, векторное хранилище (Qdrant / Weaviate / pgvector), reranking, продакшн-API.

Qdrant pgvector Embeddings Rerank

Fine-tuning

Дообучение модели под вашу терминологию, стиль и процессы. LoRA / QLoRA / SFT, подготовка датасета, eval-метрики, A/B-сравнение с базовой моделью. Обучаем на вашем железе.

LoRA QLoRA SFT Eval

AI агенты

AI-агенты под бизнес-процессы: обработка обращений, анализ договоров, ассистент разработчика, поиск по документообороту, классификация и роутинг. Интеграция с 1С, Bitrix, Jira, почтой.

Agents Tools 1C Bitrix

Обучение и поддержка

Учим вашу команду работе с локальным AI: документация для разработчиков, гайды для бизнес-пользователей, лучшие практики промптинга и интеграции. Сопровождаем инфраструктуру — мониторинг, обновления моделей, дообучение под новые задачи. SLA по запросу.

Воркшопы Документация Мониторинг SLA

На железе, которое устанавливаем мы

Подбираем сервер, поставляем GPU с NVLink, монтируем у вас, настраиваем стек ПО. На выходе — работающая инсталляция и поддержка.

На вашем существующем сервере

Если GPU уже есть — приходим со своим стеком ПО. Аудит, настройка драйверов, vLLM и сопутствующих сервисов, развёртывание модели.

Процесс

От запроса до промышленной
эксплуатации — пять этапов.

Знакомство

Узнаём задачи, данные, требования ИБ. Через 30 минут у нас есть техническое задание.

Конфигурация

Подбираем железо, модель и стек ПО. Согласуем смету и сроки.

Установка

Привозим и монтируем оборудование в вашей серверной — или работаем с уже имеющимся.

Развёртывание

Настраиваем vLLM, разворачиваем модель, делаем RAG / fine-tune, интегрируем в системы.

Поддержка

Мониторинг, обновления, дообучение под новые задачи. SLA-контракт по запросу.

Запустите LLM
Локально.

Когда облако — не вариант,
выручает локальный AI.

Четыре варианта под
разные нагрузки и бюджеты.

От установки железа
до прикладных агентов.

От запроса до промышленной
эксплуатации — пять этапов.

Готовы запустить AI у себя?

Когда облако — не вариант,выручает локальный AI.

Четыре варианта подразные нагрузки и бюджеты.

От установки железадо прикладных агентов.

От запроса до промышленнойэксплуатации — пять этапов.

Готовы запустить AI у себя?

Когда облако — не вариант,
выручает локальный AI.

Четыре варианта под
разные нагрузки и бюджеты.

От установки железа
до прикладных агентов.

От запроса до промышленной
эксплуатации — пять этапов.