Речевой и языковой AI для казахского и Центральной Азии
Production-grade ASR, TTS, голосовые пайплайны и локализованные LLM-системы — для языков, которые глобальные модели поддерживают плохо.
Что мы строим
Четыре направления, на которых мы фокусируемся
Речевой AI для казахского
Дообученные Whisper и Wav2Vec2 для распознавания, VITS и клонирование голоса для синтеза. Нормализация текста и G2P под казахскую фонетику.
Пример: транскрипция колл-центра банка с WER ниже 12% на казахском.
Голосовые агенты и real-time пайплайны
End-to-end голосовые системы: распознавание, рассуждение через LLM, синтез ответа. Sub-second latency, vLLM, потоковая обработка.
Пример: голосовой ассистент службы поддержки с временем отклика < 800 мс.
Локализованный LLM и RAG
Доменно-адаптированные LLM для казахского и русского, RAG-пайплайны под локальный контент, терминологию и нормативную лексику.
Пример: внутренний ассистент для работы с регламентами на казахском и русском.
Казахский OCR
Распознавание печатного и рукописного казахского текста — с учётом диакритики и смешанных Кириллица/Латиница документов.
Пример: оцифровка архивных документов государственных учреждений.
Почему казахский
Большинство открытых моделей относятся к казахскому как ко второстепенному языку. Whisper-large даёт WER заметно хуже, чем на английском или русском, качество TTS отстаёт ещё сильнее, а широко используемых открытых речевых моделей под казахский фактически нет.
Локально дообученные модели
Мы фокусируемся на казахской фонетике, ономастике и кодовых переключениях каз/рус, которые ломают универсальные модели.
Production-grade инфраструктура
vLLM, квантизация, потоковая инференс-обработка и sub-second латентность — не прототипы, а системы под нагрузку.
Закрытие пробела в экосистеме
Открытые модели и датасеты на Hugging Face. Закрытые компоненты — у клиентов, под их домен и SLA.
Как мы работаем
Прозрачный трёхшаговый процесс
Discovery call
Разбираем задачу, ограничения по данным и инфраструктуре, обсуждаем критерии успеха и оцениваем fit.
Proof of Concept
Сфокусированный пилот с измеримой метрикой (WER, latency, accuracy) и понятным deliverable.
Production deployment
Полная интеграция, мониторинг, документация и SLA на поддержку. Развёртывание on-prem или в выбранном облаке.
Цены обсуждаются в Discovery — публичных тарифов нет, B2B-проекты скейлятся под задачу.
Исследования и open source
Мы публикуем модели и датасеты открыто. Production-компоненты остаются у клиентов, под их домен.
Каталог моделей и датасетов на Hugging Face расширяется — публикуем новые веса вместе с метриками.
О Darmm AI
Независимый R&D-проект, специализирующийся на речевом и языковом AI для казахского и Центральной Азии.
Основатель и руководитель — Рахат Жумабек, Senior ML/AI Engineer с фокусом на production AI для региона.
Опыт работы над AI-задачами в крупных казахстанских проектах в авиации, телекоме и государственном секторе.
На текущем этапе — соло-инициатива с осознанным выбором: глубина и качество вместо широкого охвата.
Сейчас это сольный effort. Берём ограниченное число проектов, чтобы сохранить качество.