Сальваторе Санфилиппо, известный как antirez, представил на GitHub новую реализацию инференса модели Voxtral Realtime 4B от Mistral, написанную на чистом C. Эта модель, содержащая 4 миллиарда параметров, преобразует речь в текст, обрабатывая аудио как с микрофона, так и из аудиофайлов, с возможностью сборки всего проекта с помощью одной команды make. Что примечательно, разработка не требует дополнительных зависимостей, таких как Python или PyTorch.
Voxtral Realtime 4B — современная speech-to-text модель на основе Ministral 3B и аудиоэнкодера Whisper large-v3, она допускает работу с аудио длительностью до 30 минут и контекстным окном в 32 000 токенов. Размер весов модели составляет порядка 8,9 ГБ, при этом доступ к ней предоставляется под лицензией Apache 2.0. Официально Mistral предлагает использовать её с помощью vLLM — обширного ML-стека на Python, однако реализация antirez позволяет обойтись без него.
Проект поддерживает ускорение работы на Apple Silicon через Metal Performance Shaders и OpenBLAS для Linux. Кроме обработки файлов, voxtral.c может захватывать звук в реальном времени на macOS и принимать аудио через stdin, что позволяет использовать различные форматы через ffmpeg. В репозитории также доступна референсная реализация на Python для облегчения понимания структуры модели без глубокого погружения в код vLLM. Это третий проект antirez в рамках разработки f7007;ИИ на чистом Cf816d;, следуя традициям минимализма, заложенным в llama2.c Андреем Карпати.
tasani.ru