Microsoft Research выпустила в открытый доступ модель VibeVoice-ASR, предназначенную для распознавания речи с разделением на спикеров. Я, Илья, основатель ArtGeneration.me и блогер, создал портативную версию данной технологии для Windows и провёл различные тесты. Используя Whisper для транскрипций, я искал модели с лучшим качеством, и VibeVoice ASR превзошла мои ожидания.
Эта система может обрабатывать до 60 минут аудио за один раз, сохраняя связность контекста, в отличие от Whisper, который делит записи на короткие фрагменты. Основой модели является архитектура Qwen 2.5, поддерживающая уникальную систему токенизации. Она предоставляет структурированные транскрипции с выделением спикеров и неречевых событий.
Основные возможности VibeVoice ASR включают обработку длинных записей, точные временные метки и поддержку 51 языка, включая русский. Также доступны модели для различных видеокарт. К сожалению, система не идеально справляется с перекрывающейся речью и короткими фрагментами. Тем не менее, инструмент полезен для подкастеров, создателей контента и бизнес-аналитиков. Портативная версия включает русский интерфейс и настройку необходимых параметров. Поделитесь своими идеями по использованию инструмента в комментариях!
tasani.ru
