Microsoft Research представила VibeVoice-ASR – мощную модель для распознавания речи

Microsoft Research выпустила в открытый доступ модель VibeVoice-ASR, предназначенную для распознавания речи с разделением на спикеров. Я, Илья, основатель ArtGeneration.me и блогер, создал портативную версию данной технологии для Windows и провёл различные тесты. Используя Whisper для транскрипций, я искал модели с лучшим качеством, и VibeVoice ASR превзошла мои ожидания.

Эта система может обрабатывать до 60 минут аудио за один раз, сохраняя связность контекста, в отличие от Whisper, который делит записи на короткие фрагменты. Основой модели является архитектура Qwen 2.5, поддерживающая уникальную систему токенизации. Она предоставляет структурированные транскрипции с выделением спикеров и неречевых событий.

Основные возможности VibeVoice ASR включают обработку длинных записей, точные временные метки и поддержку 51 языка, включая русский. Также доступны модели для различных видеокарт. К сожалению, система не идеально справляется с перекрывающейся речью и короткими фрагментами. Тем не менее, инструмент полезен для подкастеров, создателей контента и бизнес-аналитиков. Портативная версия включает русский интерфейс и настройку необходимых параметров. Поделитесь своими идеями по использованию инструмента в комментариях!

Помогите проекту, поделитесь с друзьями ;)

Добавить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Microsoft Research представила VibeVoice-ASR – мощную модель для распознавания речи

Добавить комментарий Отменить ответ

Рубрики

Новинки от садовника

Садовые фонтаны для дачи — советы по выбору и применению в дизайне сада и участка. 135 фото лучших вариантов размещения современных фонтанов

Рейтинг беспроводных наушников по отзывам пользователей

Средство от сорняков: советы по выбору современного метода борьбы. 100 фото проверенных способов борьбы с сорняками

Водопад на даче: инструкция по возведению и обустройству

5 самых провальных смартфонов 2025 года: выбираем альтернативы