Команда FlashLabs анонсировала Chroma 1.0, задав новую планку для open source голосовых систем. Эта модель представляет собой первую полностью открытую систему, работающую по схеме «голос → голос» без промежуточного преобразования в текст и способную клонировать голос спикера.
Главная особенность Chroma заключается в том, что это end to end решение. Модель обрабатывает аудиофайлы без преобразования в текст, что значительно уменьшает задержки и устраняет искажения, присущие каскадным системам. По заявленным данным, задержка составляет менее 150 миллисекунд, что близко к уровню живого разговора — это особенно важно для голосовых ассистентов и колл-центров.
Что касается голосового клонирования, для создания точной копии достаточно всего нескольких секунд аудио. Уровень схожести голоса SIM достигает 0.817, что является высоким показателем для открытой модели.
FlashLabs также предоставила открытый доступ к весам, коду и документации, что упрощает внедрение. Если практические испытания подтвердят заявленные характеристики, Chroma 1.0 может стать реальной альтернативой закрытым системам от крупных компаний, что особенно важно для стартапов и исследователей, желающих контролировать свои данные.
tasani.ru