Apple исследует применение больших языковых моделей для анализа аудиоданных

Недавно Apple опубликовала научную работу, в которой исследуется, как большие языковые модели (LLM) могут анализировать аудиоданные и данные о движении для определения активности пользователя. В статье «Использование LLM для последующего объединения мультимодальных данных датчиков для распознавания активности» обсуждается потенциал интеграции ИИ-моделей с традиционными данными от датчиков, что может повысить точность распознавания активности. Исследователи отметили, что LLM хорошо справляются с классификацией действий, даже без специального обучения, а при наличии одного примера точность значительно возрастает. В исследовании использовался набор данных Ego4D, содержащий записи повседневных активностей. Сравнение производительности LLM (Gemini-2.5-pro и Qwen-32B) показало, что они значительно превосходят базовые модели с одним типом данных, особенно в сложных сценариях, что подтверждает их универсальность и способность к анализу мультимодальных данных.

Помогите проекту, поделитесь с друзьями ;)

Добавить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Apple исследует применение больших языковых моделей для анализа аудиоданных

Добавить комментарий Отменить ответ

Рубрики

Новинки от садовника

Преимущества инфракрасной сауны в доме

ФАС запретила библиотеке закупку немецких сканеров

Google разрабатывает Aluminium: новая ОС для ноутбуков на базе Android

Вриезия: правила ухода и выращивания комнатного цветка. Особенности посадки и размножения вриезии (125 фото)

Обзор проектор Cube 2 Pro от Wanbo