Недавно Apple опубликовала научную работу, в которой исследуется, как большие языковые модели (LLM) могут анализировать аудиоданные и данные о движении для определения активности пользователя. В статье «Использование LLM для последующего объединения мультимодальных данных датчиков для распознавания активности» обсуждается потенциал интеграции ИИ-моделей с традиционными данными от датчиков, что может повысить точность распознавания активности. Исследователи отметили, что LLM хорошо справляются с классификацией действий, даже без специального обучения, а при наличии одного примера точность значительно возрастает. В исследовании использовался набор данных Ego4D, содержащий записи повседневных активностей. Сравнение производительности LLM (Gemini-2.5-pro и Qwen-32B) показало, что они значительно превосходят базовые модели с одним типом данных, особенно в сложных сценариях, что подтверждает их универсальность и способность к анализу мультимодальных данных.
Помогите проекту, поделитесь с друзьями ;)
tasani.ru