Команда исследователей из Meta AI создала модель обработки изображений под названием Pixio, которая обучается за счет реконструкции пикселей. Несмотря на простоту подхода и меньшее количество параметров, Pixio превосходит более сложные методы, такие как DINOv3. Обучение моделей ИИ обычно включает скрытие частей изображения, что позволяет им заполнять недостающие области, изучая формы и цвета объектов, однако Pixio продемонстрировала, что более простой метод может быть эффективнее.
Модель способна не только восстанавливать текстуры, но и распознавать симметричные цветовые узоры и отражения. Она использует усовершенствованный декодер и увеличенные замаскированные области, что помогает моделям лучше понимать изображения. Команда обучила Pixio на двух миллиардах изображений, избегая оптимизации для определенных наборов данных, что повысило универсальность модели.
Хотя метод имеет свои ограничения, исследователи рассматривают возможность использования видео для дальнейшего обучения, что обеспечит более естественный процесс понимания изображений. Код уже доступен на GitHub.
tasani.ru
