Новые лидеры среди ИИ-программистов в SWE-rebench

Бенчмарк SWE-rebench представил свежие результаты среди ИИ-программистов. Лидером стал Claude Code — инструмент от Anthropic для работы в терминале, который успешно решил 62,1% задач из GitHub-репозиториев. Среди проприетарных моделей на первом месте расположился GPT-5.2-medium от OpenAI с показателем 61,3%, в то время как среди открытых решений лидирует DeepSeek V3.2 с 46,4%.

SWE-rebench отличается от традиционного SWE-bench, так как включает 47 новых задач из 20 репозиториев, что уменьшает риск контаминации. Claude Code с его способностью самостоятельно анализировать файлы и запускать тесты значительно опережает конкурентов, таких как Claude Opus 4.5 и Claude Sonnet 4.5, которые заняли третье и четвертое места с результатами около 60%.

GPT-5.2-medium был представлен всего за пять дней до публикации результатов и сразу же занял вторую строчку. Эта модель показывает экономичность: на одну задачу ей требуется 884 тысячи токенов, что делает её самой выгодной в топ-5. DeepSeek V3.2, цена решения которого составляет $0,56, также демонстрирует высокое качество, хотя в общем рейтинге занимает лишь тринадцатое место.

Помогите проекту, поделитесь с друзьями ;)

Добавить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Новые лидеры среди ИИ-программистов в SWE-rebench

Добавить комментарий Отменить ответ

Рубрики

Новинки от садовника

Какую выбрать обувь на дачу

Лестницы на заказ: элегантное решение для вашего дома

Обновление Chrome на iOS: новые элементы интерфейса

Новая видеокарта RTX 5080 с 32 ГБ памяти: ожидания и реальность

Преимущества и области применения мешочного фильтра