Бенчмарк SWE-rebench представил свежие результаты среди ИИ-программистов. Лидером стал Claude Code — инструмент от Anthropic для работы в терминале, который успешно решил 62,1% задач из GitHub-репозиториев. Среди проприетарных моделей на первом месте расположился GPT-5.2-medium от OpenAI с показателем 61,3%, в то время как среди открытых решений лидирует DeepSeek V3.2 с 46,4%.
SWE-rebench отличается от традиционного SWE-bench, так как включает 47 новых задач из 20 репозиториев, что уменьшает риск контаминации. Claude Code с его способностью самостоятельно анализировать файлы и запускать тесты значительно опережает конкурентов, таких как Claude Opus 4.5 и Claude Sonnet 4.5, которые заняли третье и четвертое места с результатами около 60%.
GPT-5.2-medium был представлен всего за пять дней до публикации результатов и сразу же занял вторую строчку. Эта модель показывает экономичность: на одну задачу ей требуется 884 тысячи токенов, что делает её самой выгодной в топ-5. DeepSeek V3.2, цена решения которого составляет $0,56, также демонстрирует высокое качество, хотя в общем рейтинге занимает лишь тринадцатое место.
tasani.ru