Рекордные результаты Claude Opus 4.5 в тестах METR

Организация METR, занимающаяся оценкой ИИ, обнародовала результаты тестирования модели Claude Opus 4.5 от компании Anthropic. Эта модель продемонстрировала рекордный 50%-горизонт в 4 часа 49 минут, что значительно превышает предыдущий рекорд GPT-5.1-Codex-Max от OpenAI, который составил 2 часа 53 минуты. METR оценивает не точность ответов, а способность ИИ выполнять задачи без помощи человека. За последние годы этот показатель удвоился каждые 7 месяцев, начиная с нескольких секунд у GPT-2 в 2019 году. Однако исследователи предостерегают от излишнего оптимизма: доверительный интервал результатов составляет от 1 часа 49 минут до 20 часов 25 минут. При более строгом подходе – 80% успешности – Opus 4.5 показывает только 27 минут, сопоставимые с предыдущими моделями. Если текущий тренд продолжится, к концу десятилетия ИИ сможет выполнять проекты длительностью в месяц, но методология METR имеет свои ограничения.

Помогите проекту, поделитесь с друзьями ;)

Добавить комментарий