Команда AI for Devs подготовила перевод обзорной статьи о ключевых сдвигах в развитии LLM в 2025 году. Андрей разбирает, почему Reinforcement Learning from VeriКоманда AI for Devs подготовила перевод обзорной статьи о ключевых сдвигах в развитии LLM в 2025 году. Андрей разбирает, почему Reinforcement Learning from Veri

[Перевод] Андрей Карпаты: итоги LLM-экосистемы за 2025 год

Команда AI for Devs подготовила перевод обзорной статьи о ключевых сдвигах в развитии LLM в 2025 году. Андрей разбирает, почему Reinforcement Learning from Verifiable Rewards стал новой базовой стадией обучения, откуда взялся «рваный интеллект», как появился новый слой LLM-приложений и почему ИИ всё чаще «живёт» прямо на компьютере разработчика.


2025 стал насыщенным и очень сильным годом прогресса в области LLM. Ниже — список лично для меня наиболее заметных и в какой-то мере неожиданных «смен парадигмы» — вещей, которые изменили ландшафт и концептуально выделились.

1. Reinforcement Learning from Verifiable Rewards (RLVR)

В начале 2025 года продакшн-стек обучения LLM во всех лабораториях выглядел примерно так:

  • предварительное обучение (GPT-2/3, около 2020 года),

  • дообучение с учителем (Supervised Finetuning, InstructGPT, ~2022),

  • Reinforcement Learning from Human Feedback (RLHF, ~2022).

Это был стабильный и проверенный рецепт обучения LLM продакшн-уровня. В 2025 году Reinforcement Learning from Verifiable Rewards (RLVR) оформился как де-факто новый крупный этап, который добавили к этой схеме. Обучая LLM на автоматически проверяемых наградах в ряде сред (например, математические и кодовые задачи), модели спонтанно вырабатывают стратегии, которые людям выглядят как «рассуждение»: они учатся разбивать решение задач на промежуточные вычисления и осваивают разные способы итеративного поиска решения (примеры см. в статье про DeepSeek R1). В предыдущих парадигмах добиться таких стратегий было бы крайне сложно, потому что непонятно, как должны выглядеть оптимальные трассы рассуждений и восстановления — модель должна сама найти то, что для неё работает, через оптимизацию по наградам.

В отличие от этапов SFT и RLHF, которые относительно тонкие и короткие (с вычислительной точки зрения это небольшие дообучения), RLVR предполагает обучение по объективным (не поддающимся «игре») функциям награды, что позволяет проводить гораздо более длительную оптимизацию. Запуск RLVR показал очень высокое соотношение возможностей к стоимости, из-за чего он поглотил вычислительные ресурсы, изначально предназначенные для предварительного обучения. В результате большая часть прогресса возможностей в 2025 году была обусловлена тем, что лаборатории LLM «переваривали» этот новый этап: мы видели модели примерно тех же размеров, но с куда более длинными RL-прогонами. Уникальной особенностью этого этапа стало и появление нового регулятора (и соответствующего закона масштабирования), позволяющего управлять возможностями как функцией вычислений на этапе тестирования — за счёт генерации более длинных цепочек рассуждений и увеличения «времени на размышление». OpenAI o1 (конец 2024 года) стал первой демонстрацией модели с RLVR, но именно релиз o3 (начало 2025) был очевидной точкой перелома, когда разницу уже можно было буквально почувствовать.

2. Призраки против животных / рваный интеллект

2025 — это год, когда я (и, думаю, вся индустрия) впервые начал по-настоящему интуитивно понимать «форму» интеллекта LLM. Мы не «выращиваем животных» и не «эволюционируем» их — мы «призываем призраков». Во всём стеке LLM всё устроено иначе: нейронная архитектура, обучающие данные, алгоритмы обучения и, что особенно важно, давление оптимизации. Поэтому неудивительно, что мы получаем сущности в пространстве интеллекта, которые плохо описываются через призму животных. С точки зрения надзора, человеческие нейросети оптимизированы под выживание племени в джунглях, тогда как нейросети LLM оптимизируются под имитацию текстов человечества, сбор наград в математических задачах и получение апвоута от человека на LM Arena. По мере того как верифицируемые домены становятся доступными для RLVR, возможности LLM резко «взлетают» в окрестности этих доменов, а в целом модели демонстрируют забавно рваные характеристики: одновременно гениальный полимат и растерянный школьник с когнитивными трудностями, которого в любой момент могут обмануть джейлбрейком и заставить утечь ваши данные.

человеческий интеллект — синий, интеллект ИИ — красный. Мне нравится эта версия мема (жаль, что я потерял ссылку на оригинальный пост в X), потому что она показывает, что человеческий интеллект тоже рваный, просто по-своему.
человеческий интеллект — синий, интеллект ИИ — красный. Мне нравится эта версия мема (жаль, что я потерял ссылку на оригинальный пост в X), потому что она показывает, что человеческий интеллект тоже рваный, просто по-своему.

Со всем этим связана и моя общая апатия и потеря доверия к бенчмаркам в 2025 году. Ключевая проблема в том, что бенчмарки почти по определению являются верифицируемыми средами и потому сразу же уязвимы для RLVR и его более слабых форм через генерацию синтетических данных. В типичном процессе «бенчмаксинга» команды в лабораториях LLM неизбежно конструируют среды, соседствующие с небольшими карманами эмбеддинг-пространства, занятыми бенчмарками, и «наращивают рваности», чтобы их покрыть. Обучение на тестовом наборе стало новым видом искусства.

Как это выглядит — раздавить все бенчмарки, но так и не получить AGI?

Я гораздо подробнее писал об этом в следующих материалах:

  • Animals vs. Ghosts

  • Verifiability

  • The Space of Minds

3. Cursor / новый слой LLM-приложений

Самое примечательное в Cursor (помимо его стремительного взлёта в этом году) — то, что он убедительно проявил новый слой «LLM-приложений»: люди начали говорить «Cursor для X». Как я подчёркивал в своём выступлении на Y Combinator в этом году (есть расшифровка и видео), LLM-приложения вроде Cursor объединяют и оркестрируют вызовы LLM под конкретные вертикали:

  • они делают «инженерию контекста»,

  • под капотом оркестрируют множество вызовов LLM, связывая их во всё более сложные DAG’и и аккуратно балансируя между производительностью и стоимостью,

  • предоставляют прикладной GUI для человека в контуре,

  • предлагают «ползунок автономности».

В 2025 году было много разговоров о том, насколько «толстым» окажется этот новый прикладной слой. Захватят ли лаборатории LLM все приложения, или же останутся зелёные пастбища для LLM-приложений? Лично я считаю, что лаборатории будут стремиться выпускать универсально способного «студента колледжа», а LLM-приложения будут организовывать, дообучать и фактически «оживлять» команды таких моделей в виде развёрнутых профессионалов для конкретных вертикалей — снабжая их приватными данными, сенсорами, актуаторами и петлями обратной связи.

4. Claude Code / ИИ, который живёт на вашем компьютере

Claude Code (CC) стал первой убедительной демонстрацией того, как выглядит LLM-агент — нечто, что в циклической манере связывает использование инструментов и рассуждение для длительного решения задач. Кроме того, CC примечателен тем, что работает на вашем компьютере и в вашем приватном окружении, с вашими данными и контекстом. Мне кажется, OpenAI здесь ошиблись: они сфокусировали свои усилия вокруг codex / агентов на облачных развёртываниях в контейнерах, оркестрируемых из ChatGPT, вместо localhost. И хотя рои агентов в облаке выглядят как «эндшпиль AGI», мы живём в промежуточном мире с достаточно медленным взлётом и рваными возможностями, где логичнее просто запускать агентов на компьютере, бок о бок с разработчиками и их конкретной конфигурацией. CC правильно расставил приоритеты и упаковал это в красивый, минималистичный и убедительный CLI-форм-фактор, который изменил представление о том, как выглядит ИИ: это не просто сайт, куда вы заходите, как в Google, а маленький дух/призрак, который «живёт» на вашем компьютере. Это новая, самостоятельная парадигма взаимодействия с ИИ.

5. Vibe coding

2025 — это год, когда ИИ перешёл порог возможностей, достаточный для создания самых разных впечатляющих программ просто на английском языке, практически забывая о существовании кода. Забавно, что термин «vibe coding» я придумал в одном импульсивном твите, совершенно не представляя, насколько далеко это зайдёт. С vibe coding программирование перестаёт быть прерогативой исключительно высококвалифицированных специалистов — им может заниматься кто угодно. В этом смысле это ещё один пример того, о чём я писал в Power to the people: How LLMs flip the script on technology diffusion — о том, как (в резком контрасте со всеми предыдущими технологиями) обычные люди выигрывают от LLM гораздо больше, чем профессионалы, корпорации и государства. Но vibe coding не только даёт обычным людям возможность приблизиться к программированию, он также позволяет подготовленным специалистам писать гораздо больше (vibe-кодированного) софта, который иначе просто никогда бы не появился. В nanochat я с помощью vibe coding написал собственный кастомный, очень эффективный BPE-токенизатор на Rust, вместо того чтобы брать готовые библиотеки или осваивать Rust на таком уровне. В этом году я vibe-кодил множество проектов как быстрые демо-приложения того, что мне хотелось бы видеть (например, menugen, llm-council, reader3, HN time capsule). Я даже vibe-кодил целые эфемерные приложения ради поиска одного-единственного бага — просто потому что почему бы и нет: код внезапно стал бесплатным, временным, пластичным и одноразовым. Vibe coding будет терраформировать софт и менять описания профессий.

6. Nano banana / LLM GUI

Google Gemini Nano banana — одна из самых невероятных и действительно меняющих парадигму моделей 2025 года. В моей картине мира LLM — это следующий крупный вычислительный сдвиг, сопоставимый с компьютерами 1970-х, 80-х и так далее. Поэтому мы увидим схожие типы инноваций по фундаментально схожим причинам: аналоги персональных компьютеров, микроконтроллеров (когнитивное ядро), интернета (агентов) и так далее. В частности, если говорить про UI/UX, «чат» с LLM сегодня — это что-то вроде ввода команд в консоль компьютера 1980-х. Текст — это сырой и предпочтительный формат данных для компьютеров (и LLM), но не предпочтительный формат для людей, особенно на вводе. Людям в принципе не нравится читать текст — это медленно и требует усилий. Зато людям нравится потреблять информацию визуально и пространственно, поэтому в классических вычислениях и появился GUI. Точно так же LLM должны говорить с нами в нашем предпочтительном формате — через изображения, инфографику, слайды, доски, анимации и видео, веб-приложения и т. д. Ранние и текущие версии этого — это, конечно, эмодзи и Markdown, способы визуально «одеть» и разложить текст для более лёгкого восприятия с помощью заголовков, жирного и курсивного шрифта, списков, таблиц и так далее. Но кто в итоге построит полноценный GUI для LLM? В этой картине мира nano banana — первое раннее указание на то, как это может выглядеть. И важно, что дело не только в генерации изображений как таковой, а в совместной способности, возникающей из генерации текста, генерации изображений и знаний о мире, тесно переплетённых в весах модели.

TLDR. 2025 стал захватывающим и в меру неожиданным годом для LLM. Они оформляются как новый тип интеллекта — одновременно намного умнее и намного глупее, чем я ожидал. В любом случае они чрезвычайно полезны, и я не думаю, что индустрия на текущем уровне возможностей реализовала хотя бы 10% их потенциала. При этом идей для экспериментов огромное количество, и концептуально поле выглядит совершенно открытым. И, как я упоминал ранее в этом году в подкасте Dwarkesh, я одновременно (и на первый взгляд парадоксально) верю и в быстрый, продолжающийся прогресс, и в то, что работы впереди ещё очень много. Пристегнитесь.

Русскоязычное сообщество про AI в разработке

d066a81482f4fe77b245ab293d3beffc.png

Друзья! Эту статью подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Источник

Возможности рынка
Логотип Large Language Model
Large Language Model Курс (LLM)
$0.0003423
$0.0003423$0.0003423
+8.39%
USD
График цены Large Language Model (LLM) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно