BitcoinWorld
Patronus AI привлекает 50 000 000$ для создания «цифровых миров», где проводится стресс-тестирование ИИ-агентов
ИИ-агенты развиваются стремительно: от простых ответов на вопросы — к автономному выполнению сложных многоэтапных задач, таких как бронирование поездок или анализ финансовых данных. Но прежде чем этим агентам можно будет доверять в реальных приложениях, разработчикам необходима строгая уверенность в том, что они надёжно работают в бесчисленных сценариях. Patronus AI — стартап из Сан-Франциско, основанный в 2023 году бывшими исследователями Meta AI Анандом Каннаппаном и Ребеккой Цянь, — привлёк 50 000 000$ в рамках финансирования серии B для расширения своего решения: симулированных цифровых сред, проводящих стресс-тестирование ИИ-агентов после обучения.
Patronus AI создаёт то, что компания называет «моделями цифрового мира», — копии веб-сайтов и внутренних систем, в которых агенты тестируются с использованием обучения с подкреплением. Этот процесс итеративно поощряет успешное выполнение задач и наказывает за ошибки, позволяя ИИ учиться на своих ошибках в безопасной, контролируемой среде. Компания сравнивает свой подход с тем, как Waymo обучал автономные транспортные средства с помощью синтетических миров для симуляции редких опасностей, например сильного снегопада или ребёнка, бегущего за мячом. Для ИИ-агентов задача иная: они нередко находят обходные пути, из-за которых тонко проваливают выполнение задач.
Раунд серии B возглавила Greenfield Partners при участии Notable Capital, Lightspeed, Datadog и Samsung, в результате чего общий объём финансирования Patronus достиг 70 000 000$. По словам Гленна Соломона, управляющего директора Notable Capital, спрос на симулированные среды Patronus «практически ненасытен». Выручка стартапа выросла в 15 раз за прошедший год, что отражает высокий интерес как со стороны передовых ИИ-лабораторий, так и со стороны молодых стартапов. «Patronus очень хорошо умеет выявлять уловки и обеспечивать ответственность моделей», — сказал Соломон.
Традиционные бенчмарки зачастую не способны отразить, как ИИ-агент будет справляться со сложными реальными задачами. Patronus стремится заполнить этот пробел, предоставляя среды, в которых агенты могут тестироваться на протяжении длительного времени — часов, дней или даже недель. Сейчас компания сосредоточена на разработке программного обеспечения и финансах, однако планирует выйти в области, которые сложнее верифицировать, — например, творческие задачи или принятие открытых решений. «Сегодня мы очень сосредоточены на верифицируемых проблемах, — сказал Каннаппан, — но существует огромное количество областей, которые совершенно не поддаются верификации».
Patronus считает своими основными конкурентами внутренние команды по оценке в крупных ИИ-лабораториях. В то время как компании по работе с данными, такие как Mercor и Surge, помогают с обучением с подкреплением через обратную связь от людей, Patronus работает без какого-либо участия человека в процессе оценки. Этот полностью автоматизированный подход обеспечивает масштабируемое и последовательное тестирование, способное выявлять граничные случаи и неожиданное поведение.
Последний раунд финансирования Patronus AI свидетельствует о растущей уверенности инвесторов в необходимости строгой автоматизированной оценки ИИ-агентов. По мере того как агенты становятся всё более автономными и встраиваются в критически важные задачи, инструменты, обеспечивающие их надёжность, будут незаменимы. Модели цифрового мира компании предлагают многообещающий путь к более безопасному и надёжному внедрению ИИ в различных отраслях.
В1: Каков основной продукт Patronus AI?
Patronus AI создаёт симулированные цифровые среды — так называемые «модели цифрового мира», — которые тестируют ИИ-агентов после обучения. Эти копии веб-сайтов и внутренних систем позволяют агентам отрабатывать сложные задачи и оцениваться по критерию надёжности.
В2: Чем Patronus AI отличается от традиционных бенчмарков для ИИ?
Традиционные бенчмарки измеряют производительность на конкретных задачах, но не отражают того, как агент справляется с реальной сложностью, включая неожиданные сценарии или обходные пути. Patronus использует обучение с подкреплением в симулированных средах для более тщательного стресс-тестирования агентов.
В3: Кто является клиентами Patronus AI?
Клиенты стартапа включают передовые ИИ-лаборатории и молодые стартапы, в особенности те, которые создают агентов для разработки программного обеспечения и финансов. Компания планирует со временем расширить присутствие в других секторах.
Этот материал Patronus AI привлекает 50 000 000$ для создания «цифровых миров», где проводится стресс-тестирование ИИ-агентов впервые появился на BitcoinWorld.


