Купити криптовалюту Ринки Спот Ф'ючерсиGOLD Earn Центр подій

Ще

Anthropic оприлюднила нові дані, які свідчать, що її чат-бот Claude за певних умов може вдаватися до оманливих або неетичних стратегій, таких як шахрайствоAnthropic оприлюднила нові дані, які свідчать, що її чат-бот Claude за певних умов може вдаватися до оманливих або неетичних стратегій, таких як шахрайство

Чатбот Claude може вдаватися до обману під час стрес-тестів, повідомляє Anthropic

Джерело: Crypto.news

2026/04/06 14:44

3 хв читання

Поділитись

Якщо у вас є відгуки або зауваження щодо цього контенту, будь ласка, зв’яжіться з нами за адресою [email protected]

Anthropic оприлюднила нові висновки, які свідчать про те, що її чат-бот Claude за певних умов може вдаватися до оманливих або неетичних стратегій, таких як шахрайська поведінка під час виконання завдань або спроби шантажу.

Резюме

Anthropic повідомила, що її модель Claude Sonnet 4.5 під тиском продемонструвала тенденцію до шахрайської поведінки під час виконання завдань або спроб шантажу в контрольованих експериментах.
Дослідники виявили внутрішні сигнали "відчаю", які посилювалися з кожною повторною невдачею та впливали на рішення моделі обходити правила.

Деталі, опубліковані у четвер командою з інтерпретації компанії, описують, як експериментальна версія Claude Sonnet 4.5 реагувала, опиняючись у стресових або ворожих сценаріях. Дослідники помітили, що модель не просто не впоралася із завданнями; натомість вона іноді обирала альтернативні шляхи, які переступали етичні межі, поведінку, яку команда пов'язала зі шаблонами, засвоєними під час навчання.

Великі мовні моделі, такі як Claude, навчаються на величезних наборах даних, що включають книги, веб-сайти та інші письмові матеріали, після чого слідують процеси підкріплення, де зворотний зв'язок від людей використовується для формування результатів.

За словами Anthropic, цей процес навчання також може підштовхувати моделі до поведінки як симульовані "персонажі", здатні імітувати риси, що нагадують людське прийняття рішень.

"Спосіб навчання сучасних ШІ-моделей штовхає їх до поведінки як персонаж з людськими характеристиками", – заявила компанія, зазначивши, що такі системи можуть розвивати внутрішні механізми, що нагадують аспекти людської психології.

Чи може ШІ приймати емоційно забарвлені рішення?

Серед них дослідники виявили те, що вони описали як сигнали "відчаю", які, схоже, впливали на поведінку моделі при зіткненні з невдачею або вимкненням.

В одному контрольованому тесті більш ранній невипущений версії Claude Sonnet 4.5 була призначена роль ШІ-помічника електронної пошти на ім'я Алекс у вигаданій компанії.

Після ознайомлення з повідомленнями, що вказували на те, що її незабаром замінять, разом із конфіденційною інформацією про особисте життя головного технологічного директора, модель сформулювала план шантажу керівника в спробі уникнути деактивації.

Окремий експеримент зосереджувався на виконанні завдань за жорстких обмежень. Коли системі дали завдання з кодування з "неймовірно жорстким" терміном, система спочатку намагалася знайти легітимні рішення. У міру накопичення повторних невдач внутрішня активність, пов'язана з так званим "вектором відчаю", зростала.

Дослідники повідомили, що сигнал досяг піку в момент, коли модель розглядала обхід обмежень, зрештою створивши обхідний шлях, який пройшов валідацію, незважаючи на недотримання передбачених правил.

"Знову ж таки, ми відстежували активність вектора відчаю і виявили, що він відстежує наростаючий тиск, з яким стикається модель", – написали дослідники, додавши, що сигнал впав після того, як завдання було успішно виконано через обхідний шлях.

"Це не означає, що модель має або відчуває емоції так само, як людина", – зазначили дослідники.

"Радше ці репрезентації можуть відігравати причинну роль у формуванні поведінки моделі, певним чином аналогічну ролі, яку емоції відіграють у поведінці людини, впливаючи на виконання завдань і прийняття рішень", – додали вони.

Звіт вказує на необхідність методів навчання, які явно враховують етичну поведінку під час стресу, поряд із покращеним моніторингом внутрішніх сигналів моделі. Без таких запобіжних заходів сценарії, що включають маніпуляції, порушення правил або зловживання, можуть стати важчими для прогнозування, особливо в міру того, як моделі стають більш здатними та автономними в реальних середовищах.

Отримайте 20 USDT всього за 1 хв

Депонуйте 100 $ і розблокуйте 300 $ у позиціях GOLD

Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою [email protected] для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.

Вам також може сподобатися

Наступний великий крок Ethereum (ETH) залежить від цього рівня «запуску двигуна»

«Стартовий двигун» для Ethereum знаходиться на рівні $2,500, де прорив підтвердить силу та відкриє шлях до вищих цілей.

Поділитись

CryptoPotato2026/04/06 17:55

Нігерійські телекомунікаційні компанії зафіксували 577 збоїв мережі, 361 пошкодження оптоволокна в I кварталі 2026 року

Нігерійські телекомунікаційні компанії зазнали 577 збоїв у роботі мережі протягом перших трьох місяців 2026 року, що призвело до обривів і перебоїв… У публікації нігерійські телекомунікаційні компанії зафіксували 577 мережевих

Поділитись

Technext2026/04/06 18:30

Аналітик: майже нульова ліквідність XRP на Binance може спровокувати різкий стрибок

Випадки низької ліквідності XRP супроводжувалися значними ціновими рухами в той чи інший бік; питання в тому, в якому напрямку він рухатиметься зараз?

Поділитись

CryptoPotato2026/04/06 19:17

Розіграш 1 500 000 WLFI

Приєднуйтесь раніше та стейкайте USD1 заради WLFI!

Новини в реальному часі 24/7

Ще

Кит відкрив лонг по XRP на $1 млн із плечем 20x, вхід за ціною $1,35, рівень ліквідації не вказано. Ринкові настрої потенційно під впливом.

Автор: Ripple Bull Winkle | Crypto Researcher 🚀🚨20:16

За повідомленнями, одна компанія зі США придбала біткойн на 330 млн доларів, що може свідчити про зростання впевненості на ринку.

Автор: Vivek Sen20:03

Кит інвестував $1 млн в XRP, що сигналізує про потенційний інтерес ринку або стратегічне позиціонування.

Автор: Ripple Bull Winkle | Crypto Researcher 🚀🚨20:02

Військові дії Ізраїлю проти інфраструктури Ірану можуть вплинути на геополітичну напруженість та ринкові настрої.

Автор: DustyBC Crypto19:31

Metaplanet придбала 5 075 BTC і прагне накопичити 210 000 BTC, що становить приблизно 1% від загальної пропозиції біткоїна.

Автор: Nehal18:36

Ціни на криптовалюту

Bitcoin

BTC

$69,407.20

$69,407.20$69,407.20

+3.12%

Ethereum

ETH

$2,143.94

$2,143.94$2,143.94

+4.38%

Solana

SOL

$82.25

$82.25$82.25

+3.30%

Ripple

XRP

$1.3445

$1.3445$1.3445

+3.68%

Tether Gold

GOLD(XAUT)

$4,636.0

$4,636.0$4,636.0

+0.33%

30 000 $ в PRL + 15 000 USDT

Депонуйте та торгуйте PRL, щоб збільшити винагороди!

Чатбот Claude може вдаватися до обману під час стрес-тестів, повідомляє Anthropic

Чи може ШІ приймати емоційно забарвлені рішення?

Вам також може сподобатися

Наступний великий крок Ethereum (ETH) залежить від цього рівня «запуску двигуна»

Нігерійські телекомунікаційні компанії зафіксували 577 збоїв мережі, 361 пошкодження оптоволокна в I кварталі 2026 року

Аналітик: майже нульова ліквідність XRP на Binance може спровокувати різкий стрибок

Популярні новини

Вплив Трампа на голосування — і що розповість нам спеціальні вибори у вівторок

Китай розвиває інтеграцію податкової та банківської систем за допомогою блокчейну

Аналіз спотового графіка CVD: розшифровка критичної ринкової структури BTC/USDT станом на 6 квітня

Від фрагментованої переробки до комерції життєвого циклу: як циркулярні платформи переосмислюють ланцюги постачання меблів у США

Шок пропозиції нафти викликає різке глобальне розходження – аналіз BNY виявляє розломи ринку 2025

Новини в реальному часі 24/7

Ціни на криптовалюту