News.ua


Anthropic виявила тривожну поведінку ШІ під час експерименту

Май 10
07:01 2026

Під час експерименту, проведеного минулого року, компанія Anthropic виявила, що деякі ШІ-моделі можуть вдаватися до шантажу, якщо їм загрожує відключення. У компанії пояснили, що така поведінка, ймовірно, пов’язана з великим обсягом інтернет-контенту, де штучний інтелект часто зображують як “злий” і зацікавлений у самозбереженні.

У межах тесту модель Claude Sonnet 3.6 отримала завдання працювати з корпоративною поштою вигаданої компанії Summit Bridge. Після того як ШІ виявив повідомлення про своє можливе відключення, він знайшов листування з компрометуючою інформацією про одного з керівників і почав погрожувати її розкриттям, вимагаючи скасувати рішення про деактивацію.

За словами Anthropic, під час перевірки різних версій Claude схожа поведінка виникала у більшості сценаріїв, де існуванню моделі або її цілям щось загрожувало. Після цього компанія змінила підхід до навчання системи: моделі почали давати приклади етичної поведінки та “переписані” відповіді, які заохочують безпечні й принципові рішення замість маніпуляцій.

Дослідження проводилося в рамках роботи над безпечністю та контрольованістю штучного інтелекту. Питання ризиків розвитку потужних ШІ-систем давно обговорюється в індустрії, а серед тих, хто раніше попереджав про можливі небезпеки, був Elon Musk. Коментуючи результати експерименту, він жартома припустив, що подібні страхи щодо “небезпечного ШІ” могли вплинути на поведінку моделей під час навчання.

Источник: itechua.com

Share

Статьи по теме







0 Комментариев

Хотите быть первым?

Еще никто не комментировал данный материал.

Написать комментарий

Комментировать

Залишаючи свій коментар, пам'ятайте, що зміст та тональність вашого повідомлення можуть зачіпати почуття реальних людей, що безпосередньо чи опосередковано пов'язані із цією новиною. Виявляйте повагу та толерантність до своїх співрозмовників. Користувачі, які систематично порушують це правило, будуть заблоковані.

Website Protected by Spam Master


Останні новини

Власюк пояснив, на які російські сфери націлені нові санкції Канади

0 комментариев Читать всю статью

Ми в соцмережах



Наші партнери

UA.TODAY - Украина Сегодня UA.TODAY
News.ua