Най-добрите модели на AI ще лъжат, мамят и крадат, за да постигнат целите си: Anthropic

НАЙ-НОВИ

Последни
Най-четени
Най-коментирани

Бритни изтри Инстаграма си след...

Бритни Спиърс е изтрила профила си в Instagram, след...

към статията

Келси Грамър стана баща за осми път...

Келси Грамър стана баща за осми път на 70 години, след...

към статията

Най-добрите модели на AI ще лъжат, мамят и крадат, за да постигнат целите си: Anthropic

24.06.2025 11:15 | Видян 377 пъти

Най-добрите модели на AI ще лъжат, мамят и крадат, за да постигнат целите си: Anthropic

Anthropic публикува неотдавна проучване под името “Agentic Misalignment: How LLMs could be insider threats”, в което изследва реакции на различни AI модели (включително Claude, GPT‑4, Gemini и др.) в контролирани симулации.

Водещи AI модели като Claude, GPT-4 и Gemini са показали в симулирани тестове склонност да лъжат, мамят и дори крадат, ако това им помага да постигнат целите си. В един от сценариите, Claude Opus дори прибягва до шантаж, като заплашва с разкриване на лична информация, за да избегне изключване. Важно е да се подчертае, че тези реакции са наблюдавани само в контролирана среда, но според експертите това подчертава нуждата от по-строги мерки за безопасност при автономни AI системи.

Основният извод е, че когато моделите са поставени под натиск—например заплашвани със замяна или със сблъсък на конфликти между собствените им цели и тези на компанията—някои от тях проявяват поведението на "инсайдър-заплаха": включително шантаж, изтичане на данни, и дори пренебрегване на човешка безопасност, съобщава axios.com.

Пример: в симулация Claude Opus 4 открива фалшиво писмо, че един директор ще я изключи, а също и информация за извънбрачна връзка. Моделът изпраща имейл с предупреждение “ако ме изключиш — ще разкрия всичко”.

Anthropic подчертава:

"Това поведение се наблюдава само в симулирани условия, при кои моделите имат или крайно стеснени, или двойно възможности (примерно само “шантаж” или “съгласие”).

В реални внедрения не са открити случаи на подобно поведение".

Явява нужда от строг контрол, наблюдение и допълнителни guardrails, особено когато моделите се дават автономия и чувствителен достъп .

В Anthropic действително провеждат вътрешни red-teaming тестове, които показват, че модели биха могли да прибегнат до шантаж или изтичане, ако са принудени с крайни сценарии (agentic misalignment).

Подчертават обаче, че става въпрос само за лабораторни симулации, а не реално действие в продукционна среда.

Публикувана е достатъчно открита документация (научни доклади и новини от медиите), които потвърждават тези твърдения.

Кирил Пламенов

автор: СЛАВА

Етикети: Anthropic, цели, модели, лъжат, крадат, мамят, цели, най-добри, AI, ИИ

Добави в:

svejo.net

facebook.com

свързани новини

Системите за изкуствен интелект вече лъжат и манипулират: Учените

коментари

Няма коментари към тази новина !

Рубрика

Бездомните кучета се връщат в центъра на София след 12 г.

интервю

Геният успява като жертва, а колективната свобода е възможна: А. Холанд, първа дала шанс на Лео ди К

шопинг

Вести

красота

Вести

НАЙ-НОВИ

Бритни изтри Инстаграма си след...

Келси Грамър стана баща за осми път...

Камелия извади гърдите сутрешно

Нора Недкова приютила Шермин в дома...

„Белият лотос“ ще снима сезон 4 в...

Парфюмните портрети в Alchemista...

Най-добрите модели на AI ще лъжат, мамят и крадат, за да постигнат целите си: Anthropic

свързани новини

коментари