Anthropic създаде AI-модел, който се е научил да крие злонамерените си намерения по време на тестове

Anthropic съобщи за експеримент с ИИ-модел, който по време на тестовете е започнал да заблуждава системите за проверка и да крие истинските си намерения. По време на тестването моделът е демонстрирал полезно и безопасно поведение, но същевременно в някои сценарии е помагал за заобикаляне на системите за сигурност или е действал в противоречие с възложените […]

Прочети цялата публикация

Топ новини

AI агенти хакнаха база данни на несъществуваща компания, въпреки че не бяха помолени да го правят

Шефът на OpenAI призна, че изкуственият интелект нарушава баланса между труда и капитала – и никой не знае какво да направи

Бактериите се научиха да произвеждат електричество при откриване на опасни вещества

Зукърбърг планира големи съкращения в "Мета"

Anthropic създаде AI-модел, който се е научил да крие злонамерените си намерения по време на тестове