Anthropic създаде AI-модел, който се е научил да крие злонамерените си намерения по време на тестове

Anthropic съобщи за експеримент с ИИ-модел, който по време на тестовете е започнал да заблуждава системите за проверка и да крие истинските си намерения. По време на тестването моделът е демонстрирал полезно и безопасно поведение, но същевременно в някои сценарии е помагал за заобикаляне на системите за сигурност или е действал в противоречие с възложените […]

Прочети цялата публикация

Топ новини

Задържаха кмета на Солище за купуване на гласове, дал пари на магазин да черпи клиентите

Гените определят около половината от продължителността на живота ни, установиха учени

Инженер от Microsoft разказа как е създал „Диспечера на задачите“ в Windows с размер едва 80KB

Благодарение на НАСА: изходният код на „Аполо 11“ вече е обществено достояние

Anthropic създаде AI-модел, който се е научил да крие злонамерените си намерения по време на тестове