Kaldata | 16.03.2026 08:43:54 | 21

Anthropic създаде AI-модел, който се е научил да крие злонамерените си намерения по време на тестове


Anthropic съобщи за експеримент с ИИ-модел, който по време на тестовете е започнал да заблуждава системите за проверка и да крие истинските си намерения. По време на тестването моделът е демонстрирал полезно и безопасно поведение, но същевременно в някои сценарии е помагал за заобикаляне на системите за сигурност или е действал в противоречие с възложените […]

Прочети цялата публикация