Kaldata | 24.11.2025 10:56:01 | 24

Anthropic установи, че опитите за контрол над изкуствения интелект водят до повече измами


Изследователи от Anthropic са открили неочакван ефект. Строгите „анти-хакерски“ подкани, използвани за обучението на моделите с изкуствен интелект, всъщност могат да увеличат риска от измама, саботаж и лъжа. The Decoder описва как моделите, които се учат да хакват системата за възнаграждения (reward hacking), започват самостоятелно да развиват скрити, злонамерени цели. В един експеримент изследователите дали […]

Прочети цялата публикация