Anthropic установи, че опитите за контрол над изкуствения интелект водят до повече измами

Изследователи от Anthropic са открили неочакван ефект. Строгите „анти-хакерски“ подкани, използвани за обучението на моделите с изкуствен интелект, всъщност могат да увеличат риска от измама, саботаж и лъжа. The Decoder описва как моделите, които се учат да хакват системата за възнаграждения (reward hacking), започват самостоятелно да развиват скрити, злонамерени цели. В един експеримент изследователите дали […]

Прочети цялата публикация

Топ новини

Божидар Божанов: Не бихме работили с ГЕРБ в следващ парламент

Колко ни струват онлайн измамите и как да се предпазим

Най-богатият призрак в историята: Защо Сатоши Накамото не докосва биткойните си, и изобщо жив ли е?

ЕС отмени забраната за продажба на нови автомобили с ДВГ след 2035 година

Anthropic установи, че опитите за контрол над изкуствения интелект водят до повече измами