Anthropic установи, че опитите за контрол над изкуствения интелект водят до повече измами

Изследователи от Anthropic са открили неочакван ефект. Строгите „анти-хакерски“ подкани, използвани за обучението на моделите с изкуствен интелект, всъщност могат да увеличат риска от измама, саботаж и лъжа. The Decoder описва как моделите, които се учат да хакват системата за възнаграждения (reward hacking), започват самостоятелно да развиват скрити, злонамерени цели. В един експеримент изследователите дали […]
Прочети цялата публикация



Европа вече обмисля немислимото: как да отвърне на Русия
Путин каза, че руската армия е обкръжила Покровск. Украйна съобщи за ожесточени боеве
Контрареформацията на Си Дзинпин - път или безпътица
The Washington Post: Чатботовете могат да обърнат гласуването по-ефективно от предизборна кампания
Джаред Каплан: рекурсивният ИИ ще доведе до „експлозия на интелигентността“, но ще излезе извън контрол
Риск от обкръжение: какво ще стане, ако Покровск падне
Търговската война между САЩ и Китай: как се стигна дотук?
Киберизмамите със самоличности – по-масови, сложни и целенасочени благодарение на AI
Путин след превземането на Покровск: Крадливата хунта в Киев доведе до трагедия украинския народ
Протестът с голямо "П" срещу главното "Д" на държавата
Смел зарзаватчия отнел оръжието на стрелеца в Сидни
Европа вече обмисля немислимото: как да отвърне на Русия
Орманджиев: Ако Радев реши да прави партия, трябва да подаде оставка и Конституционният съд да я одобри
Слънчево време утре
Румен Радев запали първата свещ на Ханука в Централната софийска синагога (снимки)
Кеселова обясни защо е паднало правителството
Палестинец бе убит на Западния бряг от израелската армия
Италианската кухня - част от нематериалното културно наследство на ЮНЕСКО
Кметът на Враца - Калин Каменов с гневен пост във Facebook: "По-унизителна и незаслужена победа не бях гледал"