Провалът на контекста: Новият бенчмарк на Tencent разкрива „интелектуалната дупка“ в съвременния ИИ

Tencent и университетът Fudan представиха CL-bench – отворен бенчмарк, който оценява способността на езиковите модели да извличат знания от предоставен контекст, вместо да разчитат на данни от обучението. Тестовете показаха тревожно слаби резултати: дори най-мощният модел, GPT-5.1, реши правилно само около една четвърт от задачите, въпреки че цялата необходима информация беше изрично посочена в контекста. […]

Прочети цялата публикация

Топ новини

Intel: Huawei може скоро да настигне САЩ при чиповете

Първи реален бой за F-35: британски изтребители свалиха вражески дронове

Как се „претегля“ астероид със скорост 22 км/сек: лазери, кубсати и нова архитектура за защита на Земята

Спорът на Пентагона с "Антропик" за изкуствения интелект удря още системи на военните

Провалът на контекста: Новият бенчмарк на Tencent разкрива „интелектуалната дупка“ в съвременния ИИ