Kaldata | 05.02.2026 14:12:26 | 20

Провалът на контекста: Новият бенчмарк на Tencent разкрива „интелектуалната дупка“ в съвременния ИИ


Tencent и университетът Fudan представиха CL-bench – отворен бенчмарк, който оценява способността на езиковите модели да извличат знания от предоставен контекст, вместо да разчитат на данни от обучението. Тестовете показаха тревожно слаби резултати: дори най-мощният модел, GPT-5.1, реши правилно само около една четвърт от задачите, въпреки че цялата необходима информация беше изрично посочена в контекста. […]

Прочети цялата публикация