Провалът на контекста: Новият бенчмарк на Tencent разкрива „интелектуалната дупка“ в съвременния ИИ

Tencent и университетът Fudan представиха CL-bench – отворен бенчмарк, който оценява способността на езиковите модели да извличат знания от предоставен контекст, вместо да разчитат на данни от обучението. Тестовете показаха тревожно слаби резултати: дори най-мощният модел, GPT-5.1, реши правилно само около една четвърт от задачите, въпреки че цялата необходима информация беше изрично посочена в контекста. […]
Прочети цялата публикация



Новият треньор донесе късмет на Торино, Лацио изпадна в дупка
Изповед и обещание: Прея е по-уязвима от всякога в новата си песен (ВИДЕО)
Михаела Маринова сподели как и защо е станала ментор в "Като две капки вода" (ВИДЕО)
Проф. Марчев: Любовта е най-доброто хапче за здраве
AI започна да лъже, да мами и да прави картели – експериментът, който изплаши учените
Каква е тайната зад рекордите на Божидар Саръбоюков, разкрива самият той пред NOVA (видео)
Дамите в "Ергенът" ще обитават вилата на Жената чудо Гал Гадот (СНИМКИ)
Сузанита се показа с наедряло коремче, второ бебе ли очаква?
В Япония и Тайланд избират предсрочно парламент
Локомотив Пловдив с нов член на Съвета на директорите
Франция прие самолети на САЩ в базата "Истър", Испания праща фрегата в Средиземно море
Общински служители и пожарникари на курс за управление на дронове
От 1 юли пенсиите се увеличават със 7,8%
Българският футболен съюз сключи договор за партньорство
Андрей Гюров след Съвета по сигурността: България не е застрашена от военните действия
Язовир "Ясна поляна" е запълнен на 100% и прелива в рамките на допустимото
Корман Исмаилов: Ще бъде подписан договор за доставка на 91 пътнически вагона от Дойче бан
Ти нищо не знаеш, дядо Благоев!
Запрянов: Решението за разполагане на американските самолети беше взето по време на кабинета ''Желязков''
Главна дирекция "Национална полиция" с нов ръководител