Провалът на контекста: Новият бенчмарк на Tencent разкрива „интелектуалната дупка“ в съвременния ИИ

Tencent и университетът Fudan представиха CL-bench – отворен бенчмарк, който оценява способността на езиковите модели да извличат знания от предоставен контекст, вместо да разчитат на данни от обучението. Тестовете показаха тревожно слаби резултати: дори най-мощният модел, GPT-5.1, реши правилно само около една четвърт от задачите, въпреки че цялата необходима информация беше изрично посочена в контекста. […]
Прочети цялата публикация



Казахстан представи проект за нова конституция
Хелена Бонам Картър е сред новите попълнения в "Белият лотос" 4
Ексклузивният сериал „Нула Нула Нула“ разплита наркомрежата в Европа от 2 февруари по bTV
Камен Донев: Няма човек в политиката, който да ме е впечатлил (ВИДЕО)
Нов етап в политическото развитие на Казахстан
Ford Mustang Dark Horse SC е зловещо компресорно спортно купе
LG Electronics представи Affectionate Intelligence в действие на CES 2026
Нов етап за Пирин Благоевград - клубът има нов собственик
Каква е истинската цел на САЩ в Гренландия?
Казусът с руските активи показа, че проблемът на ЕС е не Белгия, а Тръмп
Унгария забрани на трима украински военни да влизат в страната
Историята, която започва с ужас, но завършва с чудо
Вижте на живо Церемонията по награждаване на Arhinova Arhitecture Awards 2025
Извънредно: Пожар изпепели плажен бар в Слънчев бряг
Разследват NIKE за дискриминация срещу бели служители
Бивш зам. земеделски министър: През 2022 г. отказахме споразумение с НАКЗТ
Държавният план-прием за учебната 2026/2027 г. бе съгласуван от Комисията по заетост към Областния съвет за развитие
Полицията във Варна задържа мъж, в дома му открили 5 вида наркотици
"Пресечна точка": За промените в Изборния кодекс и закриването на детската хирургия във Варна
КЕВР за сигналите за завишени сметки за ток: Ще проверяват превалутирането на сметките