Новият ИИ-модел на DeepSeek ще направи работата с дълъг контекст два пъти по-евтина и бърза

Инженерите на DeepSeek представиха нов експериментален модел, V3.2-exp, който осигурява наполовина по-ниска цена на инференса и значително ускорение за сценариите с дълъг контекст. „Като междинна стъпка към архитектурата от следващо поколение, V3.2-Exp допълва V3.1-Terminus, като въвежда DeepSeek Sparse Attention — механизъм за разредено внимание, предназначен да изследва и валидира оптимизациите за ефективност на обучението и […]

Прочети цялата публикация

Топ новини

Сайтът на Софийския университет е уязвим към кражба на данни поради липса на HTTPS

С помощта на Google Translate инспектори на ДАИ са поискали подкуп от екипа на Роби Уилямс

Въвели ли сте думата „секс“ в търсачката? Поздравления, името ви вече е в списъка на „потенциалните извършители на престъпления“

Първи сняг заваля над Мусала (ВИДЕО)

Новият ИИ-модел на DeepSeek ще направи работата с дълъг контекст два пъти по-евтина и бърза