Новият ИИ-модел на DeepSeek ще направи работата с дълъг контекст два пъти по-евтина и бърза

Инженерите на DeepSeek представиха нов експериментален модел, V3.2-exp, който осигурява наполовина по-ниска цена на инференса и значително ускорение за сценариите с дълъг контекст. „Като междинна стъпка към архитектурата от следващо поколение, V3.2-Exp допълва V3.1-Terminus, като въвежда DeepSeek Sparse Attention — механизъм за разредено внимание, предназначен да изследва и валидира оптимизациите за ефективност на обучението и […]
Прочети цялата публикация