Nvidia пусна NVLM 1.0 – собствен мултимодален LLM, който в някои тестове превъзхожда GPT-4o
NVLM 1.0 (NVIDIA Vision Language Model) – това е семейство отворени мултимодални LLM, състоящи се от моделите NVLM-D (Decoder-only Model), NVLM-X (X-attention Model) и NVLM-H (Hybrid Model) на 34В и 72В. Моделите особено добре се представят на визуалните задачи. Например, в бенчмарка OCRBench, който проверява способността на моделите да четат текст от картинки, NVLM-D превъзхожда […]
Прочети цялата публикация