DeepSeek, ведущая китайская компания в области искусственного интеллекта, представила VL-2 — новую модель искусственного интеллекта, объединяющую обработку визуальных и языковых данных. Эта разработка представляет собой сбалансированное сочетание мощности и эффективности, благодаря использованию архитектуры смешения экспертов (MoE). Такая структура позволяет модели активировать только необходимые подмодели для выполнения конкретных задач, оптимизируя использование вычислительных ресурсов.
VL-2 особенно эффективна в задачах, требующих глубокой связи между изображениями и текстом. Например, она демонстрирует выдающиеся результаты в преобразовании блок-схем в программный код, анализе изображений еды и интерпретации визуального юмора. Подход MoE разделяет модель на специализированные под-сети, что позволяет сократить вычислительную нагрузку, сохранив точность обработки.
DeepSeek предлагает несколько вариантов VL-2 с различной вычислительной сложностью. Минимальная версия VL-2 Tiny использует 1 миллиард параметров во время работы, в то время как модели Small и Large используют 2,8 миллиарда и 4,5 миллиарда параметров соответственно. Тестирование VL-2 Small уже доступно на платформе Hugging Face.
Применение VL-2 охватывает здравоохранение, образование и анализ данных. Она способна автоматизировать сложные рабочие процессы, улучшать пользовательский опыт и решать прикладные задачи в реальном мире. Например, в медицине модель может анализировать изображения для диагностики заболеваний, а в образовательной сфере — помогать студентам лучше понимать визуальные концепции и структурированную информацию.