Китайская компания DeepSeek представила обновлённую языковую модель DeepSeek-V3-0324, доступную для использования на платформе Hugging Face. Модель построена на архитектуре MoE (Mixture of Experts — смесь экспертов) и содержит 236 миллиардов активируемых параметров (из общего количества в 685 миллиардов). Благодаря этой структуре модель активирует только часть параметров при каждом запросе, что позволяет значительно снизить вычислительные затраты без ущерба для качества генерации.
DeepSeek-V3-0324 была обучена на специально отобранных текстах на английском и китайском языках, что позволяет ей уверенно работать в двуязычной среде. Она продемонстрировала высокий уровень понимания контекста, способность к логическим рассуждениям и программированию, а также улучшенную точность при решении сложных задач.
Модель поддерживает функции чат-бота, генерацию и обработку текста, и может быть использована в различных прикладных сферах — от образования и исследований до создания интеллектуальных помощников и программной автоматизации. Благодаря открытому доступу через Hugging Face, разработчики могут интегрировать её в собственные приложения или использовать для тестирования новых решений в области ИИ.