В ноябре 2023 года китайская компания DeepSeek выпускает модели II с открытым исходным кодом. Благодаря лицензии MIT любой желающий может использовать и адаптировать модель для своих индивидуальных целей. Это делает модели яркими и универсальными.

Кроме того, они позволяют вести совместную доработку и экономить деньги на ходу дела. Пользователи могут просматривать и понимать код, чтобы увидеть, как работает модель. Они могут адаптировать модель к своим потребностям и использовать ее для различных приложений. Поэтому DeepSeek придерживается открытого исходного кода и тем самым внедряет инновации и конкуренцию в области II.

Эта компания отделилась от Fire-Flyer, которая является филиалом глубокого обучения китайского хедж-фонда High-Flyer. Целью концепции было лучше интерпретировать и прогнозировать финансовые данные на фондовом рынке. После отделения DeepSeek в 2023 году компания полностью сосредоточилась на LLM, которые представляли собой модели II, способные ограничить текст.

Компания, похоже, достигла большого прорыва с двумя новейшими компонентами модуля DeepSeek AI. Согласно широко используемым бенчмаркам AI, DeepSeek-V3, DeepSeek-R1 и DeepSeek-R1-Zero часто превосходят Meta, OpenAI и Google в своих областях. Как онлайн-сервис они также значительно дешевле, чем, например, ChatGPT.

Эта агрессивная ценовая стратегия может повлиять на все цены на рынке II и сделать передовые инструменты II доступными для более широкого расширения. Компания может себе это позволить, поскольку хочет тратить значительно меньше денег на обучение своих моделей ИИ, чем другие компании. Если быть точнее, этого можно достичь за счет более эффективного программного обучения и большого объема автоматизации.

С другой стороны, DeepSeek-R1 и DeepSeek-R1-Zero являются моделями рассуждений. Это означает, что они сначала разрабатывают план того, как лучше всего ответить на вопрос, а затем работают небольшими шагами. Это повысит точность результатов, требуя при этом меньшей вычислительной мощности. Однако такой подход увеличивает потребность в пространстве для хранения.

Поскольку ИИ с открытым исходным кодом, DeepSeek может работать непосредственно на компьютере конечного пользователя. Доступ к мобильному приложению можно получить бесплатно, поскольку модели можно бесплатно загрузить на Hugging Face. Это еще проще с такими программами, как LM Studio, которые могут автоматически загружать и устанавливать весь код приложения.

Это означает, что не должно быть никаких проблем с безопасностью данных и конфиденциальностью. Подсказки, данные и ответы не покидают компьютер. Кроме того, модель может использоваться в автономном режиме. Здесь не требуется высокопроизводительное оборудование, а требуется много памяти и хранилищ. Например, DeepSeek-R1-Distill-Qwen-32B требует около 20 ГБ дискового пространства на жестком диске.

Согласно DeepSeek V3, ИИ работает с бесплатными языками. К ним относятся китайский и английский, а также немецкий, французский и испанский. В коротком чате на разных языках были даны удовлетворительные ответы.

Остаются только вопросы и предложения по поводу цензуры Китая. DeepSeek-R1 содержит цензуру для некоторых политически значимых тем. Пользователи, которые пытаются задать вопрос об определенных исторических событиях, либо не получают ответа, либо получают «исправленный» ответ. Например, вам не обязательно спрашивать ИИ о том, что произошло на площади Тяньмэнь 3 и 4 июня 1989 года.

Тем не менее, DeepSeek R1 в малейшей степени распознает студенческие протесты и военную операцию. Но другие модели ИИ также скупятся на ответы на политические вопросы. Gemini от Google напрочь отказывается от любых вопросов, которые могут быть связаны с политикой. Поэтому (самоналоженная) цензура может быть обнаружена в различных ИИ.

от Bolat Mukashev

Bolat Mukashev bolat.mukashev@gmail.com

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *