Январская версия нейросети DeepSeek-R1, за короткие сроки ставшая популярной во всем мире, — не первый релиз китайских разработчиков. Еще в декабре 2024 года они выпустили DeepSeek-V3 — аналог GPT4o, на которой основана прошлая версия ChatGPT, способная генерировать текст и отвечать на вопросы. Апгрейд, вышедший уже через месяц, опережает в ряде тестов модель аналогичной нейросети o1 от OpenAI: новая DeepSeek-R1 может рассуждать как человек, выполнять сложные задачи по математике, химии и программированию, составлять логические цепочки и перепроверять свои выводы. При этом модель имеет открытый код, в разы дешевле в использовании и бесплатна для частных лиц.

В чем ключевые особенности DeepSeek

  • Современные модели искусственного интеллекта, например GPT o1, на которой основана последняя версия ChatGPT, для своей работы требуют большого количества мощных графических ускорителей — видеокарт. DeepSeek способна запускаться на малом количестве таких ускорителей и показывать при этом сопоставимые с лучшими имеющимися моделями результаты.

Как поясняет директор института прикладных компьютерных наук ИТМО Антон Кузнецов, это стало возможным благодаря улучшению архитектуры модели и сокращению числа параметров. Последнюю модель DeepSeek R1 можно запустить даже на одном современном мощном компьютере. При этом качество модели R1 во многих случаях сравнимо с результатами больших моделей и позволяет получать ответы на запросы разной сложности — от энциклопедических вопросов до написания различных программ.

  • Во-вторых, благодаря открытому коду компании имеют возможность продолжить обучать модель на своих компьютерах без необходимости арендовать дорогостоящие облачные ресурсы и поддерживать сложную инфраструктуру. 

«Opensource-подход к своим исследованиям и продуктам позволяет быстрее развивать и продвигать свою же разработку. Так делали крупные зарубежные и российские корпорации, в том числе и Яндекс. Это позволяет бесплатно привлечь труд специалистов и ученых из других компаний к решению своих задач», — отметил руководитель AI направления института прикладных наук ИТМО Владислав Горбунов.

  • Еще одна особенность DeepSeek — это глубокая адаптация модели под китайский контекст: она понимает диалекты, идиомы, исторические отсылки и современные социальные тренды, чего не могут западные аналоги. К тому же благодаря четкому соблюдению китайского законодательства нейросеть безопасна для использования в государственных и корпоративных сервисах. Она служит инструментом для автоматизации служб поддержки, анализа локальных рынков, подготовки образовательных материалов и работы с данными в рамках госпрограмм. Например, помогает бизнесу оптимизировать логистику на Taobao или студентам изучать классические китайские тексты.

Источник: deepseek.com

Источник: deepseek.com

Правда ли, что DeepSeek во всем превзошел ChatGPT?

DeepSeek выполняет схожие с ChatGPT задачи, хотя стоит в разы дешевле и требует меньше вычислительных ресурсов. Так, у китайцев на тренировку модели ушло всего два месяца и 5,5 млн долларов, а на обучение GPT-4 — свыше 100 млн долларов.

«Китайская компания начала свою деятельность еще в 2015 году, а графические процессоры начала закупать в 2021, как раз тогда и появился GPT-3 с довольно неплохой генерацией текстов, но еще без логического мышления. Так что цели у стартапа были поставлены давно, и разработчики начали заниматься разработкой LLM не вчера. При этом нельзя сказать, что DeepSeek сильно лучше ChatGPT. DeepSeek R1 вполне сопоставима с ChatGPT o1, а DeepSeek v3 сопоставима с ChatGPT 4o», — поясняет Владислав Горбунов.

Ключевыми факторами, повлиявшими на высокий интерес к новой китайской нейросети, стали ее низкая ресурсозатратность и открытый код. К концу января приложение DeepSeek превзошло ChatGPT по популярности в App Store сначала в США, а затем и в России. Среди россиян модель стала востребованной отчасти из-за проблем с доступом к таким аналогам, как ChatGPT, Gemini и другим. Бесплатно скачать DeepSeek можно для iOS, Android и на официальном сайте компании.

DeepSeek — это прорыв?

«Появление DeepSeek открывает новый виток в области больших языковых моделей: если раньше компании пытались получить максимальные результаты, не сильно обращая внимание на объем необходимых ресурсов, то сейчас наступает эра, когда все будут стараться при сохранении качества максимально уменьшить затраты. В ближайшем будущем можно ожидать, что оптимизация моделей станет еще лучше, и, возможно, мы скоро увидим модели, которые будут работать, например, прямо внутри телефона и давать результаты, сравнимые по качеству с большими моделями без использования интернета», — считает Антон Кузнецов.

Антон Кузнецов. Фото: Дмитрий Григорьев / ITMO NEWS

Антон Кузнецов. Фото: Дмитрий Григорьев / ITMO NEWS

Как DeepSeek повлияет на российскую IT-индустрию и бизнес?

В России уже есть подобные разработки, например, YandexGPT и GigaChat от Сбера. Они построены по «классической» архитектуре больших языковых моделей, но при этом их результаты, особенно в области генерации текстов на русском языке, в некоторых случаях уже превосходят аналоги. Опыт китайских коллег показывает, что даже без глобальных финансовых вложений и огромного количества мощностей можно создавать инновации, способные обогнать лидеров мирового рынка.

Владислав Горбунов. Фото из личного архива собеседника

Владислав Горбунов. Фото из личного архива собеседника

«Имея достаточное количество ресурсов, в России можно повторить результаты DeepSeek, так как все исследования разработчиков и методика обучения модели находятся в открытом доступе. Однако надо направить большие усилия на подготовку обучающего набора данных с упором на нашу культуру и особенности, как сделали в Китае, либо на специфику отрасли, например, юридические, медицинские и другие профессионализмы. DeepSeek, как и многие современные ИИ-проекты, опирается на открытые исследования (архитектуры трансформеров, RLHF), которые можно адаптировать под локальные задачи. Наши специалисты могут использовать этот же подход, не тратя ресурсы на “изобретение велосипеда”», — считает Владислав Горбунов.