Медийный эффект, произведённый анонсами DeepSeek, заслуживает отдельного разговора. Который день приходится подряд читать одно и то же. Хотя подобные волны «экспертных» обсуждений случаются регулярно, и к 2025 году они уже не должны вызывать удивления. Они и не удивляют, но, признаться, изрядно утомляют.
Кстати, о 2025-м. Трудно удержаться и не вспомнить о бурлениях вокруг микроядерной ОС компании Huawei. Тогда, в 2019 году, «эксперты» предрекали революцию на рынке операционных систем и смену глобального лидера. Было обещано, что ядро будет открыто, а возможности системы заявлялись просто фантастические. Нам потребовалось изучить некоторое количество публикаций, собрать данные из различных источников, включая LinkedIn, GitHub и т.д., чтобы прийти к однозначному выводу: никакой полнофункциональной микроядерной ОС ни к 2021, ни даже к 2025 году в смартфонах Huawei не появится, как бы громко «эксперты» не хоронили ядро Android.
Но это было небольшое отступление. Вернёмся в наш 2025 год. DeepSeek методично, по нарастающей, выкладывает в открытый доступ модели, демонстрирующие весьма неплохие характеристики. И вот, 20 января выходит модель DeepSeek R1, позиционируемая как конкурент OpenAI o1. Модель доступна как на серверах самой DeepSeek, так и в виде опенсорсного продукта под MIT-лицензией. Цены на обработку запросов при этом были установлены приблизительно в 27 раз ниже, чем у OpenAI.
Релиз сопровождается как официальными, так и неофициальными публикациями, из которых следует, что с экономической точки зрения продукт DeepSeek на порядок превосходит конкурентов. Это касается его эксплуатации, и, что особенно подчёркивается, стоимости создания модели. Тиражируется заявление, что затраты на обучение составили всего пять с половиной миллионов долларов.
Информация стремительно распространяется в СМИ, в детали, как обычно никто не вникает. «Эксперты», в зависимости от своей принадлежности к тому или иному лагерю, начинают тиражировать привычные рассуждения. В результате, медийная волна становится одной из причин триллионной коррекции акций американского хайтека. Что, в свою очередь только усиливает бурления, количество безумных прогнозов растёт, равно как и такого же качества аналитики.
Но что происходит на самом деле? Мы видим очень талантливую маркетинговую кампанию, которая, в первую очередь, направлена на усиление переговорных позиций китайских властей с США относительно технологических санкций, а во вторую призвана поддержать выход китайских AI-продуктов на глобальные рынки.
Что же представляет собой модель R1 и действительно ли её создание было столь экономичным?
Если не углубляться в технические детали, то R1 — это действительно весьма эффективная модель, способная к рассуждениям и использующая ряд оптимизаций, повышающих её производительность. В ряде задач она демонстрирует результаты на уровне с лидерами рынка. Однако, это не всегда и не во всех тестах, поэтому говорить о её превосходстве нет оснований. Иными словами, R1 — это хороший продукт, с набором интересных оптимизаций, которые обеспечивают ему как преимущества, так и заметные недостатки.
Разумеется, создание модели R1 обошлось значительно дороже, чем фигурирующие повсеместно 5,5 миллиона долларов. Начнём с того, что эти данные взяты из документа, сопровождавшего релиз предыдущей модели DeepSeek V3, а вовсе не R1.
Согласно этому документу, 5,576 миллиона долларов могла стоить лишь завершающая фаза обучения модели V3 при условии, что она проводилась на урезанных ускорителях H800, аренду которых авторы оценили в 2 доллара в час. Однако даже к этим данным есть вопросы: достижение заявленных в статье показателей на H800 представляется крайне сложным, а каких-либо деталей не сообщается. Оно и понятно, так как слухи говорят о том, что в реальности DeepSeek располагает от 10 до 50 тысячами ускорителей Nvidia Hopper. Причем их, возможно, у нее быть не должно из-за санкционных ограничений: и запрещенный санкциями H100 и урезанный H800, относятся к семейству Hopper.
Если бы менеджмент DeepSeek обладал интеллектом на уровне какого-нибудь депутата, то они, возможно, даже сняли бы тик-ток с паллетами H100, где крупными планом были бы видны серийные номера, по которым можно отследить и поставщика, и цепочку поставки, и сопроводили бы это комментариями, что мол, смотрите санкции не работают. Но, по какой-то загадочной причине компания выбрала иную стратегию и утверждает, что у неё в наличии только 2048 штук H800, и вообще это побочный проект, которым занялись только потому что железо простаивало. В общем, не видали вы еще Котофея Ивановича, он пока квантовыми вычислениями занимается, а это так, его младший брат.
Так или иначе, сумма в 5 миллионов 576 тысяч долларов не имеет никакого отношения к реальной стоимости разработки ни V3, ни тем более R1. Можно заявить, что написание этого текста стоит 6 копеек, потому что он был написан на ноутбуке в иркутской деревне, где кВт⋅ч стоит 1,8 руб. Но очевидно, что это не так.
Теперь поговорим о том, зачем китайской компании выкладывать в открытый доступ эту модель именно сейчас и сопровождать это прекрасно организованной пиар-компанией, которая поражает своей эффективностью не меньше, чем сама R1.
Во-первых, нужно понимать, что политика open source органически не очень соответствует менталитету китайских корпораций. Безусловно, мы слышали какое-то количество рекламных заявлений на этот счёт, но многолетняя практика показывает иное.
Тут, кстати, можно вспомнить главаря экстремистов Цукерберга. Мы видим у него похожую стратегию: точно также LlaMA выкладывается в открытый доступ. И мотивация в чем-то схожа: помешать OpenAI закрепиться на рынке в качестве монополиста, а заодно и набрать классов у публики.
В случае с DeepSeek мы наблюдаем не только открытый код, но и явно выраженную ориентацию на западного потребителя, включая такие детали, как авторизацию через Google, которая, как известно, в Китае не работает. Всё это сопровождается хорошо продуманной и организованной кампанией, с практически идеальными таймингами, вершиной которой становится релиз R1 20 января, ровно в день инаугурации Трампа.
Расчёт был точным: график релизов создал у публики впечатление, что DeepSeek развивается с беспрецедентной для индустрии скоростью. При этом стоит отметить, что актуальность данных модели датируется приблизительно поздней осенью 2023 года. Тем не менее, эффект внезапности позволил нарисовать убедительную картину: молодой и талантливый коллектив, для которого это является побочным проектом, разработал революционную модель с минимальными затратами на слабом, урезанном санкциями железе.
Ну наконец, на этой неделе, волна хайпа обвалила давно перегретый рынок акций. Что, опять же только позволило укрепиться мифу о невероятно гениальном продукте, который смог обогнать всю индустрию.
Таким образом, DeepSeek удалось добавить веса китайской стороне перед грядущими торговыми переговорами между США и Китаем. Все ж не каждая компания своим релизом может обвалить Nasdaq, пусть даже и в ситуации, когда рынок перегрет и коррекция так или иначе бы случилась. Одного пиара, даже очень эффективного тут явно бы не хватило.
Что тут можно сказать? Политика Soft Power возможна, когда есть и Soft (во всех смыслах), и Power. Такое сочетание на практике оказывается намного эффективнее, чем невнятные угрозы и завывания о неработающих санкциях.
Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.
Нет комментариев