Сразу о главном разоблачении (точнее, "секрете Полишинеля") от MIT – DeepSeek стоила точно не 5,6 млн., ибо одни использовавшиеся чипы NVIDIA оцениваются в 1 млрд. долл.
А вот, что впечатлило MIT: техника, известная как обучение с подкреплением и обратной связью с человеком (RLHF), делает чат-ботов вроде ChatGPT такими ловкими. Теперь RLHF используется во всей отрасли. Но DeepSeek показал, что можно получить те же результаты, вообще не используя людей — по крайней мере, большую часть времени. DeepSeek заменяет контролируемую тонкую настройку и RLHF на шаг обучения с подкреплением, который полностью автоматизирован. Вместо использования обратной связи от человека для управления своими моделями фирма использует оценки обратной связи, выдаваемые компьютером. Чтобы построить R1, DeepSeek взял V3 и снова и снова запускал его цикл обучения с подкреплением. В 2016 году Google DeepMind показал, что этот тип автоматизированного подхода проб и ошибок, без человеческого участия, может взять модель настольной игры, которая делает случайные ходы, и обучить ее побеждать гроссмейстеров. DeepSeek делает нечто подобное с большими языковыми моделями: потенциальные ответы рассматриваются как возможные ходы в игре.
Недостатком этого подхода является то, что компьютеры хорошо оценивают ответы на вопросы по математике и коду, но не очень хороши в оценке ответов на открытые или более субъективные вопросы. Вот почему R1 показывает особенно хорошие результаты на тестах по математике и коду. Чтобы обучить свои модели отвечать на более широкий спектр нематематических вопросов или выполнять творческие задачи, DeepSeek по-прежнему приходится просить людей предоставлять обратную связь. Но даже это дешевле в Китае. По сравнению с западными рынками, стоимость создания высококачественных данных в Китае ниже, и там больше кадров с университетской квалификацией в области математики, программирования или инженерии.
Но у DeepSeek есть еще один трюк в рукаве. Он обучил свою базовую модель V3 делать то, что называется многотокенным прогнозированием, когда модель учится предсказывать строку слов сразу, а не по одному за раз. Такое обучение обходится дешевле и, как оказалось, также повышает точность. «Если вы думаете о том, как вы говорите, когда вы находитесь на полпути предложения, вы знаете, какой будет остальная часть предложения», — говорит Цайлер.
@netlenkanet
MIT Technology Review
How DeepSeek ripped up the AI playbook—and why everyone’s going to follow its lead
The Chinese firm has pulled back the curtain to expose how the top labs may be building their next-generation models. Now things get interesting. https://t.me/netlenkanet/25130
Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.
Нет комментариев