Какие навыки нужны ИИ-инженерам уже сегодня
Понимание, как устроена и работает нейросеть. Как она анализирует запрос и контекст, планирует шаги для решения задачи и генерирует ответ (Prefill-decode), как работает с несколькими запросами одновременно (Continuous batching) и при этом не пересчитывает похожие вопросы, а запоминает их (Distributed prefix caching). Эти знания помогают инженерам разрабатывать и оптимизировать высоконагруженные сервисы.
Умение оптимизировать работу нейросети на уровне «железа». Даже самый мощный и дорогой GPU ― специализированный процессор, созданный для параллельной обработки данных и ускорения вычислений, выполнит команду в 90 раз медленнее, если инженер не оптимизировал код. На практике это значит, что обучение нейросети займет не месяц, а три — это критично в условиях, когда рынок ИИ меняется буквально каждый день. Инженерам важно понимать, как устроено «железо», с которым они работают: как функционирует кэш памяти, как параллельно проходит множество вычислений и как на устройство GPU накладывается написанный код. Также необходимо знать специальные языки программирования и архитектуры, чтобы писать команды непосредственно для GPU (например, CUDA и PTX), библиотеку NCCL, связывающую несколько GPU, и конкретные алгоритмы вроде FlashAttn, которые значительно ускоряют определенные процессы в нейросетях.
Умение проектировать распределенные системы. Если вы захотите развернуть нейросеть для миллионов пользователей, неизбежно столкнетесь с проблемой ― энергопотребление может вырасти до нескольких десятков гигаватт. Таких мощностей нет ни у одной страны в мире. Поэтому настолько важно знать, как архитектурно и инфраструктурно оптимизировать нейросети.
Чтобы увеличить общую вычислительную мощность модели, инженеры используют специальные приемы. Например, применяют архитектуру Mixture-of-Experts, где вместо одной огромной модели используются десятки тысяч маленьких специализированных подмоделей — «экспертов». Для каждого элемента обработки нейросеть автоматически выбирает и активирует «экспертов» только с релевантными компетенциями для задачи.
Например, если Алисе написать «Я еду на Байкал. Посоветуй, что посмотреть?», за несколько секунд она найдет красивые места, составит описания и прикрепит изображения к статье, а также проложит маршрут. На практике такая распределенная система в 30–50 раз эффективнее обычной нейросети на GPU.
Навыки на стыке машинного обучения. К ним относятся, например, методы оптимизации механизма внимания (Multi-Query Attention и Cross-Layer Attention), которые помогают более эффективно обрабатывать длинные контексты и снижать нагрузку на вычислительные ресурсы, и метод спекулятивного декодирования (Speculative Decoding) для ускорения ответа с помощью параллельной обработки нескольких шагов генерации. Знание этих инструментов также позволит инженерам создавать более быстрые и качественные нейросети с учетом ограничений инфраструктуры.
Лекция Валерия Стромова в пространстве Яндекса в ИТМО. Фото: Дмитрий Григорьев / ITMO NEWS
А чему учиться в будущем
Проектирование системы распознавания и синтеза речи, которая «отвечает» почти без задержки. Инженеры уже улучшают нейросети, чтобы они создавали эффект живого общения: понимали речь, даже если слова накладываются друг на друга, и отвечали, как человек, — с задержкой всего 100–150 миллисекунд. Но пока задача распознавания и синтеза речи все еще остается сложной: специалистам нужно учитывать разные тонкости, чтобы нейросеть корректно распознавала не только слова, но и интонацию пользователя. Следующий уровень ― суметь сделать ИИ-ассистента более эмпатичным, чтобы он общался с пользователями как реальный человек и поддерживал их в сложные минуты, распознавал чужие эмоции и генерировал свои.
Создание «человеческой» памяти, которая помнит и понимает персональный контекст. Представьте, что нейросеть станет настолько персонифицированной, что будет помнить, о чем пользователь спрашивал год назад, когда день рождения его бабушки и какой подарок ей уже дарили. Чтобы нейросеть имитировала человеческую память, нужно научить ее находить самые качественные токены, которые хорошо описывают жизнь пользователя, и использовать их в каждом запросе. Выполнить такую задачу инженерам помогут компетенции в области дизайна памяти — проектирование хранилищ данных и кэшей (Hot storage), алгоритмы выбора важных фактов о пользователе для контекста (Update policies), оптимизация данных, которые нейросеть может одновременно обрабатывать из истории разговора (Context window optimization), а также знания в области управления памятью нейросети и оптимизации длинного контекста (Long context windows).
Повышение автономности нейросети. Чтобы нейросеть понимала контекст жизни пользователя и проактивно решала типичные задачи, инженеры проводят для ИИ-ассистента обучение с подкреплением. Если решение нейросети сходится с решением инженера, она получает максимальную награду, если нет — продолжает добиваться лучшего результата. Так что в этой области свои навыки также надо развивать постоянно и достаточно интенсивно.
Создание агентной нейросети. Представьте, что пользователь захотел поесть хинкали недалеко от офиса. Получив такой запрос, нейросеть будет действовать как агент, разделит сложную задачу на части и распределит ее между другими сервисами. Они «посмотрят» рестораны поблизости, изучат их меню, проверят свободные места, сверят цены и выдадут рекомендации в одном ответе. Чтобы создавать агентные нейросети, инженерам важно также прокачиваться в проектировании платформ для агентов и оркестрации задач, асинхронном программировании и интеграции с внешними API.
Лекция Валерия Стромова в пространстве Яндекса в ИТМО. Фото: Дмитрий Григорьев / ITMO NEWS
Валерий Стромов — CEO Алисы и Умных устройств Яндекса. В компании он руководит командой из более 700 человек и развивает нейросеть, которой пользуются порядка 47 миллионов человек. Эксперт прочел лекцию «Эволюция Алисы AI: что на самом деле делают топ-инженеры и какие навыки будут нужны в гонке ИИ завтра» для студентов ИТМО в пространстве Яндекса. Анонсы будущих лекций и встреч с участием экспертов-практиков из Яндекса можно найти в телеграм-канале ITMOxYandex.
