— Как вы заинтересовались языковыми моделями?

— Мне всегда был интересен искусственный интеллект, в частности обработка естественного языка. Мне кажется, что именно в этом ключ к созданию разумных машин, которые смогут отвечать подобно человеку. Но я долго не мог подступиться к этому направлению. С детства любил рисовать роботов, и на третьем курсе физико-технического факультета Северо-Осетинского государственного университета (СОГУ) имени К.Л. Хетагурова перешел от фантазий к делу. Я разработал робота-манипулятора и выиграл свой первый грант на 500 тысяч рублей от программы «Умник».

Выйти на федеральный уровень с этим проектом у меня не получилось, поэтому я решил создать новый стартап. Тогда я начал экспериментировать с машинным обучением и нейросетями. Выпустил мобильное приложение, которое отслеживало нагрузку на университетский сервер, использовал генеративно-состязательные сети для генерации изображений траекторий полета частиц в физике и даже пытался написать мобильную игру. В тот момент я понял, что зашел в тупик в мобильной разработке — хотелось осваивать новые инструменты.

В этом мне помогла первая работа в IT-области. СОГУ сотрудничал с Объединенным институтом ядерных исследований в Дубне, а тот, в свою очередь, работал с ЦЕРНом (Европейской организацией по ядерным исследованиям). ЦЕРН проводил эксперимент ATLAS, цель которого — поиск сверхтяжелых элементарных частиц на Большом адронном коллайдере. Как студенту СОГУ мне предложили разработать для эксперимента систему для мониторинга баз данных. Благодаря этому я познакомился с новыми технологиями и окончательно решил не откладывать идею об искусственном интеллекте в долгий ящик.

Моей первой значимой победой в новой для себя области стал нейросетевой голосовой ассистент для бизнеса, который мы разработали вместе с командой. Фишка помощника в том, что в его основе лежат сиамские нейросети. На малом количестве данных они распознают намерения пользователя, сравнивая относительно произвольные команды с уже существующими в системе. Ассистент может решать разные задачи, например, отправлять письма или подключать пользователя к онлайн-конференциям. Стартап вошел в двадцатку ежегодного топ-1000 стартапов федерального проекта «Платформа университетского технологического предпринимательства», а меня пригласили выступить на II Конгрессе молодых ученых в Сочи. Также я выиграл грант в 50 тысяч рублей на использование любых сервисов Yandex Cloud и грант на миллион рублей по конкурсу «Студенческий стартап» от Фонда содействия инновациям.

Алан Газзаев настраивает роботизированную руку. Фото из личного архива собеседника

Алан Газзаев настраивает роботизированную руку. Фото из личного архива собеседника

— Как вы узнали про ИТМО? Почему решили поступать именно сюда?

— На ранних курсах к нам на физико-технический факультет СОГУ приезжали преподаватели из Нового физтеха ИТМО. Тогда я впервые узнал про петербургский университет.

На четвертом курсе я начал искать магистратуру, где мог бы дальше заниматься разработками в сферах генеративного ИИ и обработки естественного языка. Как раз в ИТМО я нашел нужную программу «Глубокое обучение и генеративный ИИ».

Я поступил на бюджет благодаря конкурсу проектов Junior ML Contest. Нужно было представить свою разработку с применением технологий машинного обучения и ИИ. Эксперты высоко оценили мобильное приложение AIsaacChat, которое я разработал на грант от «Студенческого стартапа». Это ансамбль нейронных сетей, которые, как предыдущая, распознавали намерение пользователя, отвечали на запросы и генерировали изображения.

Какие полезные навыки вы получили в магистратуре?

— Магистратура дала свободу в разработке и возможность работать над тем, что мне нравится. Например, для одной лабораторной я объединил языковую модель, модель автоматического распознавания видео и речи на русском языке в одну систему, которая понимает, что происходит в каждой сцене, и описывает события. Также я научился методу обучения с подкреплением, технологиям обработки естественного языка и больших данных. Впервые за долгое время мне пришлось взять ручку и решать уравнения на бумаге на дисциплине по теории кодирования. Так что было много разных и интересных задач, которые позволили выйти за рамки того, чем я занимался.

Алан Газзаев защищает разработку на предмете по технологическому предпринимательству в ИТМО. Фото из личного архива собеседника

Алан Газзаев защищает разработку на предмете по технологическому предпринимательству в ИТМО. Фото из личного архива собеседника

— Как началось ваше сотрудничество с компанией МТС?

— Когда я поступил в магистратуру, подумал, что свой стартап — это, конечно, круто, но нужен реальный опыт, поэтому начал подавать резюме в разные компании. Одной из них была MWS AI (дочерняя компания МТС), но я забыл указать контакты для связи. Рекрутер MWS AI нашел меня сам благодаря личному каналу в Telegram, где я писал о своих разработках, и ответил мне в комментариях. Сначала я подумал, что это мошенники, но в итоге оказалось, что это реальный сотрудник. Он сказал, что выбрал меня, потому что я учусь в ИТМО — одном из топовых вузов по искусственному интеллекту, с которым сотрудничает компания. После пары собеседований меня пригласили на позицию младшего разработчика-исследователя в команду фундаментальных исследований, где я разрабатываю и обучаю языковые модели. Спустя год меня повысили до разработчика-исследователя middle-уровня.

— Вместе с MWS AI вы разработали Cotype Nano компактную языковую модель для генерации русскоязычного текста. Что она из себя представляет?

— Я сторонник маленьких языковых моделей — благодаря размеру они всегда под рукой, например, в смартфоне. Поэтому когда только пришел в компанию, предложил выпустить подобную модель. Это была первая открытая русскоязычная модель именно от MWS AI, до этого они публично не выпускали решений для русского языка. Около двух месяцев мы с командой тестировали разные гипотезы, но обучение модели прошло довольно быстро. Её главное отличие от других похожих моделей — в размере. Cotype Nano не требует подключения к интернету и может запускаться локально практически на любом девайсе. Это гарантирует не только быстрый доступ к ИИ-решению, но и безопасность — данные не утекут в сеть.

Cotype Nano может решать разные задачи, связанные с текстом на русском языке: сгенерировать код для программы, сервера или управления роботом, написать маркетинговый текст или финансовый отчет, ответить на вопросы клиентов, создать описание вакансии или учебный материал для сотрудников. Качество работы я оценивал с помощью бенчмарка RuLLMArena. Моя модель отвечала на 500 вопросов, а ИИ-судья сравнивал ее ответы с эталонными. Cotype Nano показал один из лучших результатов в своей «весовой» категории на русском языке — 50.51. Такого высокого показателя модель достигла благодаря двухстадийному обучению с учителем (SFT): на первой стадии обучали на коде и математических задачах, а на второй — на высококачественных инструкциях. Эффективно обучить маленькую модель оказалось самой сложной частью работы.

В ноябре 2024 года MWS AI успешно протестировала Cotype Nano на своих задачах и открыла ее для бизнеса. С тех пор количество скачиваний превысило 35 тысяч, а за последний месяц модель установили на свои устройства более пяти тысяч раз.

— В июне этого года за создание Cotype Nano вы получили национальную премию «Приоритет: Цифра — 2025». Что эта победа значит для вас?

— На премии были серьезные конкуренты. Свои решения представили крупные российские технологические компании — Сбербанк, ВТБ, Альфа-Банк, Норникель, а также Департамент информационных технологий города Москвы. Мне очень приятно, что в номинации «Цифровый прорыв» победила именно наша модель, потому что это значит, что мы достигли успеха на всероссийском уровне.

После получения национальной премии «Приоритет: Цифра — 2025» Алана Газзаева пригласили на заседание в парламент Республики Северная Осетия-Алания. Фото из личного архива собеседника

После получения национальной премии «Приоритет: Цифра — 2025» Алана Газзаева пригласили на заседание в парламент Республики Северная Осетия-Алания. Фото из личного архива собеседника

— Чем вы планируете заниматься дальше?

— Сейчас я продолжаю работать в MWS AI и недавно окончил магистратуру. Мою дипломную работу признали одной из лучших в Институте прикладных компьютерных наук ИТМО. Я разрабатывал алгоритм дообучения языковой модели, который позволит ей приобрести навык рассуждений. Сейчас ChatGPT думает над вопросом перед тем, как ответить, и затем генерирует один вывод. Но что, если научить модель приходить к четырем выводам? Такая способность помогла бы, например, не только решать математические задачи, но и быстрее валидировать стартап-гипотезы или помогать роботу строить маршруты для передвижения.