Aktualjnie Kommentarii

Национальная ИИ-модель: ожидания и реальность

· Михаил Карягин · Quelle

Auf X teilen
> Auf LinkedIn teilen
Auf WhatsApp teilen
Auf Facebook teilen
Per E-Mail senden
Auf Telegram teilen
Spendier mir einen Kaffee

В российском инфополе все чаще говорят о создании национальной ИИ-модели, которая в скором времени должна стать доступна пользователям. При этом на отечественном рынке уже есть ИИ-продукты российских компаний, которые работают с разной степенью успешности, но, по всей видимости, не воспринимаются как «национальные» или «суверенные», и это важный сигнал того, что именно будет пониматься под российской нейросетью.

Судя по заявлениям официальных лиц, а также по имеющимся формулировкам в правительственном проекте рамочного ФЗ, национальная нейросеть должна соответствовать ряду критериев, часть из которых непонятно, как именно реализовать:

Российские разработчики. Одним из требований является то, что модель должна создаваться исключительно на территории РФ и только гражданами РФ, чтобы доступ к модели, базам данных, настройкам параметров имели только российские субъекты. Учитывая масштабы современных LLM, это требование хоть и является выполнимым, но будет заметно ограничивать разработчиков в условиях конкурентного рынка, лидеры которого привлекают лучших специалистов со всего мира в децентрализованном формате.

Российские данные. Требование об обучении национальных LLM исключительно на российских данных также представляется если и реализуемым, то малопродуктивным. Open AI перестали публиковать информацию о том, на каком объеме данных обучены последние модели, но прогрессия очевидна. Если GPT 3.0 была обучена примерно на 300 млрд токенов, то GPT 4 — на 13 трлн, а по оценкам экспертов, GPT 5 — на 30 трлн. Причем, судя по различным претензиям авторов, модель обучалась как на общедоступном, так и на лицензионном контенте. Добровольные ограничения в плане обучения модели могут снизить ее эффективность.

Российские ценности. Это, пожалуй, один из самых сложных моментов в процессе создания национальной нейросети. Есть множество исследований на тему того, как намеренные ограничения и правила ухудшает итоговую выдачу модели. При этом цензура ухудшает не только текстовые ответы модели, но также и ее кодинг в случае, если в запросе пользователя содержались слова-триггеры. То есть модель с заложенными в нее ценностными и идеологическими ограничениями с большей вероятностью будет совершать ошибки.

Российские сервера. Данное требование является, пожалуй, одним из самых простых и понятных в реализации. Вопрос только в стоимости таких архитектурных решений, а также в скорости их работы.

Несмотря на все сложности, нет сомнений в том, что «национальная нейросеть» будет создана. Это говорит о том, что технологии ИИ воспринимаются властными администраторами как неотъемлемая часть цифрового суверенитета. Вопрос лишь в том — будет ли она конкурентоспособная в сравнении с аналогами, учитывая все вышеописанные трудности.

Михаил Карягин, заместитель директора Центра политической конъюнктуры.