Как Chief AI Officer строит персонализацию

Модель рекомендаций — верхушка. Под ней три слоя архитектуры, которые строят параллельно и итеративно. Разбираем на реальном кейсе: от нуля до production с метриками.

20%
55%
71.2%
75.2%
1.3M
2.9M
93%

Зачем бизнесу персонализация

Персонализация — один из немногих AI use cases, который напрямую влияет на выручку. Растит retention, время в продукте, конверсию, LTV. Деньги, которые можно посчитать.

Но 90% попыток построить персонализацию проваливаются. Компании покупают модель рекомендаций — и удивляются, что она не работает. Потому что модель — это верхушка. Под ней — данные, профили, платформы. Три слоя, которые строят одновременно.

Дальше — разбор того, как это устроено на практике. Реальный путь, от нуля до production-системы на миллионы пользователей. С конкретными технологиями, метриками и граблями.

Три слоя персонализации

Персонализация — идеальная иллюстрация пирамиды «Платформы → Знания → Решения». Каждый слой зависит от нижних, но строятся они параллельно: под конкретный продукт формируются нужные знания, под знания — дорабатываются платформы.

Решения
Рекомендации
GigaMix
CJ-персонализация
Коммуникации
Знания
Профиль клиента
Контент
Feature Store
Платформы
Data Platform
ML Platform
Разметка данных

Платформы

Первое, с чего начинается любая персонализация — инфраструктура. Без Data Platform негде хранить и обрабатывать данные. Без ML Platform некуда деплоить модели. Без системы разметки — нечем обучать.

Data Platform: LakeHouse

В стриминговом сервисе на старте — 151-нодовый Hadoop-кластер, 150 ТБ данных, 900 задач обработки. Проблема: вычисления и хранение связаны, нельзя масштабировать независимо. Решение — миграция на LakeHouse архитектуру: Trino + Apache Iceberg + S3 + Nessie + OPA.

Что это дало бизнесу: стоимость хранения и обработки данных упала на 65%, а объём доступных данных вырос в 6 раз. Команда перестала ждать инфраструктуру и начала строить продукты.

-65%
x3
x6
42

ML Platform: от эксперимента до production

6 компонентов: ClearML (эксперименты), Airflow (пайплайны), Ray Serving (inference), LiteLLM (единый LLM API), OpenWebUI (интерфейс), Evidently AI (мониторинг дрифта, 680 колонок, еженедельные проверки). GPU-оптимизация через MIG — виртуализация A100 на изолированные сегменты.

Для бизнеса: стоимость GPU снизилась в 3-4 раза, а data scientists получили единую среду от эксперимента до production.

60+
x3-4↓
28

Разметка данных

Три канала: краудсорсинг (Яндекс.Задания), аутсорсинг (Записано, Datalite), in-house (Solar Staff, TagMe). Автоматизированный QC-пайплайн: golden-set, honeypots, перекрёстная проверка. 1.4M+ строк размечено за год, качество 95% → 98%.

Знания

Платформа построена — теперь нужно понять пользователя и контент. Без профиля клиента нечего персонализировать. Без знаний о контенте нечего рекомендовать. Этот слой — самый трудоёмкий и часто недооценённый.

Профиль клиента

1000+ атрибутов на пользователя. 700+ тегов из экосистемных данных (авто, спорт, путешествия, мода). Поведенческие тренды, RFM 2.0, ML-кластеризация активной базы, value slopes — склонность к каждой фиче продукта. Всё это доступно через Feature Store в real-time.

Знания о контенте

67 миллионов треков, 60-100K новых каждую неделю. Задача — понять каждый объект: жанр, настроение, ситуация, темп, язык, наличие explicit-контента.

30M
27M
5.5M

Content Tiering

Не весь контент одинаково важен. 1% каталога генерирует 65% прослушиваний. Индекс популярности (HPI): 70% время прослушивания + 20% социальные действия + 5% плейлисты + 5% популярность артиста. Tier 1 (~66K треков) — 100% разметка, приоритет для ML-пайплайнов.

ML-обогащение

Тексты песен через ML-пайплайн (HTDemucs + Whisper V3): 3.2M треков. BISAC-классификация аудиокниг: с 25 плоских жанров до 5000+ категорий. Определение «кентавров» (один артист — разные исполнители): 105K найдено. Детский контент: 14.5K треков, 1.8K аудиокниг — MAU 1M+.

Решения

Когда есть платформы и знания — можно строить продукты. Не один, а целый портфель: рекомендации, персонализация коммуникаций, customer journey, GenAI-сервисы, антифрод. Каждый продукт питается данными из нижних слоёв.

Рекомендации

Микросервисная архитектура с 6+ генераторами кандидатов: кластеры артистов, звуковые кластеры, коллекции, сессионные лайки, сессионные события, миграция плейлистов. Единый ранкер на 200+ фич. 93% пользователей слушают рекомендации. ALT +16% год к году.

GigaMix — AI-плейлисты

Генерация плейлистов по запросу на естественном языке. Три поколения: от ChatLLM (30 сек, 1 руб, 65% точность) до LLM Embedder (1 сек, 0.01 коп, 88% точность).

30 сек
1 сек
1 ₽
0.01 коп
65%
88%
5K
200K+

Персонализация CJ

Платформа «Оракул»: REST API + GraphQL gateway, Zvuk Client Profile, Feature Store. T2M для нового бизнес-кейса: 0.5 спринта (если данные есть в профиле), 2.5-3.5 спринта (полный цикл). Онбординг, value-модели, персонализация главной — каждый через Оракул.

Коммуникации

Единая система отправки с ML-моделями: тема, время, канал. 15 CRM-тем со скорингом. Результат: +116% кликов, +131% прослушиваний, CTR 3.4%.

Антифрод

Детекция плейлист-паттернов и мультидевайс-фрода. 97.2% обнаружение. 35M рублей предотвращённого ущерба в год.

Когда все три слоя работают вместе

Персонализация — не проект с дедлайном. Это функция, которая развивается итеративно. За 2.5 года — от нуля (нет Data Platform, нет ML Platform, нет команды) до production-системы с 60+ моделями, обслуживающей миллионы пользователей.

20%
55%
1.3M
2.9M
+14pp
x3.7
x26.5
35M ₽/год

Ключевой вывод: каждый продукт верхнего слоя питается данными из среднего и работает на инфраструктуре нижнего. Попытка запустить рекомендации без LakeHouse, без профиля клиента, без разметки контента — это те самые 90% провалов.

Один фреймворк — разные отрасли

Пирамида «Платформы → Знания → Решения» универсальна. Инструменты меняются — принцип остаётся.

Персонализация с нуля

LakeHouse + ML Platform → профили + контент → рекомендации, GigaMix, CJ-персонализация.

x2.75 перс. индекс · 93% слушают рек.

AI-персонализация 107M клиентов

MLOps + NRT-пайплайны → цифровой аватар (2000+ параметров) → CJ-рекомендации, контекстные предложения.

CTR 9% · +33% конверсия

RecSys на триллионных объёмах

Kafka + Feature Store → товарный граф + customer DNA → персонализация каталога, поиска, коммуникаций.

-1.5% расходов · +1.3% выручки

Хотите построить систему персонализации?