Как Chief AI Officer строит персонализацию

Контекст

Зачем бизнесу персонализация

Персонализация — один из немногих AI use cases, который напрямую влияет на выручку. Растит retention, время в продукте, конверсию, LTV. Деньги, которые можно посчитать.

Но 90% попыток построить персонализацию проваливаются. Компании покупают модель рекомендаций — и удивляются, что она не работает. Потому что модель — это верхушка. Под ней — данные, профили, платформы. Три слоя, которые строят одновременно.

Дальше — разбор того, как это устроено на практике. Реальный путь, от нуля до production-системы на миллионы пользователей. С конкретными технологиями, метриками и граблями.

Структура

Три слоя персонализации

Персонализация — идеальная иллюстрация пирамиды «Платформы → Знания → Решения». Каждый слой зависит от нижних, но строятся они параллельно: под конкретный продукт формируются нужные знания, под знания — дорабатываются платформы.

Решения

Рекомендации

GigaMix

CJ-персонализация

Коммуникации

Знания

Профиль клиента

Контент

Feature Store

Платформы

Data Platform

ML Platform

Разметка данных

Слой 1

Платформы

Первое, с чего начинается любая персонализация — инфраструктура. Без Data Platform негде хранить и обрабатывать данные. Без ML Platform некуда деплоить модели. Без системы разметки — нечем обучать.

Data Platform: LakeHouse

В стриминговом сервисе на старте — 151-нодовый Hadoop-кластер, 150 ТБ данных, 900 задач обработки. Проблема: вычисления и хранение связаны, нельзя масштабировать независимо. Решение — миграция на LakeHouse архитектуру: Trino + Apache Iceberg + S3 + Nessie + OPA.

Что это дало бизнесу: стоимость хранения и обработки данных упала на 65%, а объём доступных данных вырос в 6 раз. Команда перестала ждать инфраструктуру и начала строить продукты.

TCO

-65%

Производ.

x3

Данные

x6

Источники

42

ML Platform: от эксперимента до production

6 компонентов: ClearML (эксперименты), Airflow (пайплайны), Ray Serving (inference), LiteLLM (единый LLM API), OpenWebUI (интерфейс), Evidently AI (мониторинг дрифта, 680 колонок, еженедельные проверки). GPU-оптимизация через MIG — виртуализация A100 на изолированные сегменты.

Для бизнеса: стоимость GPU снизилась в 3-4 раза, а data scientists получили единую среду от эксперимента до production.

Модели

60+

Стоимость GPU

x3-4↓

ML-сервисы

28

Разметка данных

Три канала: краудсорсинг (Яндекс.Задания), аутсорсинг (Записано, Datalite), in-house (Solar Staff, TagMe). Автоматизированный QC-пайплайн: golden-set, honeypots, перекрёстная проверка. 1.4M+ строк размечено за год, качество 95% → 98%.

Слой 2

Знания

Платформа построена — теперь нужно понять пользователя и контент. Без профиля клиента нечего персонализировать. Без знаний о контенте нечего рекомендовать. Этот слой — самый трудоёмкий и часто недооценённый.

Профиль клиента

1000+ атрибутов на пользователя. 700+ тегов из экосистемных данных (авто, спорт, путешествия, мода). Поведенческие тренды, RFM 2.0, ML-кластеризация активной базы, value slopes — склонность к каждой фиче продукта. Всё это доступно через Feature Store в real-time.

Знания о контенте

67 миллионов треков, 60-100K новых каждую неделю. Задача — понять каждый объект: жанр, настроение, ситуация, темп, язык, наличие explicit-контента.

Дедубликация мета

30M

Дедубликация аудио

27M

Жанры артистов

5.5M

Content Tiering

Не весь контент одинаково важен. 1% каталога генерирует 65% прослушиваний. Индекс популярности (HPI): 70% время прослушивания + 20% социальные действия + 5% плейлисты + 5% популярность артиста. Tier 1 (~66K треков) — 100% разметка, приоритет для ML-пайплайнов.

ML-обогащение

Тексты песен через ML-пайплайн (HTDemucs + Whisper V3): 3.2M треков. BISAC-классификация аудиокниг: с 25 плоских жанров до 5000+ категорий. Определение «кентавров» (один артист — разные исполнители): 105K найдено. Детский контент: 14.5K треков, 1.8K аудиокниг — MAU 1M+.

Слой 3

Решения

Когда есть платформы и знания — можно строить продукты. Не один, а целый портфель: рекомендации, персонализация коммуникаций, customer journey, GenAI-сервисы, антифрод. Каждый продукт питается данными из нижних слоёв.

GigaMix — AI-плейлисты

Генерация плейлистов по запросу на естественном языке. Три поколения: от ChatLLM (30 сек, 1 руб, 65% точность) до LLM Embedder (1 сек, 0.01 коп, 88% точность).

Латентность

30 сек

1 сек

Стоимость

1 ₽

0.01 коп

Точность

65%

88%

MAU

5K

200K+

Персонализация CJ

Платформа «Оракул»: REST API + GraphQL gateway, Zvuk Client Profile, Feature Store. T2M для нового бизнес-кейса: 0.5 спринта (если данные есть в профиле), 2.5-3.5 спринта (полный цикл). Онбординг, value-модели, персонализация главной — каждый через Оракул.

Коммуникации

Единая система отправки с ML-моделями: тема, время, канал. 15 CRM-тем со скорингом. Результат: +116% кликов, +131% прослушиваний, CTR 3.4%.

Антифрод

Детекция плейлист-паттернов и мультидевайс-фрода. 97.2% обнаружение. 35M рублей предотвращённого ущерба в год.

Результат

Когда все три слоя работают вместе

Персонализация — не проект с дедлайном. Это функция, которая развивается итеративно. За 2.5 года — от нуля (нет Data Platform, нет ML Platform, нет команды) до production-системы с 60+ моделями, обслуживающей миллионы пользователей.

Индекс перс.

20%

55%

MAU

1.3M

2.9M

Retention

+14pp

Доход — аудиокниги

x3.7

Доход — подкасты

x26.5

Предотвр. фрод

35M ₽/год

Ключевой вывод: каждый продукт верхнего слоя питается данными из среднего и работает на инфраструктуре нижнего. Попытка запустить рекомендации без LakeHouse, без профиля клиента, без разметки контента — это те самые 90% провалов.

Применимость

Один фреймворк — разные отрасли

Пирамида «Платформы → Знания → Решения» универсальна. Инструменты меняются — принцип остаётся.

Медиа / стриминг

Персонализация с нуля

LakeHouse + ML Platform → профили + контент → рекомендации, GigaMix, CJ-персонализация.

x2.75 перс. индекс · 93% слушают рек.

Банкинг

AI-персонализация 107M клиентов

MLOps + NRT-пайплайны → цифровой аватар (2000+ параметров) → CJ-рекомендации, контекстные предложения.

CTR 9% · +33% конверсия

E-commerce / финтех

RecSys на триллионных объёмах

Kafka + Feature Store → товарный граф + customer DNA → персонализация каталога, поиска, коммуникаций.

-1.5% расходов · +1.3% выручки

Как Chief AI Officer строит персонализацию

Зачем бизнесу персонализация

Три слоя персонализации

Платформы

Data Platform: LakeHouse

ML Platform: от эксперимента до production

Разметка данных

Знания

Профиль клиента

Знания о контенте

Content Tiering

ML-обогащение

Решения

Рекомендации

GigaMix — AI-плейлисты

Персонализация CJ

Коммуникации

Антифрод

Когда все три слоя работают вместе

Один фреймворк — разные отрасли

Персонализация с нуля

AI-персонализация 107M клиентов

RecSys на триллионных объёмах

Хотите построить систему персонализации?