ПРОГРАММА КУРСА ://

Структурирование кейсов и Problem Solving
Аналитику часто поручают сложные задачи, с которыми он ранее не сталкивался. Но это не повод сомневаться в своих силах — у всякой проблемы всегда есть решение. Разберём подходы и фреймворки, которые позволяют грамотно выстраивать работу над любыми бизнес-кейсами, будь то поиск точек роста продукта или прогнозирование ключевых показателей. Познакомимся с MECE, Value Chains и другими важными методами структурирования информации и поиска решений.
Смотреть уроки
1. Введение в кейс метод, как и для чего используется
Кейс метод - уникальная система, которая помогает быстро обучиться использованию некоторых навыков на практике. Поговорим об истории и сути этого метода, а также о том, как будем применять его в нашем обучении.
2. Структура как основа анализа, типы структур и их взаимодействие
Разберем способы построения и использования 3-х основных типов структур: формульной, качественной и процессной.
3. Основные критерии оценки структур
Для того, чтобы удостовериться в оптимальности построенной структуры, можно использовать 4 критерия оценки: MECE, фокус анализа, специфичность / соответствие данной индустрии/функции, а также детализированность и приоритизация.
4. Типы задач и подход к их решению
Классификация задач позволяет определить, какие именно данные и какой подход лучше использовать для решения каждого типа. 
5. Построение формульных структур
Практика построения и использования формульных структур на примере различных индустрий. 
6. Построение качественных структур
Практика построения и использования качественных структур на примере различных индустрий. 
7. Построение процессных структур (1) - Value chain
Практика построения цепочки создания стоимости и анализа различных ее этапов для повышения эффективности и оптимизации процессов. 
8. Построение процессных структур (2) - Customer journey
Практика построения клиентского пути для выявления факторов, влияющих на формирование мнения клиента о продукте и его выбор в будущем.
9-12. Разбор кейсов 1-4 типов задач
Разбор кейса 1 тип задачи
Практический разбор задачи на выявление проблемы

Разбор кейса 2 тип задачи
Практический разбор задачи на улучшение показателя

Разбор кейса 3 тип задачи
Практический разбор задачи на выбор правильного решения

Разбор кейса 4 тип задачи
Практический разбор задачи на выявление факторов
Эксперименты
Проверка гипотез и проведение экспериментов — неотъемлемая часть работы над продуктом. Познакомимся с продвинутыми инструментами для запуска A/B-тестов и анализа их результатов. Научимся решать задачи, с которыми рано или поздно сталкивается каждый аналитик: расчёт сложных метрик, ускорение и повышение чувствительности экспериментов, учёт эффекта новизны и систематической ошибки выборки. На практике рассмотрим ratio-метрики, bias adjustment оценщики, CUPED, VWE и другие передовые подходы.
Смотреть уроки
1. Про разработку метрик
Рассмотрим фреймворк и концепцию, которая является ядром оценки и создания метрик.
2. Чувствительность
Универсальная метрика качества статистический критериев, метрик, методов оптимизации и т. п.
3. Ratio-метрики
Что такое ratio? Как ее считать? Какие ошибки можно допустить?
4. Как придумать любую метрику с помощью числителей и знаменателей
Продолжение первой лекции про разработку метрик.
5. Бутстрап: основы теории, квантили и ratio
Теория самого универсального инструмента в статистике.
6. Бакетизация
Обзор и практика методики компрессии данных, которая помогает проводить расчеты быстрее.
7. Про t-тест и Mann-Whitney
Несколько фактов о 2 популярных статистических критериев, про которые важно знать.
8. Направленность
Еще одна метрика качества, которая помогает в задачах исследованиях метрик, методик оптимизации и поисках прокси.
9. Поиск прокси метрик
Теория и практика поиска метрик для метрик.
10. Sampling bias и временные циклы
Проблема систематической ошибки выборки. Internal/External validity.
11. A/A-тестирования: FPR, SRM, Random bias
Обзор и практика методов проверки систем сплитования.
12. Проблема офлайна
Обзор инструментов по проведению экспериментов в офлайне.
13. PSM анализ и проведение эксперимента с нестандартными единицами рандомизации
Обзор и практическое руководство по Propensity Score Matching. Как группы сделать гомогенными по набору признаков для оценки офлайн экспериментов.
14. Анатомия автоматизации расчетов A/B
Обзор популярных схем автоматизации A/B в больших компаниях и написание собственного локального решения.
15. Switchback
Методика проведения гео-хрон экспериментов.
16. Fixed horizon и MDE
Теория и практика планирования времени на эксперимент.
17. Monte Carlo симуляции
Теория и практика методики исследования чувствительности и направленности метрик/методов трансформации. Также является альтернативой классическому планированию времени эксперимента по mde.
18. Трансформация через бокскокс, корень, логарифм, ранжирование и еще раз про направленность
Рассмотрим простые, но эффективные трансформации случайных величин.
19. Стратификация
Обзор и практика по pre/post-stratification. Как знание о пользовательских признаках помогают сократить дисперсию.
20. CUPED
Обзор и практика по CUPED. Как ковариаты и история пользователей влияют на сокращение дисперсии.
21. VWE
Обзор Variance Weighted Estimator от Facebook. Как перевзвешивание пользователей по какой либо из метрик помогает добиться сокращения дисперсии.
22. Проект – пайплайн для расчета / оптимизации метрик
ML для анализа данных
Передовые аналитические решения часто опираются на математические модели и инструменты машинного обучения. Познакомимся с наиболее популярными ML-алгоритмами и научимся с их помощью решать исследовательские задачи: сегментация клиентов, анализ текстов и поиск факторов, влияющих на бизнес-метрики. Подробно рассмотрим методы прогнозирования, оптимизации бизнес-процессов и обработки естественного языка.
Смотреть уроки
1. Обучение машин или Машинное обучение - что это и пригодится ли вам?
- Зачем машинное обучение требуется;
- Примеры прикладных задач;
- Метрики качества;
- Типы моделей;
- - Классическое обучение
- - - Обучение с учителем и без
- - Обучение с подкреплением
- - Ансамблевые методы
- - Нейросети и глубокое обучение
- Feature Importance;
- Кросс-валидация.
2. Основы регрессии
LinearRegression, PolynomialRegression
3. Оценка стоимости участка
  • Работа с гео-фичами
  • Линейные модели
  • CV на временных данных
4. Основы классификации
k-NN, NaiveBayes, SVM, DecisionTrees, LogisticRegression, проблема калибровки.
5. Оценка вероятности ухода клиента из сервиса
На примере услуг агрегатора такси попробуем составить модель для оценки вероятности ухода клиента из сервиса. Немного поговорим про идею North Star и о том, как можно решать эту задачу с помощью моделей классификации. В течение подготовки модели поработаем с геохроно данными, познакомимся с kepler.gl, leaflet, plotly choroplethmap, uber h3.
6. Основы кластеризации
  • DBSCAN
  • k-Means
7. Сегментация пользователей на примере RFM
Разберем типичную задачу RFM сегментации на примере водителей агрегатора такси.
8. Какие задачи решает NLP. Базовые методы предобработки текста
Вы узнаете, какие цели перед собой ставят NLP-специалисты, познакомитесь со спецификой сырых текстовых данных и научитесь их обрабатывать, чтобы проводить первичный текстовый анализ.
9. Выделение признаков из текстов
На основе больших текстовых данных можно строить ML-модели, которые будут влиять на продукт или прояснять его аспекты. Но перед тем, как их обучать, необходимо представить текст в численном виде. Разберем методы выделения числовых признаков из текста, которые часто используются на практике.
10. Анализ тональности
Расскажем, зачем и когда нужно проводить анализ тональности, какие у него разновидности, и что можно использовать для анализа тональности текстов на русском языке здесь и сейчас.
11. Тематическое моделирование
Научим выделять темы из любых текстов и классифицировать тексты по этим темам. Разберем, как можно комбинировать анализ тем с анализом тональности.
12. Прогнозирование экономики продукта
ARPU, GMV, Contribution, применение моделей для прогноза.
13. Детектирование аномалий
Рассмотрим один из подходов к обнаружению аномалий на примере данных торгов акциями одной ликвидной компании.
14. Основы марковских цепей
Сделаем короткое и максимально понятное введение в цепи Маркова.
15. Исследуем траектории пользователей
- Retentioneering
- Process mining tools (process gold, etc)
16. Отлаживание работы модели
Немного порассуждаем о том, как вообще подходить к отладке работы моделей и немного затронем её место в CRISP-DM/аналогичных циклах.
Аналитическая архитектура
Даже самая продвинутая аналитическая система будет бесполезна для бизнеса, если работает на некачественных данных. Обсудим существующие стандарты и требования, рассмотрим архитектуру хранилищ данных, научимся поднимать их с нуля и правильно ставить задачи дата-инженерам. На практике поработаем с ClickHouse, Spark и инструментами сквозной аналитики.
Смотреть уроки
1. Теория. Обзор инструментов для построения продуктовой аналитики (в облаках и on-premise)
Что такое DWH. Очереди событий и потоковая обработка. Еtl-платформы и batch-обработка данных. Аналитическая субд. Системы мониторинга.
2. Теория. Организация работы с сырыми данными
  • Понятие кликстрима и основных паттернов работы с ним;
  • Маппинг сырых данных кликстрима в кликстрим кастомных событий (фильтрация, ренейминг, аггрегация);
  • Понятие сессии и принципы ее построения;
  • Идентификаторы пользователей, их “склейка” и понятие золотой записи;
  • Мониторинг результата: тесты, сверки, статистические сверки, выявление выбросов и аномалий.
3. Теория и практика по Clickhouse
  • Обзор Clickhouse, плюсы и минусы, удобства и ограничения;
  • Запись и хранение данных в Clickhouse, выбор движка таблицы;
  • GUI для работы с Clickhouse, коннекторы для работы с Clickhouse из Python, протоколы и варианты доступа к базе, разница и нюансы.
4. Теория и практика по spark
  • Введение в Spark. Что это такое, зачем нужен, кто использует;
  • Архитектура Spark;
  • Основные концепции Spark - RDD, Dataset, Dataframe;
  • Основные проблемы при работе со Spark, skew, OOM, sizing executors;
  • В качестве практики standalone spark, читаем данные из S3 (или локально) и записываем в S3.
5. СуперПрактика. Прием и обработка кликстрима в Облаке батчом
  • прием данных, формирование батчей, обработка и загрузка данных в хранилище батчами;
  • запись, хранение, и кверинг данных в S3 хранилищах;
  • загрузка данных в Clickhouse через Spark;
  • обработка данных и построение сессий на Clickhouse.
6. Обзор задач на стыке с DWH: почему продуктовая аналитика не только про кликстрим
  • Обогащение данных кликстрима\сессий данными из DWH:
  1. присоединение расширенных свойств к событиям
  2. присоединение расширенных свойств к пользователям;
  • Обогащение данных DWH результатами обработки кликстрима;
  • Регулярное создание и прокидывание профилей, меток и сегментов пользователей в DWH через регулярный прогон аналитических скриптов.
Аналитические команды
Обзор текущей ситуации на рынке в построении аналитических команд. Рассмотрим, как они организованы в разных отраслевых продуктах.