ПРОГРАММА КУРСА ://

PYTHON ДЛЯ РАБОТЫ С ДАННЫМИ
Заложим фундамент: освоим основы программирования, познакомимся с библиотеками для анализа данных, визуализации и работы с файловой системой. Будет непросто, но крутые аналитики обязаны знать эти инструменты. С первого дня начнем работать на удалённом сервере, все по-настоящему!
Смотреть уроки
1. Введение
Команда курса расскажет, как проходит обучение и что вас ждет на специализации. В свою очередь вы расскажете нам, что уже умеете и чему хотите научиться. Это поможет преподавателям при необходимости скорректировать программу курса и сделать обучение еще интереснее.
2. Основы Python
Познакомимся с Jupyter Notebook, научимся создавать переменные разных типов и увидим два наиболее важных типа данных — списки и словари. Также освоим работу с условиями, циклами и научимся использовать методы для работы со списками.
3. Знакомство с библиотекой Pandas
Разберем основные приемы работы с данными — фильтрация, агрегация, сортировка, преобразование данных. Закрепим знания на практике, разберем первый аналитический кейс, исследуем реальные данные продаж интернет-магазина.
4. Погружение в библиотеку Pandas
Займёмся более подробным решением аналитических задач — с эксплоративным анализом данных, созданием метрик и анализом распределений. Познакомимся с объединением датафрэймов и применением функций к колонкам датафрэйма. Освоим новые методы, посмотрим на пандасовские серии, научимся создавать анонимные функции и начнём визуализировать данные.
5. Работа с грязными данными
Изучим, как действовать при работе с неструктурированными данными, чтобы привести их в форму таблицы — на практике довольно часто вы будете сталкиваться с неструктурированными данными, которые не являются готовыми таблицами. Разберем, как переводить такие данные в привычный нам вид и работать с файлами в Python. Также познакомимся с набором разнообразных методов датафрэйма и краткой записью для создания списков в Python.
6. Сводные таблицы и пропущенные значения
Сконцентрируемся на аналитике и разберем кейс с рекламными данными. Освоим сводные таблицы и методы для работы с пропущенными значениями.
7. Модификация графиков и оконные функции
Усовершенствуем навыки визуализации данных и научимся кастомизировать графики. Разберём некоторые тонкости обращения к данным и изучим применение оконных функций.
8. Знакомство с API
Научимся работать с API ВКонтакте, Яндекс.Метрики, Google Documents, Telegram. Аналитики работают с этими системами на повседневной основе. Знание API этих сервисов позволит вам автоматизировать часы ручной работы.
git
Познакомимся с командной строкой и широко используемым инструментом контроля версий — Git. Обсудим базовые команды, научимся работать с репозиториями и увидим, как Git позволяет объединять деятельность множества разработчиков и аналитиков в работе над одним проектом.
Смотреть уроки
1. Что такое контроль версий и зачем он нужен?
Познакомимся с терминалом и рядом простых утилит командной строки. Узнаем, что такое Git. Научимся создавать пару публичный-приватный ключ и клонировать репозиторий. 
2. Продвинутый функционал Git
Освоим типичный паттерн работы с Git — от «пулла» до «пуша» через «брэнчи». Почувствуем на себе «мёрдж конфликт».
SQL
Освоим основы синтаксиса SQL. На примере ClickHouse научимся работать с системой управления базами данных и подключаться к ней с помощью Python. Начнем учиться грамотно визуализировать наши данные.
Смотреть уроки
1. Введение в базы данных и операторы SQL
Узнаем, что такое базы данных и какими они бывают, откуда берутся данные и зачем их хранить в виде базы данных. Познакомимся с СУБД ClickHouse и научимся подключаться к ней. Научимся делать базовые запросы SQL: выбор колонок, фильтрацию и сортировку данных.
2. Группировка и агрегатные функции
Научимся проводить вычисления, предварительно группируя данные: находить минимальное, среднее, максимальное значения, подсчитывать сумму и количество уникальных и неуникальных значений.
3. Объединение таблиц — JOIN
Изучим разные виды объединений таблиц и научимся находить элементы в одной таблице, которым соответствуют значения в другой.
4. Типы данных и их преобразование
Узнаем, что такое Redash и зачем он нужен. Познакомимся с различными типами данных: булевы, числовые, строковые, временные, Nullable, массивы и геокоординаты. Узнаем, как менять тип данных и что такое переполнение типов.
5. Подзапросы, представления, создание таблиц
Научимся использовать подзапросы и представления таблиц, а также вставлять новые данные. Узнаем, как создавать, сохранять и удалять таблицы.
6. Python + SQL
Научимся подключаться к ClickHouse через Python c использованием библиотеки pandahouse. Познакомимся с библиотекой Prophet, попрактикуемся в прогнозировании временных рядов и визуализации предсказаний.
7. Графики, дашборды и мониторинги
Приступим к визуализации данных. Узнаем, что такое дашборды, зачем они нужны и какими бывают. Также поговорим о том, какие бывают метрики и в каких случаях возникает необходимость создавать свои метрики.
8. SQL: оконные функции
Научимся с помощью оконных функций получать значения соседних ячеек, не меняя при этом группировку строк. Изучим синтаксис оконных функций и попрактикуемся на различных примерах.
9. Развертывание аналитического стека — ClickHouse + Redash
Рассмотрим рабочую ситуацию, когда аналитический стек отсутствует и его необходимо поднять своими руками. Поработаем с Linux серверами в терминале, доведем до работающего состояния необходимый стек.
теория вероятностей
В данном блоке мы познакомимся с основами теории вероятностей. Знания в этой области необходимы для более глубоко понимания прикладной статистики.
Смотреть уроки
1. Введение. Сложение и произведение вероятностей
Понимание основ теории вероятностей необходимо любому аналитику, чтобы хорошо разбираться в статистике и А/B тестах. В первом уроке мы разберёмся с основными понятиями и формулами расчёта вероятности.
2. Формула Бернулли
В этом уроке научимся решать более сложные задачи при помощи формулы Бернулли, а также затронем базовые темы комбинаторики.
3. Условная вероятность
Научимся оценивать условную вероятность и разберём ряд прикладных примеров, когда понимание принципов теории вероятностей позволяет избежать распространённых заблуждений.
статистика
Научимся планировать A/B тесты и проверять статистические гипотезы. Акцент будет сделан на приложении статистики к решению задач из индустрии.

*параллельно с прохождением этого блока у вас будет промежуточный проект
Смотреть уроки
1. Введение в статистику
Начнем знакомство с математической статистикой, разберем основные понятия — выборка, генеральная совокупность, метрики. Поработаем с базовыми показателями, необходимыми для проведения разведочного анализа данных — среднее, медиана, дисперсия, квартили.
2. Центральная предельная теорема
Разберем важную тему нормального распределения и узнаем, что такое центральная предельная теорема.
3. Статистический вывод
Научимся проверять продуктовые гипотезы, используя математическую статистику. Узнаем, как рассчитываются p-уровень значимости и доверительные интервалы.
4. Сравнение средних значений, t-тест
Научимся сравнивать две группы, применяя для этого t-критерий.
5. Сравнение средних значений, дисперсионный анализ
На практике количество групп часто превышает две, и с этой ситуацией t-критерий не справляется. Научимся проводить дисперсионный анализ, который применяется именно в таких случаях.
6. Корреляция и регрессия
Помимо сравнения двух и более групп хорошего аналитика часто интересует характер взаимосвязи между двумя величинами, а также ее значимость и сила. Для этих целей научимся пользоваться корреляционным и регрессионным анализом.
7. Множественная регрессия и немного больше
В работе аналитика часто возникает задача предсказания значения зависимой переменной по значениям сразу нескольких независимых. Для этого научимся проводить множественный регрессионный анализ, а также затронем тему логистической регрессии и кластерного анализа.
8. Промежуточный проект
Промежуточный проект позволит лучше познакомиться с частыми задачами из жизни аналитика и подготовиться к проекту в конце курса. Мы предложим несколько вариантов проектов на выбор, работая над которыми вы сможете применить и отточить все навыки, которые у вас есть на данный момент, а именно: написание кода на Python, написание SQL-запросов и расчет статистических метрик. Как и в любой крупной компании, вы пройдете code-ревью и получите фидбэк.
|
3 занятия, 2 домашние работы
Практическое A/B тестирование подразумевает большую часть работы с математической статистикой. На лекциях рассмотрим основную проблематику экспериментов и закрепим полученные знания с помощью домашних заданий. Блок проводится совместно с партнёром experiment fest (2020).
Блок проводится совместно с партнёром
Смотреть уроки
1. Введение в проблематику A/B тестов
Поговорим про современные подходы к экспериментам и обсудим, почему так важна статистика, как работают команды экспериментов в разных компаниях и почему им уделяется столько внимания.
2. Bootstrap как метод проверки статистических гипотез
Bootstrap — это мощный набор инструментов, который позволяет рассчитывать крайне сложные метрики и проводить эксперименты при помощи ресэмплинга. На лекции разберем его теоретические и практические допущения.
3. A/A тесты и проверка качества систем сплитования
A/A тесты — необходимый и полезный этап, который позволяет убедиться, что наша система сплитования трафика не сломана. Нарушение в её работе могут привести к тому, что результат эксперимента будет объясняться не качеством гипотезы, а техническими проблемами.
4. А/B тесты: практика
Самое время применить на практике все полученные знания: поработать с продуктовыми логами и проанализировать результаты нескольких A/B тестов. Предобработаем данные, выберем нужный статистический критерий и интерпретируем результаты на понятном для бизнеса языке.
5. Сложные кейсы и особенности
Обсудим, что делать, если при обработке данных экспериментов вы столкнулись со следующими сложностями:
  • Ненормальные и необычной формы распределения данных
  • Неравные размеры выборок
  • Слишком большая дисперсия данных
Разберем несколько кейсов из практики и возможные варианты решения такого рода проблем.
визуализация
Важный навык аналитика — уметь правильно представлять результаты своей работы в виде интерактивного дашборда. Посмотрим, какие бывают типы дашбордов, научимся подбирать и оформлять графики под разные задачи, узнаем, на чём необходимо делать акценты при верстке, а также попрактикуемся собирать требования к дашборду от заказчика. Всё это сделаем в BI-системе Tableau.
Смотреть уроки
1. Зачем нужна визуализация. Основы Tableau
Познакомимся с тем, какие задачи решает визуализация данных, почему она важна для бизнеса, разберем основные типы графиков и научимся строить их в Tableau.
2. Как сделать дашборд
Узнаем, какие существуют типы дашбордов и как это влияет на их дизайн. Познакомимся с базовыми правилами верстки и графического дизайна и научимся создавать дашборды в Tableau.
3. Сбор требований: Dashboard Canvas
Разберёмся, как собирать требования к дашборду от бизнес-заказчика, а также рассмотрим примеры создания дашбордов и получим задание на мини-проект.
4. Расчёты и интерактивность
Познакомимся с основными видами расчётов и научимся создавать интерактивные графики и дашборды.
5. Разбор дашбордов
Разберём дашборды студентов, внесем в них улучшения, поймем, как исправлять типичные ошибки и обсудим все вопросы, возникшие во время выполнения заданий.
6. Разбор мини-проектов
Разберём мини-проекты студентов, скорректируем ошибки, обсудим оставшиеся после выполнения вопросы.
развитие продукта
Сформируем продуктовое видение и более глубокое понимание бизнеса и продукта. Научимся находить общий язык с продакт-менеджерами и поймём, каким образом можно использовать анализ данных для развития бизнеса. Также рассмотрим, как организована работа команд в IT-продуктах.
Смотреть уроки
1. Методики определения потребностей пользователя: основные фреймворки
Поговорим о фреймворке JTBD. Узнаем, что такое CJM и кто такие Personas. Разберём все это на реальных примерах.
2. Основы управления продуктом
Узнаем, что такое Business Model Canvas и Lean Canvas, зачем они нужны бизнесу и чем отличаются друг от друга. Также поговорим о HADI-циклах в управлении продуктом и разберём несколько реальных кейсов.
3. Методология управления IT-проектами
Обсудим, какие фреймворки управления проектами используют IT-компании. Также поговорим об основах самых популярных методологий разработки и управления проектами: waterfall, agile, scrum, kanban и др.
продуктовая аналитика
Поймём, какую ценность может приносить аналитика и как объяснить её бизнесу. Научимся определять потребности пользователей продукта и сегментировать их, считать юнит-экономику, выбирать правильные продуктовые метрики и драйвить рост бизнеса с помощью непрерывной проверки гипотез.
Смотреть уроки
1. Метрики продукта
Обсудим, что такое метрики и зачем они нужны. Узнаем, какие существуют особенности расчёта метрик в различных инструментах. Также поговорим про физический смысл и интерпретацию метрик и потренируемся считать метрики по сырым данным.
2. Экономика продукта
Узнаем, зачем нужно считать экономику продукта и какие существуют подходы к ее расчёту. Поговорим о подводных камнях при использовании различных методов, а также посчитаем экономику для нескольких типовых бизнесов.
3. Приоритизация
Обсудим, зачем нужно приоритизировать гипотезы и какие существуют подходы к приоритизации гипотез. Поговорим о том, как не дать умереть нашему продуктовому бэклогу, а также попрактикуемся приоритизировать различные гипотезы и проводить их финансовую оценку.
4. Методы сегментации клиентов и целевой аудитории
Обсудим, зачем необходимо сегментировать целевую аудиторию. Поговорим об особенностях сегментации в B2B и B2C продуктах. Познакомимся с популярными критериями выделения сегментов и методами сегментации: описательными (модель 5W, Khramatrix и др.) и аналитическими (RFM, когорты, k-means и др.).
5. Основы презентации результатов исследования заказчику
Поговорим об основных правилах создания и оформления отчета или презентации. Обсудим, какие существуют основные способы и форматы донесения информации (PDF, Power Point, BI, Excel и т.п.) и в каких случаях используется тот или иной способ. Узнаем, что такое Пирамида Минто, правило MECE и как правильно структурировать информацию.
Airflow
Ранее вы уже изучали, как можно решать задачи при помощи python, sql и других инструментов. Порой были такие задачи, которые нужно было делать ежедневно, например, следить за курсом акций, считать KPI или проверять успехи любимой команды. Для решения таких задач есть свои собственные инструменты — как простые шедулеры, так и сложные системы оркестрирования процессов. Airflow как раз такая система. Далее мы познакомимся с тем, как устроена его работа и как им пользоваться для решения задач.
Смотреть уроки
1. Cron и основные принципы Airflow
Мы познакомимся с инструментами, которые позволяют выполнять свои задачи по расписанию. Разберем пример простого шедулера — crontab. Далее посмотрим, как базово устроен airflow и какие основные концепции лежат в его основе
2. Разбор устройства DAG в Airflow
Попробуем написать свой собственный dag на примере решения ETL задачи. Разберем, как правильно писать код для DAG и тасков.
3. Создаем свой собственный DAG
Попробуем написать уже готовый к продакшену DAG. Изучим, чем отличается Airflow 2 от Airflow 1 и как правильно использовать новое Task Flow API. Научимся отправлять сообщения об успеха или ошибках в наших тасках
как искать работу
На рынке труда грамотная презентация своих навыков порой так же важна, как и сами навыки, а неумение правильно вести коммуникацию может помешать устроиться на работу даже опытному аналитику. В этом блоке мы обсудим базовые вопросы, касающиеся поиска работы в сфере анализа данных, на примерах рассмотрим разные этапы поиска работы и зададим вопросы профессиональному рекрутеру одной из крупнейших IT-компаний России.
Смотреть уроки
1. Разные роли аналитика в бизнесе
Обсудим, какие бывают аналитики, чем аналитик в стартапе отличается от аналитика в корпорации и какие типовые задачи решает аналитик в продуктовой команде. Поговорим о том, как индустрия, организационная структура и зрелость компании влияют на задачи аналитика. Также затронем тему ценности аналитики для бизнеса.
2. Собеседование и резюме
Поговорим о том, что тимлиды ищут в Junior-аналитиках. Рассмотрим, как правильно представлять свои достижения и завершенные проекты, подготовимся к типичным задачам на собеседованиях.
3. Интерактивное занятие
Обсудим, уточним и дополним присланные студентами резюме. После внесения изменений проведем отбор резюме и поговорим о требованиях к кандидатам. Проведем онлайн-скрининг с одним из студентов.
итоговый проект
Вы попробуете себя в роли аналитика, выполняющего тестовое задание в компанию. Вы получите доступ к удалённому серверу и базам данных и попрактикуетесь решать задачи, с которыми в своей работе сталкиваются аналитики. Вам будут представлены на выбор разные аналитические проекты, в ходе работы над которыми вы сможете применить все навыки, которые приобрели за время прохождения курса. Вы будете писать код, работать с базами данных, автоматизировать рутинные задачи, искать инсайты в данных и анализировать результаты A/B-тестов. Как и в любой крупной компании, с помощью Git вы пройдёте code-ревью и получите фидбэк. Итоговый проект позволит вам закрепить полученные знания и непременно сделает ваше резюме более интересным для будущего работодателя. Пример проекта нашей студентки по итогам обучения на курсе