СТАРТ ПРОГРАММЫ
В РАЗРАБОТКЕ

ФОРМАТ ОБУЧЕНИЯ
ОНЛАЙН
КОМУ ПОДОЙДЁТ
ДЛЯ JUNIOR/MIDDLE

ПОЭТАПНАЯ ОПЛАТА
НА 5 МЕСЯЦЕВ

ЕВГЕНИЙ ЕРМАКОВ
Инженерия данных от проектирования до нетривиальной обработки.
DATA ENGINEER.
ОБУЧЕНИЕ У НАС |
НАУЧИСЬ ПРАВИЛЬНО ГОТОВИТЬ ДАННЫЕ |
Данные — это новая нефть, и любая конкурентоспособная организация в современном мире обязана использовать накопленные данные во всех своих процессах. Однако обучающие выборки для машинного обучения и красивые графики для отчётов не появляются сами собой: данные нужно собирать, хранить, валидировать, комбинировать между собой и быстро реагировать на изменения в их структуре.

Наш курс предназначен для аналитиков и разработчиков, которые планируют работать с данными. Из курса вы узнаете, как спроектировать хранение и обработку данных, как автоматизировать всю цепочку их преобразований и как сэкономить место и вычислительные ресурсы кластера — а значит, и деньги. Безусловно, даже в таком обширном курсе невозможно рассмотреть все тонкости и аспекты работы, поэтому основной акцент будет сделан на универсальных знаниях, приносящих пользу независимо от конкретных технологий, которые исчисляются тысячами.
ОБУЧЕНИЕ ПРОХОДИТ В ИНТЕНСИВНОМ ФОРМАТЕ ПО 3 ЗАНЯТИЯ В НЕДЕЛЮ
Все лекции доступны в записи
ДОМАШНИЕ ЗАДАНИЯ ВЫ РЕШАЕТЕ НА НАШЕЙ ИНФРАСТРУКТУРЕ
На учёбу наши студенты тратят в среднем 10 часов в неделю
ЕВГЕНИЙ ЕРМАКОВ
Руководитель DWH в Yandex.Go, создатель курса.
ЗДЕСЬ >>> НАЧИНАЕТСЯ ТВОЙ ПУТЬ В МИР DATA ENGINEERING!
Вашими наставниками будут ведущие специалисты из Mail.ru, X5 Retail Group, Yandex.Go, Sbermarket ///
КАК ПРОХОДИТ ОБУЧЕНИЕ
РАБОТАЙТЕ С ДАННЫМИ В ЛЮБЫХ СИСТЕМАХ
— Изучайте архитектуру DWH и подходы к их проектированию
— Сравнивайте на практике BigData-решения на базе Hadoop и реляционные MPP СУБД
— Учитесь работать в облаках и запускать задачи на Airflow
ИСПОЛЬЗУЙТЕ НАШУ ИНФРАСТРУКТУРУ
— Работайте на выделенном сервере
— Практикуйтесь на данных из реальных задач
— Изучайте решения преподавателей и других студентов
ЗАДАВАЙТЕ ЛЮБЫЕ ВОПРОСЫ В ПОДДЕРЖКУ
— Обсуждайте задачи и проекты с преподавателями и менторами
— Вашими наставниками будут Data-инженеры из ведущих компаний России
ДЛЯ КОГО ЭТА ПРОГРАММА:
ДЛЯ ДАТА-САЙЕНТИСТОВ
Вы уже имеете опыт работы в областях, связанных с аналитикой данных или машинным обучением, и хотите понять, как из сырых, грязных данных в недрах DWH рождаются красивые датасеты. Будьте готовы к тому, что для прохождения курса необходимы хорошие знания Python.
ДЛЯ РАЗРАБОТЧИКОВ
Быстрый старт с места в карьер в области данных. Программа поможет осознать проблематику построения хранилища данных во всех аспектах и покажет, как применить свой опыт в инженерии данных — одной из самых востребованных профессий. десятилетия. Для прохождения курса вам потребуется вспомнить SQL.
ПРОГРАММА КУРСА ://
|
Начнём со знакомства с верхнеуровневой логической архитектурой DWH. Поговорим о её основных компонентах, которые будем более подробно изучать в последующих модулях курса. Рассмотрим в теории и разберём на практике разные подходы к проектированию детального слоя.
Открыть программу
1. Архитектура DWH
Начнём с простого: что такое хранилище данных, зачем в нём столько слоев, кто такие Инмон и Кимбалл и в чём различие их подходов к построению DWH.
2. Нормальные формы
Вспомним важные аспекты теории о нормальных формах, нормализации и денормализации.
3. Методология Dimensional modeling
Многомерное моделирование является классическим подходом к созданию витрин данных. Рассмотрим популярные схемы: "звезда", "снежинка", "созвездие". Обсудим таблицы фактов и измерений и поговорим о вариантах хранения медленно меняющихся измерений.
4. Методология Data Vault
Data Vault является одним из современных подходов к проектированию хранилищ данных. На занятии мы рассмотрим его особенности и предпосылки возникновения новой методологии. Также поговорим про основные сущности Data Vault: Hub, Link, Sattelite.
5. Методология Anchor modeling
Что будет, если довести нормализацию до предельной формы? Получится Anchor modeling, особенности которого мы рассмотрим на занятии. Также обсудим основные сущности Anchor modeling: Anchor, Link, Knot, Attribute.
6. Сравнение методологий проектирования
Сравним все рассмотренные подходы между собой и дадим ответ на самый главный вопрос: "Как выбрать оптимальный в каждом отдельном случае?"
|
Познакомимся с MPP базами данных и разберёмся, чем они отличаются от обычных реляционных баз данных. Рассмотрим их архитектуру и поговорим о разнообразных решениях, которые присутствуют на рынке. Попрактикуемся готовить MPP на примере GreenPlum.
Открыть программу
1. Введение в MPP DB
Разберёмся, как работают MPP базы данных. Узнаем, в чём их отличие от обычных реляционных баз данных. Рассмотрим варианты решений, которые есть на рынке, и поговорим об их особенностях.
2. GreenPlum MPP RDBMS
Обсудим особенности и преимущества GreenPlum DB. Рассмотрим, как правильно загружать и хранить данные.
3. Обработка данных в MPP
Рассмотрим особенности построения запросов и изучение плана запроса. Обсудим эффективное получение данных из GreenPlum.
4. Применение R, Python, GeoSpatial в расчётах на GreenPlum
Поговорим о том, как использовать R и Python прямо внутри GreenPlum.
|
Познакомимся с механизмами распределённого хранения и обработки данных и рассмотрим основные паттерны реализации распределённой обработки. Уделим внимание вопросам отказоустойчивости и восстановления после сбоев. Также коснёмся потоковой обработки данных и поговорим о методах и средствах мониторинга и профилирования spark-заданий.
Открыть программу
1. Основы Hadoop. HDFS
Подробно рассмотрим реализацию идеи распределённого отказоустойчивого хранения в Hadoop экосистеме.
2. Основы Hadoop. YARN, MapReduce
Поговорим про универсальный менеджер ресурсов, обсудим реализацию MapReduce парадигмы и обсудим её сильные и слабые стороны.
3. Apache Hive. SQL для Big Data
Рассмотрим SQL поверх больших данных, пройдём путь от запросов до уровня хранения.
4. Apache HBase. Масштабируемая колоночная база данных
Обсудим NoSQL базы данных и рассмотрим колоночную базу данных в мире Hadoop.
5. Основы Apache Spark
Познакомимся с основными идеями Apache Spark. Обсудим, чем он отличается от MapReduce. Поговорим про модель вычисления и RDD.
6. Spark SQL. Dataframes
Обсудим Spark Dataframe и научимся использовать SQL в Spark.
7. Apache Kafkа. Spark streaming
Познакомимся с масштабируемым брокером сообщений. Научимся обрабатывать данные "на лету".
8. Отладка, профилирование и мониторинг Spark job
Поговорим про инструментальные средства отладки и мониторинга. Обсудим, как правильно читать статистику и логи.
|
Познакомимся с Apache Airflow и научимся с его помощью строить пайплайны.
Открыть программу
1. Введение в ETL
Поговорим о том, что такое Apache Airflow, и обсудим, какие у него есть альтернативы. Рассмотрим основные принципы ETL.
2. Знакомство с Airflow
Airflow состоит из DAG'ов (Directed Acyclic Graph), DAG — из тасков. Таск может быть оператором или сенсором. Посмотрим, как всё это выглядит.
3. Что у Airflow под капотом?
Рассмотрим такие компоненты Airflow, как воркер, шедулер, веб-сервер и база данных.
4. Разработка простых пайплайнов
Напишем простой DAG.
5. Разработка своих плагинов, оператор
В Airflow много готовых операторов. Но иногда необходимо автоматизировать работу с каким-нибудь API или реализовать хитрый обработчик для стандартного источника. Для решения этих задач мы научимся писать собственные операторы. Также для ожидания наступления какого-нибудь события в Airflow используются сенсоры. Поэтому мы также научимся писать собственные сенсоры.
6. Сложные пайплайны
У Airflow для более сложных пайплайнов есть дополнительные инструменты: сабдаги и группы тасков для группировки задач, trigger rule и BranchPythonOperator для настраивания правил, а также jinja для параметризации. На этом занятии мы научимся ими пользоваться. Для передачи данных между тасками Airflow использует технологию xcom. В версии 2.0 она легла в основу Taskflow API. Разберёмся, что это такое.
7. Управление Airflow через командную строку
Научимся управлять Airflow через Command Line Interface.
8. Установка Airflow
Есть несколько способов развернуть Airflow: просто запустить pip3 install apache-airflow, развернуть готовый докер-образ или устроить хайлоад с кластеризацией. Поговорим о плюсах и минусах каждого подхода.
9. Настройка Airflow
Посмотрим, какие опции для настройки предоставляет Airflow.
10. Разбор проблем
Разберёмся, что делать, если что-то не работает. Обсудим, где можно найти логи, как настроить алерты, куда идти с вопросами. Поговорим об особенностях и ограничениях Airflow.
|
Познакомимся с облаками и инструментами для построения DWH и Data Lake в облаках. Рассмотрим основы Kubernetes и разберём его архитектуру.
Открыть программу
1. Введение в облака
Рассмотрим основные модели облачных услуг: IaaS, PaaS, SaaS. Обсудим основы создания и использования VM и сервисов.
2. DWH и Data Lake в облаках
Обсудим BigQuery, Snowflake, AWS Athena и разные другие инструменты. Рассмотрим архитектуру хранилищ данных в облаках, обсудим традиционный и облачный подходы, а также поговорим про разнесение на слои данных.
3. DE и Kubernetes
Рассмотрим основы Kubernetes, поговорим про его архитектуру и базовые абстракции. Обсудим инструменты DE в Kubernetes, такие как Spark, Airflow, Presto и др.
У НАС ПРЕПОДАЮТ:
УЧИТЕСЬ У >ЛУЧШИХ>
ЕВГЕНИЙ ЕРМАКОВ
Более 10 лет опыта работы с данными. Архитектор хранилищ данных и систем анализа в Mail.ru Group и Яндекс.Такси. Кандидат технических наук, автор более 10 работ в области анализа данных, соавтор монографии по теории и практике анализа параллельных баз данных.
Руководитель DWH в Yandex.Go
Модули >>>
ДИНА САФИНА
Соосновательница русскоязычного сообщества Airflow. С 2016 года собирает игровые данные в Data Lake на Hadoop с помощью Apache Airflow.
Ведущий разработчик игрового хранилища Mail.ru
Модули >>>
ETL
АНТОН ПИЛИПЕНКО
Последние 8 лет создаёт и развивает системы, связанные с большими данными. На протяжении 5 лет занимается консалтингом и помогает разным продуктам решать задачи в области ML, анализа данных и проведения экспериментов.
Старший Data-инженер в Lamoda
Модули >>>
ВАЛЕРИЙ СОКОЛОВ
Аналитик с опытом работы 17 лет. На протяжении 3 лет развивает инфраструктуру DWH в Яндекс.Такси. Ранее работал с базами данных в Sberbank и BSGV.
Старший аналитик платформы в MARS
Модули >>>
АЛЕКСАНДР ВОЛЫНСКИЙ
Специалист Big Data и AI, занимается внедрением сложных кастомных проектов. Участвовал в создании хранилищ данных в Платформа ОФД, X5 и Mail.ru.
Архитектор PaaS в Cloud Solutions Mail.ru
Модули >>>
ПОЛНАЯ ВЕРСИЯ
+ Модуль «Проектирование DWH»
+ Модуль «MPP реляционные СУБД»
+ Модуль «Big Data»
+ Модуль «ETL»
+ Модуль «Хранилище в облаках»
Все модули курса. Доступ к поддержке от наших преподавателей, готовых ответить на любые вопросы. Возможность работы на удалённом сервере.
25 000 ₽
100 000 ₽
ПОМЕСЯЧНО:
ПОЛНАЯ ОПЛАТА:
Оплата в течение
5 месяцев
Скидка 25 000 ₽
при полной оплате
125 000₽
УЗНАТЬ БОЛЬШЕ
Мы свяжемся с вами и ответим на все ваши вопросы по курсу. Если вы хотите оплатить курс, перейдите по этой ссылке.
Удобный способ связи
FAQ
Какой уровень требуется для прохождения курса?
Никаких специализированных знаний в области DWH не требуется — вы всё узнаете из курса. Однако важно уметь писать код на Python и легко составлять SQL запросы.
Можно ли посмотреть отзывы уже прошедших курс студентов?
Это первый запуск курса. Как студенты первого потока вы получите доступ ко всем обновлениям в течение года, если курс будет обновляться.
Как оформить поэтапную оплату?
Поэтапная оплата происходит равными платежами раз в месяц. Для оплаты поэтапно просто перейдите по ссылке на странице оплаты.
Как проходит обучение?
Вы смотрите лекции, выполняете домашние задания на удалённом сервере. А если у вас появляются вопросы, вы можете задавать их менторам или преподавателям в Slack.
Если я пропущу лекцию, смогу ли я посмотреть её потом?
Да, конечно. Записи лекций будут вам всегда доступны.
Какой язык программирования мы будем использовать?
Нам потребуются Python для работы с Airflow и SQL для доступа к реляционным СУБД.
Какие технологии будут использоваться на курсе?
Мы будем применять много разных технологий. Основными будут Greenplum, Kubernetes, Spark, Airflow, Presto, HDFS, Yarn, Spark, Hive.
Могу ли я получить помощь в перерывах между занятиями?
Конечно. Все студенты курса общаются с преподавателями и между собой в Slack. В чате можно задать любые вопросы по обучению, наши преподаватели обязательно ответят вам.
Зачем платить деньги, если я могу пройти ваши бесплатные курсы?
Справедливое замечание. В открытых источниках есть много бесплатной информации, например курсы на Stepik.

Однако, не всем подходит формат самостоятельного обучения. Обучаясь в компании опытных наставников и других студентов, вы получите ощутимые результаты значительно быстрее.
Я начал курс, но мне не понравилось. Вы вернёте деньги?
Да. В течение двух недель после начала курса вы можете вернуть оплату за весь курс. Также в течение месяца мы готовы вернуть вам сумму за вычетом уже пройденного материала.
Получу ли я сертификат?

Конечно! После успешного завершения курса вы получите электронный сертификат, подтверждающий его прохождение.


Для этого необходимо выполнить два условия:

1. Сделать не менее половины домашних заданий курса.

2. Выполнить финальные проекты каждого блока и получить на него рецензию.


Однако важно помнить, что как при приёме на работу, так и непосредственно в работе главное — это полученные Hard и Soft Skills.

Есть ли у вас образовательная лицензия?
Нет. Мы оказываем информационно-консультационные услуги.
У меня есть свои задачи по работе с данными, которые я хочу научиться решать. Поможет ли мне ваш курс?
Уверены, что поможет. Вы всегда можете посоветоваться в чате с кураторами или другими студентами.
ПО ЛЮБЫМ ВОПРОСАМ ОБРАЩАЙТЕСЬ НА НАШУ ПОЧТУ
ПО ЛЮБЫМ ВОПРОСАМ ОБРАЩАЙТЕСЬ 
НА НАШУ ПОЧТУ
ХОТИТЕ НАНЯТЬ НАШИХ СТУДЕНТОВ?
Каждый месяц у нас выпускаются новые ученики. Мы бесплатно поможем вам с наймом. Оставьте заявку, и мы с вами свяжемся.
УЗНАТЬ БОЛЬШЕ
Мы свяжемся с вами и ответим на все ваши вопросы по найму учеников.