Инженерия данных от проектирования до нетривиальной обработки.
СТАРТ ПРОГРАММЫ 12 ОКТЯБРЯ
ФОРМАТ ОБУЧЕНИЯ ОНЛАЙН
КОМУ ПОДОЙДЁТ JUNIOR+/MIDDLE
ПОЭТАПНАЯ ОПЛАТА НА 5 МЕСЯЦЕВ
УЗНАТЬ ДАТУ СЛЕДУЮЩЕГО СТАРТА
Мы свяжемся с вами и ответим на все ваши вопросы по курсу.
НАУЧИТЕСЬ ПРАВИЛЬНО ГОТОВИТЬ ДАННЫЕ ЛЮБЫХ РАЗМЕРОВ И СЛОЖНОСТИ
Обучающие выборки для машинного обучения и красивые графики для отчётов не появляются сами собой: данные нужно собирать, хранить, валидировать и комбинировать между собой, быстро реагируя на изменения в их структуре.
Стандартный путь:
1/НАЧИНАЕШЬ РАБОТАТЬ С ДАННЫМИ
2/ ПЫТАЕШЬСЯ СДЕЛАТЬ СИСТЕМНО И РАСШИРЯЕМО
3/ ПОНИМАЕШЬ, ЧТО НЕ ХВАТАЕТ ЗНАНИЙ, ЧТОБЫ ОХВАТИТЬ ВСЮ АРХИТЕКТУРУ DWH ЦЕЛИКОМ
Для работы с данными недостаточно знать один инструмент — необходимо учитывать весь спектр взаимосвязей большого хранилища, понимать потребности заказчика и воспринимать данные как конечный продукт.
Сильный инженер данныхза счёт широты знаний может выбрать правильный инструмент под любые задачи, охватить всю архитектуру DWH целиком и донести результат до потребителей данных.
Сильный инженер данных за счёт широты знаний и понимания архитектуры DWH способен подобрать правильные инструменты под любые задачи и донести результат до потребителей данных.
Для эффективной работы с данными одного инструмента недостаточно — необходимо учитывать все взаимосвязи большого хранилища, понимать потребности заказчика и воспринимать данные как конечный продукт.
КОМУ ПОДОЙДЁТ ЭТОТ КУРС:
Постоянно взаимодействуете с базами данных, но хотите лучше разобраться в ETL-процессах и выйти на качественно новый уровень в аналитике.
АНАЛИТИК ДАННЫХ
Уже работаете с хранилищами данных, но хотите систематизировать знания и глубже погрузиться в актуальные технологии.
ИНЖЕНЕР ДАННЫХ
Имеете опыт бэкенд-разработки и хотите применить его для решения задач, связанных с хранением и обработкой больших данных.
BACKEND-РАЗРАБОТЧИК
Занимаетесь развитием систем бизнес-аналитики, хотите освоить архитектуру современных хранилищ данных и научиться их проектировать.
BI-РАЗРАБОТЧИК
какие инструменты освоите>
Хранение
PostgreSQL
Hadoop
S3
Greenplum
Python
SQL
Hive
Обработка
Spark
Kafka
Машинное обучение
ML Flow
Spark ML
SuperSet
Tableu
DataLens
Визуализация
Airflow
Оркестраторы
ЧТО НЕОБХОДИМО ДЛЯ КУРСА [?]
> Знание базового синтаксиса (SELECT, WHERE, GROUP BY, HAVING)
> Умение составлять подзапросы и делать все виды JOIN
> Навык работы с оконными функциями
> Знание синтаксиса языка
> Понимание базовых структур данных (список, словарь, кортеж)
> Владение основами ООП (класс, объект)
> Умение работать с командной строкой
> Знание базовых команд Linux
> Опыт работы с Git
> Знание базового синтаксиса (SELECT, WHERE, GROUP BY, HAVING)
> Умение составлять подзапросы и делать все виды JOIN
> Навык работы с оконными функциями
> Знание синтаксиса языка
> Понимание базовых структур данных (список, словарь, кортеж)
> Владение основами ООП (класс, объект)
> Умение работать с командной строкой
> Знание базовых команд Linux
> Опыт работы с Git
Зарегистрируйтесьна нашей образовательной платформе и пройдите бесплатное тестирование. Это займёт 30-40 минут.
Для доступа к тестированию вам необходимо зарегистрироваться на нашей образовательной платформе, указав ваши имя, фамилию и электронную почту.
Вы сможете продолжить использовать свою учётную запись для обучения на полной версии курса или других наших программах.
Если у вас уже есть учётная запись, можно использовать её.
НАЧАТЬ ТЕСТИРОВАНИЕ
ПРОГРАММАКУРСА://
Начнём погружение в инженерию данных со знакомства с реляционными и MPP базами данных. Рассмотрим их архитектуру, обсудим популярные решения и узнаем, в каких случаях MPP СУБД оказываются лучше традиционных. Научимся готовить PostgreSQL и MPP базы данных на примере Greenplum.
ETL — ключевой процесс в управлении хранилищами данных. Рассмотрим принципы и основные этапы его построения. Познакомимся с популярным инструментом Airflow, подробно разберём его основные компоненты и научимся с его помощью автоматизировать ETL-пайплайны.
Познакомимся с механизмами распределённого хранения больших данных на базе Hadoop, разберём основные паттерны реализации их распределённой обработки. Рассмотрим вопросы отказоустойчивости и восстановления после сбоев. Поговорим о потоковой обработке данных, методах и средствах мониторинга и профилирования заданий Spark.
Data Warehouse — централизованное хранилище данных из разных источников. Познакомимся с его верхнеуровневой логической архитектурой, рассмотрим её основные компоненты и разберём на практике разные подходы к проектированию детального слоя DWH.
Рассмотрим облачные решения и инструменты для построения DWH и Data Lake. Познакомимся с Kubernetes и научимся применять его для работы с данными. Поработаем с облаком на практике, рассмотрим процесс установки и настройки JupyterHub и Spark в Kubernetes.
Рассмотрим основные принципы работы с данными с точки зрения их визуализации и научимся смотреть на данные глазами их потребителя. Познакомимся с Tableau — гибким и мощным BI-инструментом. Узнаем, как он взаимодействует с базами данных, и построим с его помощью интерактивный дашборд для мониторинга DWH платформы.
Познакомимся с теорией распределённого машинного обучения. Научимся работать с популярным модулем Spark ML и рассмотрим подходы к обучению и применению моделей на больших данных.
В работе инженеры часто сталкиваются с подготовкой данных для обучения ML-моделей. Рассмотрим инструменты для построения ML-пайплайнов, версионирования датасетов, организации учёта и трекинга моделей.
На практике часто приходится иметь дело с разными данными и огромным числом интеграций и процессов, выполняющих над ними те или иные преобразования. Познакомимся с популярными подходами к управлению данными, обсудим инструменты для контроля качества данных и отслеживания их происхождения.
Начнём погружение в инженерию данных со знакомства с реляционными и MPP базами данных. Рассмотрим их архитектуру, обсудим популярные решения и узнаем, в каких случаях MPP СУБД оказываются лучше традиционных. Научимся готовить PostgreSQL и MPP базы данных на примере Greenplum.
ETL — ключевой процесс в управлении хранилищами данных. Рассмотрим принципы и основные этапы его построения. Познакомимся с популярным инструментом Airflow, подробно разберём его основные компоненты и научимся с его помощью автоматизировать ETL-пайплайны.
Познакомимся с механизмами распределённого хранения больших данных на базе Hadoop, разберём основные паттерны реализации их распределённой обработки. Рассмотрим вопросы отказоустойчивости и восстановления после сбоев. Поговорим о потоковой обработке данных, методах и средствах мониторинга и профилирования заданий Spark.
Data Warehouse — централизованное хранилище данных из разных источников. Познакомимся с его верхнеуровневой логической архитектурой, рассмотрим её основные компоненты и разберём на практике разные подходы к проектированию детального слоя DWH.
Рассмотрим облачные решения и инструменты для построения DWH и Data Lake. Познакомимся с Kubernetes и научимся применять его для работы с данными. Поработаем с облаком на практике, рассмотрим процесс установки и настройки JupyterHub и Spark в Kubernetes.
Рассмотрим основные принципы работы с данными с точки зрения их визуализации и научимся смотреть на данные глазами их потребителя. Познакомимся с Tableau — гибким и мощным BI-инструментом. Узнаем, как он взаимодействует с базами данных, и построим с его помощью интерактивный дашборд для мониторинга DWH платформы.
Познакомимся с теорией распределённого машинного обучения. Научимся работать с популярным модулем Spark ML и рассмотрим подходы к обучению и применению моделей на больших данных.
В работе инженеры часто сталкиваются с подготовкой данных для обучения ML-моделей. Рассмотрим инструменты для построения ML-пайплайнов, версионирования датасетов, организации учёта и трекинга моделей.
На практике часто приходится иметь дело с разными данными и огромным числом интеграций и процессов, выполняющих над ними те или иные преобразования. Познакомимся с популярными подходами к управлению данными, обсудим инструменты для контроля качества данных и отслеживания их происхождения.
Попробуйте себя в роли инженера данных, познакомьтесь с образовательной платформой и решите, подходит ли вам формат обучения.
> Три урока по проектированию DWH > Урок по управлению данными > Конспекты лекций > Практические задания с разбором
0 ₽
Доступ к демоверсии откроется после регистрации на образовательной платформе.
КАК ПРОХОДИТ ОБУЧЕНИЕ >
ПОДРОБНЕЕ О КУРСЕ
Преподаватели расскажут о курсе и его содержании. Вы узнаете, в чём ценность каждого модуля и как полученные знания помогут в дальнейшей работе.
Формат и нагрузка
— Обучение проходит в интенсивном формате по 3 занятия в неделю. Для каждого домашнего задания установлены мягкие двухнедельные дедлайны. — На учёбу наши студенты тратят в среднем 10−15 часов в неделю — Если у вас возникнут сложности с выполнением заданий, вы сможете обратиться к команде сопровождения — эксперты помогут разобраться с любой задачей из курса.
Инфраструктура
— Работайте со всеми необходимыми инструментами на выделенном сервере
— Совершенствуйте навыки работы с Hadoop, Greenplum, PostgreSQL, Airflow, Spark, Hive и Kubernetes
Формат и нагрузка
—⦁Обучение проходит в⦁интенсивном формате по⦁3 занятия в⦁неделю. Для⦁каждого домашнего задания установлены мягкие двухнедельные дедлайны. —⦁На⦁учёбу наши студенты тратят в⦁среднем 10−15 часов в⦁неделю —⦁Если у⦁вас возникнут сложности с⦁выполнением заданий, вы⦁сможете обратиться к⦁команде сопровождения⦁— эксперты помогут разобраться с⦁любой задачей из⦁курса.
— Работайте со всеми необходимыми инструментами на выделенном сервере — Совершенствуйте навыки работы с Hadoop, Greenplum, PostgreSQL, Airflow, Spark, Hive и Kubernetes
- Имею практический опыт работы со Spark в Kubernetes, понимаю основные подходы к⦁построению хранилищ данных в⦁облаках
- Понимаю принципы работы и⦁подготовки данных для⦁BI-инструментов на⦁базе Tableau
- Применяю ML-модели на⦁больших данных, умею подготавливать данные для⦁их⦁обучения, понимаю подходы к⦁версионированию датасетов с⦁помощью Data Version Control
- Знаю основные подходы к⦁управлению данными на⦁базе DMBOK
Регистрация на образовательной платформе
Для доступа к демоверсии вам необходимо зарегистрироваться на нашей образовательной платформе, указав ваши имя, фамилию и электронную почту.
Вы сможете продолжить использовать свою учётную запись для обучения на полной версии курса или других наших программах.
Если у вас уже есть учётная запись, можно использовать её.
НАЧАТЬ ДЕМОВЕРСИЮ
Стоимостьобучения
> Реляционные и MPP СУБД > Автоматизация ETL-процессов > Big Data > Проектирование DWH > Облачное хранилище > Визуализация данных
Начните осваивать профессию инженера данных, получите доступ к работе на удалённом сервере и поддержке от наших преподавателей.
Мы свяжемся с вами для того, чтобы ответить на все вопросы по ней.
налоговый вычет
Начните учиться сейчас, оформите налоговый вычет и верните до 13% стоимости обучения. Подробнее здесь.
гарантия возврата
Если в течение двух недель решите, что курс вам не подходит — вернём деньги.
Международная оплата
Если вы хотите оплатить обучение из-за рубежа, оставьте заявку — мы с вами свяжемся и подскажем, как это сделать.
ЕВГЕНИЙ ЕРМАКОВ
Более 10 лет опыта работы с данными. Архитектор DWH и систем анализа данных в VK и Яндекс.Такси. Кандидат технических наук, автор более 10 работ в области анализа данных. Соавтор монографии по теории и практике анализа параллельных баз данных.
Модуль:
ПРОЕКТИРОВАНИЕ DWH
ВАЛЕРИЙ СОКОЛОВ
Работает с базами данных уже 17 лет, начинал в банковской сфере с Oracle, затем в FMCG c Oracle и MSSQL, а сейчас развивает Greenplum в Яндекс Go
Модуль:
РЕЛЯЦИОННЫЕ И MPP СУБД
ДИНА САФИНА
Занимается дата-инженерией около десяти лет, основной инструмент в работе — это Apache Airflow. Работала в Играх Mail.ru, а теперь руковожу дата-инженерами в Ozon.Fintech.
Модуль:
АВТОМАТИЗАЦИЯ ETL-ПРОЦЕССОВ
АНТОН ПИЛИПЕНКО
Более 10 лет создаёт и развивает системы для работы с большими данными. На протяжении 6 лет занимается консалтингом и помогает разным продуктам решать задачи в области ML, анализа данных и проведения экспериментов.
Модуль:
BIG DATA
РОМАН БУНИН
Более 8 лет занимается визуализацией данных. Руководил разработкой SaaS BI сервиса в качестве операционного директора. Сертифицированный Tableau специалист, кандидат технических наук, автор блога и Telegram-канала о визуализации данных Reveal the Data
Модуль:
ВИЗУАЛИЗАЦИЯ ДАННЫХ
АЛЕКСАНДР ВОЛЫНСКИЙ
Специалист по Big Data и AI, занимается внедрением сложных кастомных проектов. Участвовал в создании хранилищ данных в компаниях Платформа ОФД, X5 и VK.
Модуль:
ОБЛАЧНОЕ ХРАНИЛИЩЕ
АЛЕКСАНДР САВЧЕНКО
Более 10 лет занимается распределёнными системами для обработки больших данных, облачными решениями и внедрением алгоритмов машинного обучения. Участвовал в разработке платформ для работы с данными в компаниях Amazon, Сбер, Дом. рф, Novartis, Kohl’s
Более 10 лет опыта работы с данными. Архитектор DWH и систем анализа данных в VK и Яндекс.Такси. Кандидат технических наук, автор более 10 работ в области анализа данных. Соавтор монографии по теории и практике анализа параллельных баз данных
Валерий Соколов
Работает с базами данных уже 17 лет, начинал в банковской сфере с Oracle, затем в FMCG c Oracle и MSSQL, а сейчас развивает Greenplum в Яндекс Go
Дина Сафина
Занимается дата-инженерией около десяти лет, основной инструмент в работе — это Apache Airflow. Работала в Играх Mail.ru, а теперь руковожу дата-инженерами в Ozon.Fintech.
Антон Пилипенко
Более 10 лет создаёт и развивает системы для работы с большими данными. На протяжении 6 лет занимается консалтингом и помогает разным продуктам решать задачи в области ML, анализа данных и проведения экспериментов.
АЛЕКСАНДР ВОЛЫНСКИЙ
Специалист по Big Data и AI, занимается внедрением сложных кастомных проектов. Участвовал в создании хранилищ данных в компаниях Платформа ОФД, X5 и VK.
РОМАН БУНИН
Более 8 лет занимается визуализацией данных. Руководил разработкой SaaS BI сервиса в качестве операционного директора. Сертифицированный Tableau специалист, кандидат технических наук, автор блога и Telegram-канала о визуализации данных Reveal the Data.
АЛЕКСАНДР САВЧЕНКО
Более 10 лет занимается распределёнными системами для обработки больших данных, облачными решениями и внедрением алгоритмов машинного обучения. Участвовал в разработке платформ для работы с данными в компаниях Amazon, Сбер, Дом. рф, Novartis, Kohl’s.
ОТЗЫВЫ ВЫПУСКНИКОВ /
скоро следующее видео
Я остался доволен курсом: и технологии новые освоил (причём в прикладном, а не обзорном формате), и пробелы в фундаментальном понимании закрыл. И самое главное — загорелся идеей развернуть своё дата-решение в облаке. В результате я взял сервер на DigitalOcean и сделал там своё рабочее пространство: прямо по всем рекомендациям с уроков развернул в нём кластеры, Jupyter, Superset для визуализации, Airflow для автоматизации, а также Spark и ClickHouse. Остался весьма доволен.
Сейчас я перестраиваю свой пет-проект и переношу на этот сервер — с построением процессов, как разбирали на курсе. У меня, конечно, не BigData, всё куда прозаичнее и меньше, но зато теперь есть реальный опыт ;)
Я работал с машинным обучением и аналитикой, делал скоринговые и рекомендательные модели. На прошлом месте работы я руководил командой, в которой были инженеры данных. И я хотел подтянуть свои компетенции. Сейчас я поменял работу из-за переезда. Компания меньше, поэтому где-то я делаю аналитику, где-то выполняю функции инженера, а где-то разрабатываю.
Сначала я проходил курсы на Stepik, оттуда узнал про курс Hard ML в Karpov.Courses. К собственным конспектам Hard ML регулярно возвращаюсь, чтобы лучше решать задачи по работе. Сомнений при покупке курса по инженерии данных не было, хотя после курса Hard ML ожидания были высокие. По результатам: в целом всё то, что хотел узнать, я узнал. Теоретические видео были интересными и содержательными. Понравился блок по облачным хранилищам, сразу есть возможность развернуть что-то своё. Бывает, пересматриваю блок по ETL — знания оттуда помогают решать рабочие задачи. Немного не хватило практики. Хотелось бы больше заданий на написание кода. С точки зрения формата — хорошо, что все лекции записаны заранее. Я думаю, что это правильно — преподаватели не устают и не выдыхаются. Приятно, что вокруг курсов сформировалось комьюнити, и в чатах помогают как студенты, так и преподаватели.
Я остался доволен курсом: и технологии новые освоил (причём в прикладном, а не обзорном формате), и пробелы в фундаментальном понимании закрыл. И самое главное — загорелся идеей развернуть своё дата-решение в облаке. В результате я взял сервер на DigitalOcean и сделал там своё рабочее пространство: прямо по всем рекомендациям с уроков развернул в нём кластеры, Jupyter, Superset для визуализации, Airflow для автоматизации, а также Spark и ClickHouse. Остался весьма доволен.
Сейчас я перестраиваю свой пет-проект и переношу на этот сервер — с построением процессов, как разбирали на курсе. У меня, конечно, не BigData, всё куда прозаичнее и меньше, но зато теперь есть реальный опыт ;)