Я даю согласие на обработку моих персональных данных.
НАУЧИТЕСЬ ПРАВИЛЬНО ГОТОВИТЬ ДАННЫЕ ЛЮБЫХ РАЗМЕРОВ И СЛОЖНОСТИ
Обучающие выборки для машинного обучения и красивые графики для отчётов не появляются сами собой: данные нужно собирать, хранить, валидировать и комбинировать между собой, быстро реагируя на изменения в их структуре.
Стандартный путь:
1/НАЧИНАЕШЬ РАБОТАТЬ С ДАННЫМИ
2/ ПЫТАЕШЬСЯ СДЕЛАТЬ СИСТЕМНО И РАСШИРЯЕМО
3/ ПОНИМАЕШЬ, ЧТО НЕ ХВАТАЕТ ЗНАНИЙ, ЧТОБЫ ОХВАТИТЬ ВСЮ АРХИТЕКТУРУ DWH ЦЕЛИКОМ
Для работы с данными недостаточно знать один инструмент — необходимо учитывать весь спектр взаимосвязей большого хранилища, понимать потребности заказчика и воспринимать данные как конечный продукт.
Сильный инженер данныхза счёт широты знаний может выбрать правильный инструмент под любые задачи, охватить всю архитектуру DWH целиком и донести результат до потребителей данных.
Сильный инженер данных за счёт широты знаний и понимания архитектуры DWH способен подобрать правильные инструменты под любые задачи и донести результат до потребителей данных.
Для эффективной работы с данными одного инструмента недостаточно — необходимо учитывать все взаимосвязи большого хранилища, понимать потребности заказчика и воспринимать данные как конечный продукт.
КОМУ ПОДОЙДЁТ ЭТОТ КУРС:
Постоянно взаимодействуете с базами данных, но хотите лучше разобраться в ETL-процессах и выйти на качественно новый уровень в аналитике.
АНАЛИТИК ДАННЫХ
Уже работаете с хранилищами данных, но хотите систематизировать знания и глубже погрузиться в актуальные технологии.
ИНЖЕНЕР ДАННЫХ
Имеете опыт бэкенд-разработки и хотите применить его для решения задач, связанных с хранением и обработкой больших данных.
BACKEND-РАЗРАБОТЧИК
Занимаетесь развитием систем бизнес-аналитики, хотите освоить архитектуру современных хранилищ данных и научиться их проектировать.
BI-РАЗРАБОТЧИК
какие инструменты освоите>
Хранение
PostgreSQL
Hadoop
S3
Greenplum
Python
SQL
Hive
Обработка
Spark
Kafka
Машинное обучение
ML Flow
Spark ML
SuperSet
Tableu
DataLens
Визуализация
Airflow
Оркестраторы
ЧТО НЕОБХОДИМО ДЛЯ КУРСА [?]
> Знание базового синтаксиса (SELECT, WHERE, GROUP BY, HAVING)
> Умение составлять подзапросы и делать все виды JOIN
> Навык работы с оконными функциями
> Знание синтаксиса языка
> Понимание базовых структур данных (список, словарь, кортеж)
> Владение основами ООП (класс, объект)
> Умение работать с командной строкой
> Знание базовых команд Linux
> Опыт работы с Git
> Знание базового синтаксиса (SELECT, WHERE, GROUP BY, HAVING)
> Умение составлять подзапросы и делать все виды JOIN
> Навык работы с оконными функциями
> Знание синтаксиса языка
> Понимание базовых структур данных (список, словарь, кортеж)
> Владение основами ООП (класс, объект)
> Умение работать с командной строкой
> Знание базовых команд Linux
> Опыт работы с Git
Оставьте заявку на консультацию: наш специалист задаст вам нужные вопросы и вышлет бесплатный тест, чтобы лучше подобрать курс, который максимально подойдет для вашей цели.
Для доступа к тестированию вам необходимо зарегистрироваться на нашей образовательной платформе, указав ваши имя, фамилию и электронную почту.
Вы сможете продолжить использовать свою учётную запись для обучения на полной версии курса или других наших программах.
Если у вас уже есть учётная запись, можно использовать её.
НАЧАТЬ ТЕСТИРОВАНИЕ
ПРОГРАММАКУРСА://
Начнём погружение в инженерию данных со знакомства с реляционными и MPP базами данных. Рассмотрим их архитектуру, обсудим популярные решения и узнаем, в каких случаях MPP СУБД оказываются лучше традиционных. Научимся готовить PostgreSQL и MPP базы данных на примере Greenplum.
ETL — ключевой процесс в управлении хранилищами данных. Рассмотрим принципы и основные этапы его построения. Познакомимся с популярным инструментом Airflow, подробно разберём его основные компоненты и научимся с его помощью автоматизировать ETL-пайплайны.
Познакомимся с механизмами распределённого хранения больших данных на базе Hadoop, разберём основные паттерны реализации их распределённой обработки. Рассмотрим вопросы отказоустойчивости и восстановления после сбоев. Поговорим о потоковой обработке данных, методах и средствах мониторинга и профилирования заданий Spark.
Data Warehouse — централизованное хранилище данных из разных источников. Познакомимся с его верхнеуровневой логической архитектурой, рассмотрим её основные компоненты и разберём на практике разные подходы к проектированию детального слоя DWH.
Рассмотрим облачные решения и инструменты для построения DWH и Data Lake. Познакомимся с Kubernetes и научимся применять его для работы с данными. Поработаем с облаком на практике, рассмотрим процесс установки и настройки JupyterHub и Spark в Kubernetes.
Рассмотрим основные принципы работы с данными с точки зрения их визуализации и научимся смотреть на данные глазами их потребителя. Познакомимся с Tableau — гибким и мощным BI-инструментом. Узнаем, как он взаимодействует с базами данных, и построим с его помощью интерактивный дашборд для мониторинга DWH платформы.
Познакомимся с теорией распределённого машинного обучения. Научимся работать с популярным модулем Spark ML и рассмотрим подходы к обучению и применению моделей на больших данных.
В работе инженеры часто сталкиваются с подготовкой данных для обучения ML-моделей. Рассмотрим инструменты для построения ML-пайплайнов, версионирования датасетов, организации учёта и трекинга моделей.
На практике часто приходится иметь дело с разными данными и огромным числом интеграций и процессов, выполняющих над ними те или иные преобразования. Познакомимся с популярными подходами к управлению данными, обсудим инструменты для контроля качества данных и отслеживания их происхождения.
Начнём погружение в инженерию данных со знакомства с реляционными и MPP базами данных. Рассмотрим их архитектуру, обсудим популярные решения и узнаем, в каких случаях MPP СУБД оказываются лучше традиционных. Научимся готовить PostgreSQL и MPP базы данных на примере Greenplum.
ETL — ключевой процесс в управлении хранилищами данных. Рассмотрим принципы и основные этапы его построения. Познакомимся с популярным инструментом Airflow, подробно разберём его основные компоненты и научимся с его помощью автоматизировать ETL-пайплайны.
Познакомимся с механизмами распределённого хранения больших данных на базе Hadoop, разберём основные паттерны реализации их распределённой обработки. Рассмотрим вопросы отказоустойчивости и восстановления после сбоев. Поговорим о потоковой обработке данных, методах и средствах мониторинга и профилирования заданий Spark.
Data Warehouse — централизованное хранилище данных из разных источников. Познакомимся с его верхнеуровневой логической архитектурой, рассмотрим её основные компоненты и разберём на практике разные подходы к проектированию детального слоя DWH.
Рассмотрим облачные решения и инструменты для построения DWH и Data Lake. Познакомимся с Kubernetes и научимся применять его для работы с данными. Поработаем с облаком на практике, рассмотрим процесс установки и настройки JupyterHub и Spark в Kubernetes.
Рассмотрим основные принципы работы с данными с точки зрения их визуализации и научимся смотреть на данные глазами их потребителя. Познакомимся с Tableau — гибким и мощным BI-инструментом. Узнаем, как он взаимодействует с базами данных, и построим с его помощью интерактивный дашборд для мониторинга DWH платформы.
Познакомимся с теорией распределённого машинного обучения. Научимся работать с популярным модулем Spark ML и рассмотрим подходы к обучению и применению моделей на больших данных.
В работе инженеры часто сталкиваются с подготовкой данных для обучения ML-моделей. Рассмотрим инструменты для построения ML-пайплайнов, версионирования датасетов, организации учёта и трекинга моделей.
На практике часто приходится иметь дело с разными данными и огромным числом интеграций и процессов, выполняющих над ними те или иные преобразования. Познакомимся с популярными подходами к управлению данными, обсудим инструменты для контроля качества данных и отслеживания их происхождения.
Преподаватели расскажут о курсе и его содержании. Вы узнаете, в чём ценность каждого модуля и как полученные знания помогут в дальнейшей работе.
Формат и нагрузка
— Обучение проходит в интенсивном формате по 3 занятия в неделю. Для каждого домашнего задания установлены мягкие двухнедельные дедлайны. — На учёбу наши студенты тратят в среднем 10−15 часов в неделю — Если у вас возникнут сложности с выполнением заданий, вы сможете обратиться к команде сопровождения — эксперты помогут разобраться с любой задачей из курса.
Инфраструктура
— Работайте со всеми необходимыми инструментами на выделенном сервере
— Совершенствуйте навыки работы с Hadoop, Greenplum, PostgreSQL, Airflow, Spark, Hive и Kubernetes
Формат и нагрузка
—⦁Обучение проходит в⦁интенсивном формате по⦁3 занятия в⦁неделю. Для⦁каждого домашнего задания установлены мягкие двухнедельные дедлайны. —⦁На⦁учёбу наши студенты тратят в⦁среднем 10−15 часов в⦁неделю —⦁Если у⦁вас возникнут сложности с⦁выполнением заданий, вы⦁сможете обратиться к⦁команде сопровождения⦁— эксперты помогут разобраться с⦁любой задачей из⦁курса.
— Работайте со всеми необходимыми инструментами на выделенном сервере — Совершенствуйте навыки работы с Hadoop, Greenplum, PostgreSQL, Airflow, Spark, Hive и Kubernetes
- Имею практический опыт работы со Spark в Kubernetes, понимаю основные подходы к⦁построению хранилищ данных в⦁облаках
- Понимаю принципы работы и⦁подготовки данных для⦁BI-инструментов на⦁базе Tableau
- Применяю ML-модели на⦁больших данных, умею подготавливать данные для⦁их⦁обучения, понимаю подходы к⦁версионированию датасетов с⦁помощью Data Version Control
- Знаю основные подходы к⦁управлению данными на⦁базе DMBOK
Регистрация на образовательной платформе
Для доступа к демоверсии вам необходимо зарегистрироваться на нашей образовательной платформе, указав ваши имя, фамилию и электронную почту.
Вы сможете продолжить использовать свою учётную запись для обучения на полной версии курса или других наших программах.
Если у вас уже есть учётная запись, можно использовать её.
НАЧАТЬ ДЕМОВЕРСИЮ
Стоимостьобучения
> Реляционные и MPP СУБД > Автоматизация ETL-процессов > Big Data > Проектирование DWH > Облачное хранилище > Визуализация данных
Начните осваивать профессию инженера данных, получите доступ к работе на удалённом сервере и поддержке от наших преподавателей.
> Big ML > Управление моделями > Управление данными > Поддержка от преподавателей > Работа на удалённом сервере
7 990 ₽ / мес. *
Поэтапная оплата или рассрочка от партнёра:
* При рассрочке на 12 месяцев
104 000 ₽
Срок рассрочки можно выбрать на этапе оплаты. Доступны опции от 10 до 24 мес.
-23%
-8%
Промокоды, выданные ранее 01.11.2023, а также дополнительные скидки, за исключением реферальной программы, не применимы во время действия Чёрной пятницы и не суммируются со скидками на сайте.
записаться на курс или задать вопрос
Мы свяжемся с вами и ответим на все ваши вопросы по курсу.
Мы свяжемся с вами для того, чтобы ответить на все вопросы по ней.
налоговый вычет
Начните учиться сейчас, оформите налоговый вычет и верните до 13% стоимости обучения.
гарантия возврата
Если в течение двух недель решите, что курс вам не подходит — вернём деньги.
Международная оплата
Если вы хотите оплатить обучение из-за рубежа, оставьте заявку — мы с вами свяжемся и подскажем, как это сделать.
ЕВГЕНИЙ ЕРМАКОВ
Более 10 лет опыта работы с данными. Архитектор DWH и систем анализа данных в VK и Яндекс.Такси. Кандидат технических наук, автор более 10 работ в области анализа данных. Соавтор монографии по теории и практике анализа параллельных баз данных.
Модуль:
ПРОЕКТИРОВАНИЕ DWH
ВАЛЕРИЙ СОКОЛОВ
Работает с базами данных уже 17 лет, начинал в банковской сфере с Oracle, затем в FMCG c Oracle и MSSQL, а сейчас развивает Greenplum в Яндекс Go
Модуль:
РЕЛЯЦИОННЫЕ И MPP СУБД
ДИНА САФИНА
Занимается дата-инженерией около десяти лет, основной инструмент в работе — это Apache Airflow. Работала в Играх Mail.ru, а теперь руковожу дата-инженерами в Ozon.Fintech.
Модуль:
АВТОМАТИЗАЦИЯ ETL-ПРОЦЕССОВ
АНТОН ПИЛИПЕНКО
Более 10 лет создаёт и развивает системы для работы с большими данными. На протяжении 6 лет занимается консалтингом и помогает разным продуктам решать задачи в области ML, анализа данных и проведения экспериментов.
Модуль:
BIG DATA
РОМАН БУНИН
Более 8 лет занимается визуализацией данных. Руководил разработкой SaaS BI сервиса в качестве операционного директора. Сертифицированный Tableau специалист, кандидат технических наук, автор блога и Telegram-канала о визуализации данных Reveal the Data
Модуль:
ВИЗУАЛИЗАЦИЯ ДАННЫХ
АЛЕКСАНДР ВОЛЫНСКИЙ
Специалист по Big Data и AI, занимается внедрением сложных кастомных проектов. Участвовал в создании хранилищ данных в компаниях Платформа ОФД, X5 и VK.
Модуль:
ОБЛАЧНОЕ ХРАНИЛИЩЕ
АЛЕКСАНДР САВЧЕНКО
Более 10 лет занимается распределёнными системами для обработки больших данных, облачными решениями и внедрением алгоритмов машинного обучения. Участвовал в разработке платформ для работы с данными в компаниях Amazon, Сбер, Дом. рф, Novartis, Kohl’s