СТАРТ ПРОГРАММЫ
6 ИЮЛЯ 2022
ФОРМАТ ОБУЧЕНИЯ
ОНЛАЙН
Онлайн формат обучения инженеров данных
КОМУ ПОДОЙДЁТ
ДЛЯ JUNIOR/MIDDLE

Курс для junior и middle специалистов
ПОЭТАПНАЯ ОПЛАТА
НА 5 МЕСЯЦЕВ

Поэтапная оплата курса
ЕВГЕНИЙ ЕРМАКОВ
Инженерия данных от проектирования до нетривиальной обработки.

ИНЖЕНЕР ДАННЫХ.
ОБУЧЕНИЕ У НАС |

Преподаватель онлайн курса по обучению инженеров данных
Старт программы курса Инженер данных
ПОДАРИТЬ ОБУЧЕНИЕ
Мы свяжемся с вами и подготовим сертификат
Удобный способ связи
Сумма сертификата
1000
150000

НАУЧИТЕСЬ ПРАВИЛЬНО ГОТОВИТЬ ДАННЫЕ ЛЮБЫХ РАЗМЕРОВ И СЛОЖНОСТИ

Обучающие выборки для машинного обучения и красивые графики для отчётов не появляются сами собой: данные нужно собирать, хранить, валидировать и комбинировать между собой, быстро реагируя на изменения в их структуре.
Стандартный путь:
НАЧИНАЕШЬ РАБОТАТЬ С ДАННЫМИ
ПЫТАЕШЬСЯ СДЕЛАТЬ СИСТЕМНО И РАСШИРЯЕМО
ПОНИМАЕШЬ, ЧТО НЕ ХВАТАЕТ ЗНАНИЙ, ЧТОБЫ ОХВАТИТЬ ВСЮ АРХИТЕКТУРУ DWH ЦЕЛИКОМ
×
Для работы с данными недостаточно знать один инструмент — необходимо учитывать весь спектр взаимосвязей большого хранилища, понимать потребности заказчика и воспринимать данные как конечный продукт.
Сильный инженер данных за счёт широты знаний может выбрать правильный инструмент под любые задачи, охватить всю архитектуру DWH целиком и донести результат до потребителей данных.
Для эффективной работы с данными одного инструмента недостаточно — необходимо учитывать все взаимосвязи большого хранилища, понимать потребности заказчика и воспринимать данные как конечный продукт.
Сильный инженер данных за счёт широты знаний и понимания архитектуры DWH способен подобрать правильные инструменты под любые задачи и донести результат до потребителей данных.

ВАШЕ РЕЗЮМЕ == ЧЕРЕЗ 5 МЕСЯЦЕВ

- Работаю с реляционными базами данных, в том числе MPP, понимаю особенности работы распределенных систем на базе Greenplum

- Умею строить и автоматизировать ETL\ELT-пайплайны на базе Apache Airflow

- Имею опыт работы с большими данными в Hadoop и Spark, умею составлять сложные SQL запросы в Apache Hive

- Разбираюсь в архитектуре хранилищ данных (DWH), владею методами многомерного моделирования, якорного моделирования и Data Vault

- Имею практический опыт работы со Spark в Kubernetes, понимаю основные подходы к построению хранилищ данных в облаках

- Понимаю принципы работы и подготовки данных для BI-инструментов на базе Tableau

- Применяю ML-модели на больших данных, умею подготавливать данные для их обучения, понимаю подходы к версионированию датасетов с помощью Data Version Control

- Знаю основные подходы к управлению данными на базе DMBOK
ЖЕЛАЕМАЯ ЗАРПЛАТА ОТ
100 000 рублей
Инженер данных
ВИКТОР КУЗНЕЦОВ
- Работаю с реляционными базами данных, в том числе MPP, понимаю особенности работы распределенных систем на базе Greenplum
- Умею строить и автоматизировать ETL\ELT-пайплайны на базе Apache Airflow
- Имею опыт работы с большими данными в Hadoop и Spark, умею составлять сложные SQL запросы в Apache Hive
- Разбираюсь в архитектуре хранилищ данных (DWH), владею методами многомерного моделирования, якорного моделирования и Data Vault
- Имею практический опыт работы со Spark в Kubernetes, понимаю основные подходы к построению хранилищ данных в облаках
- Понимаю принципы работы и подготовки данных для BI-инструментов на базе Tableau
- Применяю ML-модели на больших данных, умею подготавливать данные для их обучения, понимаю подходы к версионированию датасетов с помощью Data Version Control
- Знаю основные подходы к управлению данными на базе DMBOK
Инженер данных
ВИКТОР КУЗНЕЦОВ
ЖЕЛАЕМАЯ ЗАРПЛАТА ОТ
100 000 рублей

КАК ПРОХОДИТ ОБУЧЕНИЕ

О курсе
Формат обучения
Системы для работы
Инфраструктура
Поддержка студентов
Поиск работы

ПОДРОБНЕЕ О КУРСЕ

Преподаватели расскажут о курсе и его содержании. Вы узнаете, в чём ценность каждого модуля и как полученные знания помогут в дальнейшей работе.

ФОРМАТ ОБУЧЕНИЯ

Обучение проходит в интенсивном формате по 3 занятия в неделю
Домашние задания выполняются на настоящей инфраструктуре
Все лекции и дополнительные материалы доступны на образовательной платформе и остаются у вас после окончания курса
На учёбу наши студенты тратят в среднем 10 часов в неделю

РАБОТАЙТЕ С ДАННЫМИ В ЛЮБЫХ СИСТЕМАХ

Изучайте архитектуру хранилищ данных и подходы к их проектированию
Сравнивайте на практике Big Data решения на базе Hadoop и реляционные MPP СУБД
Учитесь работать с облаками и автоматизировать ETL-процессы с помощью Airflow

ИСПОЛЬЗУЙТЕ НАШУ ИНФРАСТРУКТУРУ

— Работайте со всеми необходимыми инструментами на выделенном сервере
— Совершенствуйте навыки работы с Hadoop, Greenplum, PostgreSQL, Airflow, Spark, Hive и Kubernetes

ЗАДАВАЙТЕ ЛЮБЫЕ ВОПРОСЫ В ПОДДЕРЖКУ

— Обсуждайте задачи и проекты с экспертами рынка
— Вашими менторами будут инженеры данных из ведущих российских компаний
— Консультируйтесь с HR специалистами
— Учитесь правильно презентовать свои навыки
— Откликайтесь на вакансии компаний-партнёров
— Проходите собеседования и устраивайтесь на работу

УСТРАИВАЙТЕСЬ НА РАБОТУ

РАБОТАЙТЕ С ДАННЫМИ В ЛЮБЫХ СИСТЕМАХ
— Изучайте архитектуру хранилищ данных и подходы к их проектированию
— Сравнивайте на практике Big Data решения на базе Hadoop и реляционные MPP СУБД
— Учитесь работать с облаками и автоматизировать ETL-процессы с помощью Airflow
ИСПОЛЬЗУЙТЕ НАШУ ИНФРАСТРУКТУРУ
— Работайте со всеми необходимыми инструментами на выделенном сервере
— Совершенствуйте навыки работы с Hadoop, Greenplum, PostgreSQL, Airflow, Spark, Hive и Kubernetes
ЗАДАВАЙТЕ ЛЮБЫЕ ВОПРОСЫ В ПОДДЕРЖКУ
—Обсуждайте задачи и проекты с экспертами рынка
— Вашими менторами будут инженеры данных из ведущих российских компаний
108
Уже работаете с хранилищами данных, но хотите систематизировать знания и глубже погрузиться в актуальные технологии.
ИНЖЕНЕР ДАННЫХ
Постоянно взаимодействуете с базами данных, но хотите лучше разобраться в ETL-процессах и выйти на качественно новый уровень в аналитике.
АНАЛИТИК ДАННЫХ

ДЛЯ КОГО ЭТОТ КУРС:

BI-РАЗРАБОТЧИК
Занимаетесь развитием систем бизнес-аналитики, хотите освоить архитектуру современных хранилищ данных и научиться их проектировать.
BACKEND-РАЗРАБОТЧИК
Имеете опыт бэкенд-разработки и хотите применить его для решения задач, связанных с хранением и обработкой больших данных.

РЕКОМЕНДУЕМЫЙ УРОВЕНЬ:

PYTHON

> Знание синтаксиса языка

> Понимание базовых структур данных (список, словарь, кортеж)

> Владение основами ООП (класс, объект)
> Знание базового синтаксиса (SELECT, WHERE, GROUP BY, HAVING)

> Умение составлять подзапросы и делать все виды JOIN

> Навык работы с оконными функциями

SQL

> Умение работать с командной строкой

> Знание базовых команд Linux

> Опыт работы с Git

ИНФРА-СТРУКТУРА

ИНФРАСТРУКТУРА

Хотите проверить свои знания?
Зарегистрируйтесь на нашей образовательной платформе и пройдите тестирование →
Регистрация на образовательной платформе
Для доступа к тестированию вам необходимо зарегистрироваться на нашей образовательной платформе, указав ваши имя, фамилию и электронную почту.

Вы сможете продолжить использовать свою учётную запись для обучения на полной версии курса или других наших программах.

Если у вас уже есть учётная запись, можно использовать её.

ЕСЛИ ЭТОТ КУРС КАЖЕТСЯ ВАМ СЛОЖНЫМ

НА КУРСЕ ИСПОЛЬЗУЕМ >>>

ПРОГРАММА КУРСА ://

|
Начнём погружение в инженерию данных со знакомства с реляционными и MPP базами данных. Рассмотрим их архитектуру, обсудим популярные решения и узнаем, в каких случаях MPP СУБД оказываются лучше традиционных. Научимся готовить PostgreSQL и MPP базы данных на примере Greenplum.
Открыть программу
  1. Архитектура реляционных и MPP баз данных
Рассмотрим, как устроены реляционные и MPP базы данных, и узнаем, для каких задач они подходят.
2. Объекты баз данных
Поговорим о таблицах и индексах, обсудим последовательности и возможные триггеры, рассмотрим процедуры и функции.
3. Подключение к PostgreSQL и Greenplum. Работа со словарём данных
Познакомимся с популярными клиентами для подключения к PostgreSQL и Greenplum. Посмотрим на основные объекты словаря данных и их содержимое. Научимся с помощью запросов получать информацию об объектах базы данных.
4. Обработка запросов в традиционных и MPP СУБД
Обсудим особенности построения запросов и научимся проводить анализ плана запроса. Поговорим об эффективных способах получения данных из Greenplum, разберёмся, чем Greenplum отличается от обычных реляционных баз данных, и рассмотрим особенности других популярных решений.
5. Применение R, Python и GeoSpatial в расчётах на Greenplum
Научимся проводить расчёты на R и Python прямо внутри Greenplum. Поработаем с пространственными объектами при помощи библиотеки PostGIS.
|
ETL — ключевой процесс в управлении хранилищами данных. Рассмотрим принципы и основные этапы его построения. Познакомимся с популярным инструментом Airflow, подробно разберём его основные компоненты и научимся с его помощью автоматизировать ETL-пайплайны.
Открыть программу
1. ETL-процессы
Рассмотрим основные принципы построения ETL-процессов и познакомимся с планировщиками задач (шедулерами).
2. Знакомство с Airflow
Познакомимся с Airflow — инструментом для оркестровки ETL-процессов. Рассмотрим его основные компоненты: воркер, шедулер, веб-сервер, базу данных. Создадим в Airflow несколько задач (тасков), объединим их в цепочку (DAG) и посмотрим, как это работает на практике.
3. Сложные пайплайны
Для более сложных пайплайнов в Airflow есть дополнительные инструменты: сабдаги и группы тасков для группировки задач, Trigger Rules и BranchPythonOperator для настраивания правил, Jinja для параметризации и XCom для передачи данных между тасками. Научимся использовать все эти инструменты в работе.
4. Разработка своих плагинов
В Airflow есть много готовых операторов, но иногда требуется автоматизировать работу с API или реализовать свой обработчик для стандартного источника. Научимся писать собственные хуки, операторы и сенсоры.
5. Установка и настройка Airflow
Есть несколько способов развернуть Airflow: просто запустить pip3 install apache-airflow, развернуть готовый докер-образ или организовать хайлоад с кластеризацией. Обсудим плюсы и минусы каждого подхода. Посмотрим, какие настройки есть у Airflow, и научимся управлять инструментом через интерфейс командной строки.
|
Познакомимся с механизмами распределённого хранения больших данных на базе Hadoop, разберём основные паттерны реализации их распределённой обработки. Рассмотрим вопросы отказоустойчивости и восстановления после сбоев. Поговорим о потоковой обработке данных, методах и средствах мониторинга и профилирования заданий Spark.
Открыть программу
1. HDFS
Подробно рассмотрим Hadoop Distributed File System — реализацию идеи распределённого отказоустойчивого хранения в Hadoop экосистеме.
2. YARN. MapReduce
Познакомимся с универсальным менеджером ресурсов YARN, рассмотрим реализацию MapReduce парадигмы, обсудим её сильные и слабые стороны.
3. Hive. SQL для Big Data
Обсудим применение SQL на больших данных, рассмотрим всё от запросов до уровней хранения.
4. HBase. Масштабируемая колоночная база данных
Поговорим о NoSQL базах данных и рассмотрим колоночную базу данных в Hadoop.
5. Spark
Познакомимся с основными идеями Spark, обсудим его отличия от MapReduce, поговорим про модель вычислений и RDD.
6. Spark SQL. Dataframes
Обсудим Spark Dataframe и научимся использовать SQL в Spark.
7. Kafkа. Spark Streaming
Поработаем с Kafka — масштабируемым брокером сообщений. Научимся обрабатывать данные на лету с помощью Spark Streaming.
8. Отладка, профилирование и мониторинг Spark Job
Поговорим про инструментальные средства отладки и мониторинга. Обсудим, как правильно читать статистику и логи.
|
Data Warehouse — централизованное хранилище данных из разных источников. Познакомимся с его верхнеуровневой логической архитектурой, рассмотрим её основные компоненты и разберём на практике разные подходы к проектированию детального слоя DWH.
Открыть программу
1. Архитектура DWH
Узнаем, что такое хранилище данных, как оно устроено и зачем в нём столько слоев. Обсудим и сравним подходы Инмона и Кимбалла к построению DWH.
2. Нормальные формы
Познакомимся с важными аспектами теории нормальных форм, процессами нормализации и денормализации баз данных.
3. Методология Dimensional Modeling
Многомерное моделирование является классическим подходом к созданию витрин данных. Рассмотрим популярные схемы — «звезда», «снежинка» и «созвездие». Обсудим таблицы фактов и измерений, поговорим о вариантах хранения медленно меняющихся измерений.
4. Методология Data Vault
Data Vault — один из современных подходов к проектированию хранилищ данных. Рассмотрим особенности и предпосылки возникновения новой методологии. Обсудим основные сущности Data Vault — Hub, Link, Satellite.
5. Методология Anchor Modeling
Если довести нормализацию до предельной формы, получится Anchor Modeling. Рассмотрим особенности этой методологии и обсудим её основные сущности — Anchor, Link, Knot, Attribute.
6. Сравнение методологий проектирования
Сравним все рассмотренные подходы и выясним, как выбрать оптимальный для решения конкретной задачи.
|
Рассмотрим облачные решения и инструменты для построения DWH и Data Lake. Познакомимся с Kubernetes и научимся применять его для работы с данными. Поработаем с облаком на практике, рассмотрим процесс установки и настройки JupyterHub и Spark в Kubernetes.
Открыть программу
1. Введение в облака
Поговорим об основных моделях облачных услуг: IaaS, PaaS, SaaS. Обсудим основы создания и использования виртуальных машин и сервисов. На практике рассмотрим работу виртуальных машин в облаке.
2. Облачная инфраструктура
Разберём ключевые особенности облачной инфраструктуры в контексте работы с данными. Выясним, на что стоит обращать внимание при разворачивании Hadoop, ClickHouse и Greenplum в облаке. Самостоятельно развернём и протестируем несколько систем.
3. Особенности решений для работы с данными в облаках
Познакомимся с BigQuery, Snowflake, AWS Athena и другими популярными инструментами. Рассмотрим архитектуру хранилищ данных в облаках, обсудим традиционный и облачный подходы, поговорим про разнесение данных на слои.
4. Kubernetes для инженерии данных
Рассмотрим основной функционал Kubernetes, поговорим про его архитектуру и базовые абстракции. Обсудим имеющиеся в нём инструменты для инженерии данных — Spark, Airflow, Presto. Поработаем в облаке с кластером Kubernetes, развернём и протестируем в нём Spark и JupyterHub.
|
Рассмотрим основные принципы работы с данными с точки зрения их визуализации и научимся смотреть на данные глазами их потребителя. Познакомимся с Tableau — гибким и мощным BI-инструментом. Узнаем, как он взаимодействует с базами данных, и построим с его помощью интерактивный дашборд для мониторинга DWH платформы.
Открыть программу
1. Зачем нужна визуализация. Основы Tableau
Разберёмся, зачем инженеру данных нужно изучать визуализацию, и поймём, какие бизнес-задачи она решает. Рассмотрим основные виды графиков и научимся строить их в Tableau.
2. Как сделать дашборд
Узнаем, какие существуют виды дашбордов, и познакомимся с базовыми правилами вёрстки и графического дизайна. Попробуем сделать свой дашборд в Tableau.
3. Сбор требований. Dashboard Canvas
Узнаем, как правильно собирать требования для дашборда, чтобы он решал задачи пользователя. Познакомимся с фреймворком Dashboard Canvas и рассмотрим примеры его применения.
4. Подключение данных к Tableau
Посмотрим, как Tableau работает с данными, и узнаем, какие существуют модели данных и способы подключения к источникам. Рассмотрим запросы Tableau при подключении к базам данных в различных сценариях.
5. DataMesh и продуктовые подходы к мониторингу DWH и BI
Обсудим, как с помощью дашбордов и KPI можно управлять DWH и BI как продуктами и улучшать качество работы этих систем.
6. Разработка дашборда для мониторинга
С нуля построим дашборд для мониторинга отклонений метрик при регулярном обновлении данных.
|
Познакомимся с теорией распределённого машинного обучения. Научимся работать с популярным модулем Spark ML и рассмотрим подходы к обучению и применению моделей на больших данных.
Открыть программу
1. Введение в машинное обучение
Рассмотрим базовые концепции машинного обучения. Разберёмся, как происходит обучение моделей, и узнаем, какую роль в этом процессе играют инженеры данных.
2. Теория распределённого машинного обучения
Обсудим и сравним подходы к распределённому машинному обучению — Model Distributed и Data Distributed.
3. Spark ML
Познакомимся с реализацией распределённого машинного обучения на примере Spark ML. Научимся применять такие важные компоненты, как Transformers, Estimators, Pipeline, HT.
4. Применение готовых моделей с помощью Pandas UDF
Научимся писать свои функции (user-defined functions), которые будут исполняться в Spark. Рассмотрим, как с их помощью применять готовые обученные модели на больших данных.
|
В работе инженеры часто сталкиваются с подготовкой данных для обучения ML-моделей. Рассмотрим инструменты для построения ML-пайплайнов, версионирования датасетов, организации учёта и трекинга моделей.
Открыть программу
1. Пайплайн обучения ML-модели
Рассмотрим основные этапы общего пайплайна обучения любой модели. Разберёмся, зачем готовить датасеты и как управлять этим процессом. Обсудим проблемы, с которыми сталкиваются при обучении моделей — воспроизводимость экспериментов, трекинг, протухание.
2. Версионирование данных (DVC)
Обсудим методы и подходы к версионированию данных на примере Data Version Control (DVC). Научимся вести версионирование датасетов и пользоваться ими.
3. Применение MLFlow для учёта и трекинга моделей
Научимся применять MLFlow для сохранения и выгрузки моделей в процессе проведения над ними экспериментов.
|
На практике часто приходится иметь дело с разными данными и огромным числом интеграций и процессов, выполняющих над ними те или иные преобразования. Познакомимся с популярными подходами к управлению данными, обсудим инструменты для контроля качества данных и отслеживания их происхождения.
Открыть программу
1. Data Management
Поговорим об управлении данными, рассмотрим составляющие этого процесса и узнаем, почему он так важен.
2. Data Security
Данные — один из важнейших активов любой компании. Обсудим подходы, применяемые для обеспечения их безопасности.
3. Data Quality
Чтобы с данными было удобно работать, они должны отвечать определённым требованиям к их качеству. Разберёмся, что такое Data Quality и как его оценивать.
Руководитель DWH в Яндекс Go, куратор курса
ЕВГЕНИЙ ЕРМАКОВ
Преподаватель курса "Инженер данных" Евгений Ермаков
Залог успешной работы — данные, которые нужно собирать, хранить и комбинировать между собой, быстро реагируя на изменения в их структуре.

Наш курс даст универсальные знания в области инженерии данных, которые вы сможете применить для проектирования систем хранения и обработки данных, автоматизации их работы и экономии ресурсов кластера.

ПРОГРАММА ТРУДОУСТРОЙСТВА>>>

ТРУДОУСТРОЙСТВО
Вместе достигнем желаемой цели
ПОДГОТОВКА
Поможем составить сильное резюме

РЕКОМЕНДАЦИИ
Расскажем о вас компаниям-партнёрам
СОБЕСЕДОВАНИЕ
Организуем интервью с работодателем
90%
Трудоустроенных выпускников
Рассчитано на основе данных о количестве выпускников, обратившихся за помощью в поиске работы и трудоустроенных за 3 месяца
Будем поддерживать вас в течение всего процесса трудоустройства.
Наша цель — довести вас до оффера.
Рассчитано на основе данных о количестве выпускников, обратившихся за помощью в поиске работы и трудоустроенных за 3 месяца
ПОДРОБНЕЕ
САМОПРЕЗЕНТАЦИЯ
Чтобы получить сильное резюме и навыки самопрезентации вы пройдете:
- Лекции и вебинары по составлению резюме от HR-эксперта Яндекс
- Тест-драйв собеседования
- Консультацию, на которой определите стратегию поиска работы и пропишете карьерные цели
79
ОТСЛЕЖИВАНИЕ ПРОГРЕССА
Свой прогресс в трудоустройстве вы будете отслеживать с помощью специальных дневников. Работать над ошибками мы будем вместе с вами: мы подскажем, что нужно подтянуть и в каком направлении лучше мыслить, чтобы эффективнее справляться с задачами на собеседованиях.
90
РАБОТА МЕЧТЫ
Наша цель — довести вас до оффера. Среднее время трудоустройства с сопровождением составляет 1-1,5 месяца.
108
САМОПРЕЗЕНТАЦИЯ
Чтобы получить сильное резюме и навыки самопрезентации вы пройдете:
- Лекции и вебинары по составлению резюме от HR-эксперта Яндекс
- Тест-драйв собеседования
- Консультацию, на которой определите стратегию поиска работы и пропишете карьерные цели
ВЫБОР ВАКАНСИЙ
После подготовки всех необходимых материалов вы получите доступ к Telegram-каналам, где ежедневно обновляются вакансии от наших партнёров. На заинтересовавшие вас вакансии HR отправят ваше резюме с рекомендациями и организуют собеседование.
ОТСЛЕЖИВАНИЕ ПРОГРЕССА
Свой прогресс в трудоустройстве вы будете отслеживать с помощью специальных дневников. Работать над ошибками мы будем вместе с вами: мы подскажем, что нужно подтянуть и в каком направлении лучше мыслить, чтобы эффективнее справляться с задачами на собеседованиях.
РАБОТА МЕЧТЫ
Наша цель — довести вас до оффера. Среднее время трудоустройства с сопровождением составляет 1-1,5 месяца.

ВЫПУСКНИКИ НАШЕЙ ШКОЛЫ РАБОТАЮТ >>>

У НАС ПРЕПОДАЮТ:

УЧИТЕСЬ У >ЛУЧШИХ>

ЕВГЕНИЙ ЕРМАКОВ
Более 10 лет опыта работы с данными. Архитектор DWH и систем анализа данных в VK и Яндекс.Такси. Кандидат технических наук, автор более 10 работ в области анализа данных. Соавтор монографии по теории и практике анализа параллельных баз данных.
Руководитель DWH в Яндекс Go
Модули >>>
Преподаватель курса Евгений Ермаков
ДИНА САФИНА
Соосновательница русскоязычного сообщества Airflow. Более 6 лет работала в VK и собирала игровые данные в Data Lake на Hadoop с помощью Airflow.
Руководитель группы дата-инженеров в Ozon
Модули >>>
ETL
Преподаватель курса и ведущий разработчик Дина Сафина
ПОДРОБНЕЕ
АНТОН ПИЛИПЕНКО
Более 8 лет создаёт и развивает системы для работы с большими данными. На протяжении 5 лет занимается консалтингом и помогает разным продуктам решать задачи в области ML, анализа данных и проведения экспериментов.
Руководитель Big Data в СберМаркет
Модули >>>
Преподаватель курса Инженер данных Антон Пилипенко
ВАЛЕРИЙ СОКОЛОВ
Аналитик с опытом работы 17 лет. Последние 3 года развивает инфраструктуру DWH в Яндекс.Такси. Ранее работал с базами данных в Cбербанке и BSGV.
Старший администратор баз данных в Mars
Модули >>>
Преподаватель курса Инженер данных Валерий Соколов
АЛЕКСАНДР ВОЛЫНСКИЙ
Специалист по Big Data и AI, занимается внедрением сложных кастомных проектов. Участвовал в создании хранилищ данных в компаниях Платформа ОФД, X5 и VK.
Технический менеджер продукта ML Platform в VK Cloud Solutions
Модули >>>
Преподаватель курса Инженер данных Александр Волынский
Преподаватель курса Инженер данных Роман Бунин
РОМАН БУНИН
Руководитель группы развития BI-систем в Яндекс Go
Более 6 лет занимается визуализацией данных. Руководил разработкой SaaS BI сервиса в качестве операционного директора. Сертифицированный Tableau специалист, кандидат технических наук, автор блога и Telegram-канала о визуализации данных Reveal the Data.
Модули >>>
Преподаватель курса Инженер данных Александр Савченко
АЛЕКСАНДР САВЧЕНКО
Руководитель R&D в Сбер
Более 8 лет занимается распределёнными системами для обработки больших данных, облачными решениями и внедрением алгоритмов машинного обучения. Участвовал в разработке платформ для работы с данными в компаниях Amazon, Сбер, Дом.рф, Novartis, Kohl's.
Модули >>>

ОТЗЫВЫ ВЫПУСКНИКОВ /

скоро следующее видео
Я остался доволен курсом: и технологии новые освоил (причём в прикладном, а не обзорном формате), и пробелы в фундаментальном понимании закрыл. И самое главное — загорелся идеей развернуть своё дата-решение в облаке. В результате я взял сервер на DigitalOcean и сделал там своё рабочее пространство: прямо по всем рекомендациям с уроков развернул в нём кластеры, Jupyter, Superset для визуализации, Airflow для автоматизации, а также Spark и ClickHouse. Остался весьма доволен.

Сейчас я перестраиваю свой пет-проект и переношу на этот сервер — с построением процессов, как разбирали на курсе. У меня, конечно, не BigData, всё куда прозаичнее и меньше, но зато теперь есть реальный опыт ;)
Ярослав
Я работал с машинным обучением и аналитикой, делал скоринговые и рекомендательные модели. На прошлом месте работы я руководил командой, в которой были инженеры данных. И я хотел подтянуть свои компетенции. Сейчас я поменял работу из-за переезда. Компания меньше, поэтому где-то я делаю аналитику, где-то выполняю функции инженера, а где-то разрабатываю.

Сначала я проходил курсы на Stepik, оттуда узнал про курс Hard ML в Karpov.Courses. К собственным конспектам Hard ML регулярно возвращаюсь, чтобы лучше решать задачи по работе. Сомнений при покупке курса по инженерии данных не было, хотя после курса Hard ML ожидания были высокие. По результатам: в целом всё то, что хотел узнать, я узнал. Теоретические видео были интересными и содержательными. Понравился блок по облачным хранилищам, сразу есть возможность развернуть что-то своё. Бывает, пересматриваю блок по ETL — знания оттуда помогают решать рабочие задачи. Немного не хватило практики. Хотелось бы больше заданий на написание кода. С точки зрения формата — хорошо, что все лекции записаны заранее. Я думаю, что это правильно — преподаватели не устают и не выдыхаются. Приятно, что вокруг курсов сформировалось комьюнити, и в чатах помогают как студенты, так и преподаватели.
Николай
Я остался доволен курсом: и технологии новые освоил (причём в прикладном, а не обзорном формате), и пробелы в фундаментальном понимании закрыл. И самое главное — загорелся идеей развернуть своё дата-решение в облаке. В результате я взял сервер на DigitalOcean и сделал там своё рабочее пространство: прямо по всем рекомендациям с уроков развернул в нём кластеры, Jupyter, Superset для визуализации, Airflow для автоматизации, а также Spark и ClickHouse. Остался весьма доволен.

Сейчас я перестраиваю свой пет-проект и переношу на этот сервер — с построением процессов, как разбирали на курсе. У меня, конечно, не BigData, всё куда прозаичнее и меньше, но зато теперь есть реальный опыт ;)
Ярослав
Я работал с машинным обучением и аналитикой, делал скоринговые и рекомендательные модели. На прошлом месте работы я руководил командой, в которой были инженеры данных. И я хотел подтянуть свои компетенции. Сейчас я поменял работу из-за переезда. Компания меньше, поэтому где-то я делаю аналитику, где-то выполняю функции инженера, а где-то разрабатываю.

Сначала я проходил курсы на Stepik, оттуда узнал про курс Hard ML в Karpov.Courses. К собственным конспектам Hard ML регулярно возвращаюсь, чтобы лучше решать задачи по работе. Сомнений при покупке курса по инженерии данных не было, хотя после курса Hard ML ожидания были высокие. По результатам: в целом всё то, что хотел узнать, я узнал. Теоретические видео были интересными и содержательными. Понравился блок по облачным хранилищам, сразу есть возможность развернуть что-то своё. Бывает, пересматриваю блок по ETL — знания оттуда помогают решать рабочие задачи. Немного не хватило практики. Хотелось бы больше заданий на написание кода. С точки зрения формата — хорошо, что все лекции записаны заранее. Я думаю, что это правильно — преподаватели не устают и не выдыхаются. Приятно, что вокруг курсов сформировалось комьюнити, и в чатах помогают как студенты, так и преподаватели.
Николай