Для эффективной отработки навыков в курсе «Инженер данных» есть промежуточный практический проект, который воссоздает etl-процессы (airflow) крупной двухуровневой платформы данных. Проект максимально приближен по сути к рабочим задачам дата-инженера. В процессе работы над ним вы закрепите понимание инструментов airflow, spark + s3 и greenplum и поймете, как использовать их в связке друг с другом.
Проект доступен тем, кто прошел модуль Big data, на его выполнение дается две недели — в этот период не будут открываться другие уроки, чтобы вы не отвлекались.