DATA SCIENTIST WORK SIMULATOR
>>> STARTING |
You have completed some online courses, but do you do not feel prepared for the actual work? You know the math, but This course will help you gain confidence.
VLAD GROZIN
YOUR DATA SCIENCE MENTOR
ABOUT ///
You are going to build a production-ready microservice that recommends products to users in an online shop.

Circumstances are close to real work: you will perform typical industrial tasks such as , work with user data that react to your recommendations, and y our code will be peer-reviewed.
FOR WHO ://
DATA SCIENTIST ENTHUSIASTS AND JUNIORS
Обычные онлайн-курсы не дают представления о работе в компаниях, и не дают всех необходимых навыков. Тут вы «поработаете» в качестве Data Scientist широкого профиля, что позволит лучше прочувствовать профессию и понять, на какие навыки надо делать фокус в дальнейшем обучении, и научит использовать навыки моделирования и знания математики для решения бизнес-задач. А выполненный проект будет отличным пунктом в резюме.
MIDDLE DATA SCIENTISTS
Не хватает широты взглядов и целостного представления, как устроен индустриальный DS? На этом курсе вы поделаете руками типовые задачи из всех стадий жизненного цикла DS проекта, увидете как они связаны друг с другом и познакомитесь со стандартным стеком.
DATA ANALYSTS
Узнаете, как превращать разовую отчетность в периодическую и в микросервисы, а также познакомитесь с лучшими практиками инструментария и инфраструктуры в DS.
WHAT IS INSIDE [/]
Step 1 →
Step 2 →
Step 3 →
Step 4
СМОТРИТЕ ЛЕКЦИИ И ИЗУЧАЙТЕ ТЕОРИЮ
Вы будете слушать лекции про лучшие индустриальные практики и читать материалы по стандартному инструментарию.
ИЗУЧАЙТЕ ВЕСЬ ЦИКЛ РАЗРАБОТКИ
Вы будете заниматься задачами из всего цикла DS-разработки: визуализировать данные, писать обрабатывающий данные пользователей код и разрабатывать микросервис, выдающий им рекомендации.
АНАЛИЗИРУЙТЕ ВЗАИМОДЕЙСТВИЯ
Симулированные пользователи будут взаимодействовать с системой, а вы будете анализировать эти взаимодействия, чтобы проверить гипотезы.
РАБОТАЙТЕ С НАСТАВНИКОМ
Менторы будут проверять ваш код и сделанные выводы.
MENTOR >>>
VLAD GROZIN
Разрабатывал системы персонализации и поиска для таких крупных онлайн-ритейлеров, как Юлмарт, Медиамаркт, Спортмастер, Sephora, Bonobos и Backcountry.
Более 6 лет в индустриальном Data Science.
[PREREQUISITES]
PROGRAM ://
1. Introduction
2. Evolution of information retrieval and personalization
Темы урока:
История рекомендашек; ключевые подходы, личности и статьи.

Домашнее задание:
Тест-опрос.
3. Architecture of modern data services
Темы урока:

Хранилища данных, типовые хранилища.

REST API, сервисы, микросервисы, пайплайны обработки данных.

Как можно воткнуть модель?
  • Спрогнозировать и сохранить.
  • Встроить в back-end.
  • Запустить как отдельный сервис.

Домашнее задание:
Тест-опрос.
4. Data analytics with Spark
Темы урока:
Кратко о том, что такое Spark.
Показываю использование Jupyter и Spark.
Документация по данным.

Домашнее задание:
Подготовить блокнот, считающий «трендовые» товары — те, у которых изменение.
5. Writing data pipelines with Airflow
Темы урока:
Что такое шедулинг и зачем он нужен.
Cron, Oozie, Airflow, Luigi.

Домашнее задание:
Пайплайн, который считает самые популярные товар и складывает в MySQL.
6. Writing microservice with Flask. Baseline recommender system
Темы урока:
Зачем нужно делать свой микросервис.
Flask/FastAPI vs pytorch API/tensorserve/wvserve.
REST API, writing Flask endpoint.
Сервис, который подтягивает данные из MySQL, и даёт рекомендации.
7. Offline and Online testing, metrics.
Темы урока:
Теория + блокнот для расчёта NDCG.

Домашнее задание:
Pipeline for metrics.
8. Improving recommender system. Personalization
Темы урока:
Теория Item-based CF.
Заимплементить CF.
9. Read & Implement?
Темы урока:
Чтение пейпера?
Заимплементить пейпер чтобы улучшить скор?