Москва
Назад
Москва
Ozon Информационные технологии

Data Engineer, Поиск

Ищем Data Engineer / ML Engineer в команду ML платформы. Команда занимается построением инфраструктуры вокруг DS задач в компании - стандартизацией пайплайнов обработки данных и автоматизацией переобучения моделей, их версионированием, настройкой и оптимизацией GPU / RnD кластера, ресерчем для построения Feature Store.

Наш стек: Python, PySpark, Yarn, Hive, HDFS, Airflow, Gitlab CI, Ansible, Kubernetes, Prometheus, Graylog, Grafana, Jira.

Вам предстоит:

  • Разработка и интеграция Feature Registry - стандартизация пайплайнов обработки данных в Yarn, небольшое REST API и админка + UI на Django, Spark, Data lineage, управление Python окружениями, минимизация бойлерплейта, configuration as code, интеграция с Gitlab CI, Airflow, Clickhouse, Prometheus и пр.;
  • Ресерч и разработка кастомного Feature Store - настройка кластера scylladb / hbase , интеграция в Feature Registry, сервис для доступа из приложений и клиентская библиотека к нему (gRPC);
  • Интеграция Model Registry и Feature Registry – воспроизводимые DVC пайплайны, запись метрик в MLFlow, запуск обученных моделей через Feature Registry;
  • (Опционально) Настройка и развитие GPU и RnD кластеров (Yarn), написание ansible-плейбуков, тестирование новых конфигураций серверов.

Мы ожидаем от вас:

  • Опыт разработки на Python + веб фреймворки;
  • Linux - понимание устройства ОС (потоки/процессы, ФС, память), умение работать в командной строке (Bash);
  • Опыт работы с PySpark, Yarn, Airflow.

Что мы предлагаем:

  • Динамичный и быстроразвивающийся бизнес, ресурсы, возможность сделать вместе сделать лучший продукт на рынке e-commerce;
  • Свободу действий в принятии решений;
  • Достойный уровень заработной платы;
  • Профессиональную команду, которой мы гордимся;
  • Возможность развиваться вместе с нашим бизнесом.
Рекомендовать друга