Назад
Москва
Ozon Информационные технологии
Data Engineer, Поиск
Ищем Data Engineer / ML Engineer в команду ML платформы. Команда занимается построением инфраструктуры вокруг DS задач в компании - стандартизацией пайплайнов обработки данных и автоматизацией переобучения моделей, их версионированием, настройкой и оптимизацией GPU / RnD кластера, ресерчем для построения Feature Store.
Наш стек: Python, PySpark, Yarn, Hive, HDFS, Airflow, Gitlab CI, Ansible, Kubernetes, Prometheus, Graylog, Grafana, Jira.
Вам предстоит:
- Разработка и интеграция Feature Registry - стандартизация пайплайнов обработки данных в Yarn, небольшое REST API и админка + UI на Django, Spark, Data lineage, управление Python окружениями, минимизация бойлерплейта, configuration as code, интеграция с Gitlab CI, Airflow, Clickhouse, Prometheus и пр.;
- Ресерч и разработка кастомного Feature Store - настройка кластера scylladb / hbase , интеграция в Feature Registry, сервис для доступа из приложений и клиентская библиотека к нему (gRPC);
- Интеграция Model Registry и Feature Registry – воспроизводимые DVC пайплайны, запись метрик в MLFlow, запуск обученных моделей через Feature Registry;
- (Опционально) Настройка и развитие GPU и RnD кластеров (Yarn), написание ansible-плейбуков, тестирование новых конфигураций серверов.
Мы ожидаем от вас:
- Опыт разработки на Python + веб фреймворки;
- Linux - понимание устройства ОС (потоки/процессы, ФС, память), умение работать в командной строке (Bash);
- Опыт работы с PySpark, Yarn, Airflow.
Что мы предлагаем:
- Динамичный и быстроразвивающийся бизнес, ресурсы, возможность сделать вместе сделать лучший продукт на рынке e-commerce;
- Свободу действий в принятии решений;
- Достойный уровень заработной платы;
- Профессиональную команду, которой мы гордимся;
- Возможность развиваться вместе с нашим бизнесом.
Рекомендовать друга
Поделиться вакансией