Назад
Москва
Ozon Информационные технологии
Разработчик Go, Платформа/ SRE
Мы строим абсолютно новую платформу в Ozon.ru, основанную на современных технологиях. Задача SRE-команды - обеспечение прозрачности инфраструктуры и высокой доступности внутренних и публичных сервисов компании.
SRE в Ozon - это разработка для разработки, мы снабжаем разработчиков инструментами, которые решают их повседневные проблемы - поиск performance-проблем, отладка приложений и трассировка.
Мы ищем SRE-инженера, который поможет нам развивать общую инженерную инфраструктуру, являющуюся незаменимым инструментом для сотен разработчиков.
Что вам предстоит:
- Развитие системы мониторинга на базе Prometheus и long-term хранения данных. Мы используем Thanos, активно взаимодействуем с maintainer-ами и регулярно контрибъютим в него;
- Развитие нашей системы распределенного трейсинга: мы процессим >1kk спенов/сек и хотим строить in-memory поиск и аналитику по этим данным, чтобы разработчики могли быстрее находить узкие места;
- Обеспечение разработчиков инструментами для отладки и мониторинга - дешбордами, логами, трейсами и алертами;
- Разработка клиентских библиотек, которыми инструментируются сервисы для интеграции с системами мониторинга, трейсинга и логирования;
- Capacity planning и обеспечение отказоустойчивости и высокой доступности указанных систем соместно с системными инженерами;
- Сбор метрик со всех подсистем - от браузера пользователя до дисковой подсистемы на сервере баз данных;
- Написание экспортеров метрик для Prometheus.
Что мы ожидаем от вас:
- Умение писать чистый, тестируемый код на одном или более языках: C, C++, Java, Python, Go, Ruby, PHP (мы пишем на Go);
- Опыт работы с терминалом в Linux и понимание, куда посмотреть, когда сервер тупит;
- Понимание принципы обеспечения высокой доступности приложений и слышал о балансировщиках нагрузки и rate-limiter'ах;
- Опыт работы с распределенными системами (микросервисы, service discovery) и соответствующими инструментами (LXC, Docker, orchestration systems).
Будет плюсом:
- Интерес к анализу, проектированию и решению проблем в масшабных распределенных системах;
- Умение дебажить и оптимизировать код, автоматизировать рутинные операции;
- Умение делать CI, build pipeline и собирать Docker-образы;
- Умение собирать deb или rpm пакеты и писать Makefile;
- Опыт работы с эксплуатацией софта и с системами мониторинга (Prometheus), трейсинга (OpenTracing) и логирования (Graylog).
Что мы предлагаем:
- Динамичный и быстроразвивающийся бизнес, ресурсы, возможность сделать вместе сделать лучший продукт на рынке e-commerce;
- Свободу действий в принятии решений;
- Достойный уровень заработной платы;
- Профессиональную команду, которой мы гордимся;
- Возможность развиваться вместе с нашим бизнесом.
Рекомендовать друга
Поделиться вакансией