улица Льва Толстого 16
Мы запускаем крупный проект, который сделает жизнь наших коллег удобнее. Пользователями нового сервиса станут сотни команд ML-разработчиков Яндекса, которые обучают модели для Алисы, Нейро, Шедеврума и других продуктов.
Сервис будет включать несколько ключевых компонентов: Managed DevCluster для удалённой разработки и тестовых запусков на GPU; инструмент для простого и эффективного запуска процессов обучения на кластере YTsaurus с тысячами GPU; оркестратор, который позволит описывать графы подготовки данных на Python и SQL; решение для трекинга ML-экспериментов (похожее на Weights & Biases); MLOps-систему для хранения моделей и управления их жизненным циклом.
Ищем опытного Team Lead, который разбирается в разработке сложных высоконагруженных систем. Вам предстоит управлять небольшой командой, курировать кросс-командные проекты и писать код для сервисов будущей ML-платформы Яндекса.
Какие задачи вас ждут:
Управление командой
Вы будете руководить командой из двух разработчиков: ставить задачи, проводить код-ревью, контролировать сроки, заботиться о профессиональном развитии и удовлетворённости коллег, справедливо распределять задачи и отмечать достижения сотрудников.
Управление кросс-командными проектами
Создание глобальной ML-инфраструктуры затрагивает множество смежных подразделений. Вы будете связующим звеном: синхронизируетесь с командами базовой инфраструктуры и ML-разработчиками, будете планировать релизы и управлять внедрением новых решений.
Создание кластера для удалённой разработки
Вам предстоит создавать решение, которое позволит разработчикам совместно использовать мощные машины с GPU для отладки кода без взаимных помех.
Требования:
- Разрабатывали сложные системы на Go, C++ или Java (достаточно опыта с одним языком, но писать предстоит на Go)
- Руководили командой разработчиков (наставничество, performance review, распределение задач) или готовы к этой роли
- Ведёте кросс-командные проекты, собираете требования и договариваетесь со смежниками
- Пишете качественный код с оглядкой на заданную архитектуру сервиса
- Понимаете принципы разработки высоконагруженных приложений
- Понимаете, как работает контейнеризация в Linux
- Готовы погружаться в специфику работы ML-моделей в Яндексе и внедрять новые инфраструктурные решения