Технический менеджер проектов YTsaurus (разработка ML Platform)

Дата размещения вакансии: 13.11.2024
Работодатель: Яндекс
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
Более 6 лет

Яндекс — одна из немногих компаний в мире, оперирующих экcабайтами данных, которые нужно уметь эффективно хранить, обрабатывать и передавать между различными системами.

Для решения этих задач мы создали и развиваем распределённую платформу хранения и обработки данных YTsaurus.

YTsaurus в том числе управляет суперкомпьютерами Яндекса, на которых ML-инженеры решают задачи машинного обучения. Недавно мы начали новый проект, чтобы упростить жизнь коллег. Пользователями нового сервиса станет большинство ML-разработчиков Яндекса — сотни команд, которые обучают модели для Алисы, Нейро, Шедеврума.

Ключевые компоненты нового сервиса:

  • Managed DevCluster для удалённой разработки и тестовых запусков задач на GPU
  • Инструмент простого с точки зрения UX и эффективного запуска процессов обучения на гигантском кластере YTsaurus с тысячами GPU
  • Оркестратор, который позволит описывать графы подготовки данных на Python и SQL
  • Решение для трекинга ML-экспериментов (по смыслу похожее на Weights & Biases)
  • MLOps-система для хранения жизненного цикла моделей и управления им Мы ищем человека, который поможет нам выстроить процессы разработки и наладить взаимодействие между ML-инженерами и инфраструктурой.

Какие задачи вас ждут

Взаимодействие с пользователями
Вам предстоит много общаться с внутренними и внешними пользователями, участвовать в формировании лучших практик применения ML-инфраструктуры (например, следить за эффективным использованием ресурсов GPU). Кроме того, предстоит собирать и анализировать потребности ML-инженеров и доносить предложения об улучшениях по всему стеку.

Технические вызовы
Вам предстоит разобраться в том, как устроен процесс разработки ML-моделей в Яндексе, и вести внутренние инфраструктурные проекты, а также участвовать в интеграционных проектах вместе с несколькими командами разработки, эксплуатации и тестирования.

Выстраивание рабочих процессов
Вам предстоит сотрудничать с разработчиками других инфраструктурных сервисов, анализировать процессы, находить проблемные места, предлагать и внедрять улучшения. Кроме того, необходимо управлять процессом разработки и отвечать за его соответствие планам и требованиям.

Мы ждем, что вы

  • Получили высшее техническое или математическое образование
  • Последний год работали в аналогичной должности
  • Управляли проектами и продуктами
  • Работали с командой разработчиков, найдёте с ними общий язык
  • Непосредственно разрабатывали программное обеспечение
  • Составляли FAQ и пользовательскую документацию
  • Способны управлять обсуждениями, фиксировать результаты, расставлять приоритеты и решать задачи в срок
  • Коммуникабельны, точно и понятно говорите и пишете

Будет плюсом, если вы

  • Знакомы с инфраструктурными системами (Docker, Kubernetes, Ray, Slurm)
  • Участвовали в создании и внедрении инфраструктурных решений в больших компаниях
  • Пишете на Python или любом другом языке программирования