Старший разработчик в команду ML-инфраструктуры YTsaurus

Дата размещения вакансии: 08.11.2024
Работодатель: Яндекс
Уровень зарплаты:
з/п не указана
Город:
Москва
Требуемый опыт работы:
Более 6 лет

Мы начинаем новый крупный проект, чтобы сделать жизнь наших коллег удобнее. Пользователями нового сервиса станет большинство ML-разработчиков Яндекса — сотни команд, которые обучают модели для таких продуктов, как Алиса, Нейро, Шедеврум.

Ключевые компоненты будущего сервиса:

  • Managed DevCluster для удалённой разработки и тестовых запусков на GPU;
  • инструмент простого с точки зрения UX и эффективного запуска процессов обучения на гигантском кластере YTsaurus с тысячами GPU;
  • оркестратор, который позволит описывать графы подготовки данных на Python и SQL;
  • решение для трекинга ML-экспериментов (по смыслу похожее на Weights & Biases);
  • MLOps-cистема для хранения жизненного цикла моделей и управления им.

Ищем опытного разработчика, который знает, что такое разработка сложных систем и машинное обучение. Вы будете участвовать в разработке нового сервиса и решать нестандартные технические задачи.

Задачи:

  • Разработка бэкенда сбора и обработки метрик
    Процесс обучения ML-моделей порождает большие объёмы данных — метрик, логов, результатов валидации. Нужно собирать эти данные, эффективно хранить и показывать пользователям в удобном и наглядном виде.
  • Разработка кластера для удалённой разработки

    Для отладки кода обучения моделей нужны GPU, но на выделенной машине разработчика они часто простаивают. Мы разрабатываем решение, позволяющее совместно использовать мощные машины с GPU, которые не мешают друг другу.

  • Создание новых сервисов для упрощения работы ML-инженеров в Яндексе
    Мы разрабатываем глобальный план развития всей ML-инфраструктуры Яндекса. Вместе с командой вы будете продумывать отдельные части этого плана, а также участвовать в реализации новых сервисов будущей ML-платформы Яндекса.

Требования:

  • Имеете богатый опыт разработки сложных систем на C++, Go или Java (одного будет достаточно)
  • Понимаете принципы разработки высоконагруженных приложений
  • Понимаете, как работает контейнеризация в Linux
  • Готовы разбираться в разработке ML-моделей в Яндексе, а также создавать и внедрять новые инфраструктурные решения