Яндекс — одна из немногих компаний в мире, оперирующих экcабайтами данных, которые нужно уметь эффективно хранить, обрабатывать и передавать между различными системами.
Для решения этих задач мы создали и развиваем распределённую платформу хранения и обработки данных YTsaurus.
YTsaurus в том числе управляет суперкомпьютерами Яндекса, на которых ML-инженеры решают задачи машинного обучения. Недавно мы начали новый проект, чтобы упростить жизнь коллег. Пользователями нового сервиса станет большинство ML-разработчиков Яндекса — сотни команд, которые обучают модели для Алисы, Нейро, Шедеврума.
Ключевые компоненты нового сервиса:
- Managed DevCluster для удалённой разработки и тестовых запусков задач на GPU
- Инструмент простого с точки зрения UX и эффективного запуска процессов обучения на гигантском кластере YTsaurus с тысячами GPU
- Оркестратор, который позволит описывать графы подготовки данных на Python и SQL
- Решение для трекинга ML-экспериментов (по смыслу похожее на Weights & Biases)
- MLOps-система для хранения жизненного цикла моделей и управления им Мы ищем человека, который поможет нам выстроить процессы разработки и наладить взаимодействие между ML-инженерами и инфраструктурой.
Какие задачи вас ждут
Взаимодействие с пользователями
Вам предстоит много общаться с внутренними и внешними пользователями, участвовать в формировании лучших практик применения ML-инфраструктуры (например, следить за эффективным использованием ресурсов GPU). Кроме того, предстоит собирать и анализировать потребности ML-инженеров и доносить предложения об улучшениях по всему стеку.
Технические вызовы
Вам предстоит разобраться в том, как устроен процесс разработки ML-моделей в Яндексе, и вести внутренние инфраструктурные проекты, а также участвовать в интеграционных проектах вместе с несколькими командами разработки, эксплуатации и тестирования.
Выстраивание рабочих процессов
Вам предстоит сотрудничать с разработчиками других инфраструктурных сервисов, анализировать процессы, находить проблемные места, предлагать и внедрять улучшения. Кроме того, необходимо управлять процессом разработки и отвечать за его соответствие планам и требованиям.
Мы ждем, что вы
- Получили высшее техническое или математическое образование
- Последний год работали в аналогичной должности
- Управляли проектами и продуктами
- Работали с командой разработчиков, найдёте с ними общий язык
- Непосредственно разрабатывали программное обеспечение
- Составляли FAQ и пользовательскую документацию
- Способны управлять обсуждениями, фиксировать результаты, расставлять приоритеты и решать задачи в срок
- Коммуникабельны, точно и понятно говорите и пишете
Будет плюсом, если вы
- Знакомы с инфраструктурными системами (Docker, Kubernetes, Ray, Slurm)
- Участвовали в создании и внедрении инфраструктурных решений в больших компаниях
- Пишете на Python или любом другом языке программирования