Москва
Мы — команда Генеративной музыки, занимаемся исследованиями в области генеративной музыки, саунд-дизайна, сведения и мастеринга, реализации GenAI-решений в направлении text2music. Именно с помощью нашей команды в прошлом году GigaChat запел и заиграл! Но мы не останавливаемся на достигнутом, впереди много амбициозных и интересных задач — улучшение качества, разработка новых фичей и вывод новых продуктов на основе GenAI.
Обязанности
- разработка и настройка механизмов для автоматизированного сбора данных
- обеспечение корректности и полноты собираемых данных.
- оптимизация процессов сбора данных для минимизации затрат времени и ресурсов
- реализация автоматизированных пайплайнов для регулярной предобработки данных
- очистка, удаление дубликатов, нормализация собранных данных, удаление «шумов»
- преобразование данных в формат, оптимальный для дальнейшего хранения и обработки
- проектирование и реализация хранилища собранных данных для дальнейшего их использования в пайплайнах ML
- разработка, внедрение и оптимизация алгоритмов для обработки и анализа данных
- применение машинного обучения и искусственного интеллекта для улучшения качества метаданных
- формирование и контроль пайплайнов разметки данных
- работа в плотной связке с командой ML.
Требования
- знание Python на высоком уровне
- умение проектировать и разрабатывать пайплайны обработки данных
- опыт работы с S3 подобрыми системами (Amazon S3, Minio, Ceph)
- общие знания computer science на высоком уровне (алгоритмы, структуры данных, сложность по времени и по памяти и т.д.)
- умение и опыт проектирования пайплайнов краулинга данных из открытых источников (web)
- опыт синтеза, обогащения и фильтрации обучающих данных
- опыт формирования и работы с продуктовыми и ML метриками, тестовыми сетами и бенчмарками в разных доменах (аудио, текст).
Большим плюсом будет знание и опыт работы со стеком технологий ML: PyTorch, Transformers, Diffusion Models, LLM (Llama, Mistral, Qwen, Google Gemini, OpenAI GPT, Anthropic и пр.).
Условия
- комфортный современный офис рядом с м. Кутузовская
- гибридный формат работы
- ежегодный пересмотр зарплаты, годовая премия
- корпоративный спортзал и зоны отдыха
- система обучения для профессионального и карьерного развития
- расширенный полис ДМС с первого дня работы и страхование для семьи
- льготная программа ипотеки для сотрудников
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.