Мы — R&D лаборатория компании MagnitMedia (15+ лет на рынке IT), работающая в режиме внутреннего стартапа (Skunkworks). Мы выделены в независимый контур с собственным бюджетом и карт-бланшем от владельца бизнеса, чтобы создавать продукты нового поколения без оглядки на корпоративные процессы.
Мы создаём Overlay AI — систему памяти и навигации для искусственного интеллекта нового поколения. Это не очередная GPT-обёртка. В нашей архитектуре LLM выступает в роли интеллектуального роутера, тогда как основа системы — структурированные графы знаний, внешняя память и глубокая семантическая обработка экспертных знаний.
Ищем инженера, которому интересно работать на стыке данных, смыслов и архитектуры ИИ. Ваша основная задача — создавать и развивать «топливо» для нашего ИИ.
Обязанности:
-
Разработка интеллектуальных парсеров под неструктурированные форматы данных с написанием собственных fallback-режимов.
- Построение ETL-пайплайнов полного цикла: сбор → очистка → чанкинг → векторизация → индексация → построение графа.
- Написание промптов и интеграция вызовов к локальным (vLLM, llama.cpp 2.) и облачным LLM для извлечения сущностей, связей и тезисов из сырого текста.
- Администрирование и наполнение векторных (Qdrant, Milvus и др.) и графовых (Neo4j и др.) баз данных.
- Создание датасетов для оценки качества парсинга и fine-tuning моделей.
- Базовая работа с инфраструктурой: запуск моделей в Docker-контейнерах на Ubuntu-серверах.
Требования:
- Высшее техническое образование.
-
Уверенное владение Python и опыт построения ETL / data-пайплайнов.
-
Опыт работы или интерес к LLM, RAG-архитектурам, мультиагентным системам, NLP.
-
Навыки парсинга данных (веб, API, документы) и обработки ошибок.
-
Практический опыт работы с векторными базами данных и эмбеддингами.
-
Devops-навыки, опыт настройки CI/CD.
-
Уверенная работа в Linux-среде, базовые навыки Docker.
-
Будет плюсом:
-
Опыт работы с Airflow / LangChain / LlamaIndex или аналогами.
-
Интерес к архитектуре интеллектуальных систем и работе в небольших командах.
-
Опыт работы в стартапах или над высоконагруженными проектами.
Условия:
- Проектная работа;
- Полностью удалённый формат работы;
- Гибкий график с фокусом на результат;
-
Возможность долгосрочного сотрудничества и роста роли вместе с развитием продукта.
*Чтобы мы поняли, что вы внимательно прочитали вакансию и говорите с нами на одном языке, прикрепите к отклику ответы на 3 коротких вопроса:
1. Опишите свой самый сложный парсер или ETL-пайплайн. Что было на входе, что на выходе, какие проблемы решали (масштаб, грязные данные, обход защит)?
2. Был ли у вас опыт создания графовых (Knowledge Graph) или векторных баз данных / создания обучающих датасетов? Кратко опишите его.
3. Опишите самую сложную «железную» или инфраструктурную проблему, которую вам приходилось решать (например, падение серверов, проблемы с VRAM при запуске моделей, воскрешение Docker).