Кого ищем
Ищем биоинформатика или ML-исследователя, который умеет применять машинное и глубокое обучение к биологическим данным: последовательностям, белкам, экспрессии генов, клеточным и медицинским датасетам.
Обязательно
- Python, pandas, NumPy, scikit-learn
- PyTorch или TensorFlow/Keras
- основы биоинформатических форматов: FASTA, FASTQ, BAM/SAM, VCF, GTF/GFF
- работа с биологическими последовательностями, embeddings, feature engineering
- ML-задачи: классификация, регрессия, кластеризация, снижение размерности
- deep learning для последовательностей: CNN/RNN/Transformers хотя бы на базовом уровне
- понимание биологических ограничений: batch effects, малые выборки, дисбаланс классов
Будет плюсом
- AlphaFold, ESM, protein language models
- single-cell ML, multimodal omics
- biomedical NLP, clinical prediction models
- Snakemake/Nextflow
- публикации или участие в биоинформатических соревнованиях
Инструменты
Python, scikit-learn, PyTorch, TensorFlow, Biopython, scanpy, anndata, scikit-bio, Hugging Face, Jupyter, Git, Docker.
Что особенно ценим
Ценим проекты на реальных биологических данных, а не на Iris и Titanic, построение пайплайна для экспрессии генов или белковых последовательностей, умение объяснить ML биологам без перегруза математикой и опыт командной работы с биологами и медиками.
Менеджер Елена Левина