MLOps, часть II: погружаемся в специфику работы с данными
Listen now
Description
Во второй части большой темы про MLOps, которую мы разбили на несколько эпизодов подкаста, ещё глубже погружаемся в тему машинного обучения и работы с данными, лежащей в основе ML. Рассматриваем вопросы обогащения данных, разбираемся с разметкой, говорим о специфических аспектах управления данными.  В этом выпуске вы услышите:  Почему общепринятых стандартов управления данными недостаточно для работы с большими данными для ML; Что такое хвосты и артефакты в сверхбольших данных; Может ли overfeeding стать причиной overfitting’a (или это одно и то же?); И многое другое! Юрий Карев, руководитель управления процессов и стандартов моделирования и машинного обучения ВТБ, и Алексей Незнанов, к.т.н, старший научный сотрудник международной лаборатории интеллектуальных систем и структурного анализа НИУ ВШЭ, подошли к теме с двух сторон: теоретической и практической. Помогли ведущей подкаста разобраться с терминологией. А также поговорили про специфику подходов к образованию для специалистов в Data Science, DataOps и MLOps.  Полезные ресурсы и ссылки: Курс MLOps (OTUS): https://otus.ru/lessons/ml-bigdata/  Основные идеи из книги «Сотрудничество в DevOps-культуре»: http://agilemindset.ru/основные-идеи-из-книги-сотрудничест/  MLOps: Continuous delivery and automation pipelines in machine learning: https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning Как создавать качественные ML-системы. Часть 1: каждый проект должен начинаться с плана: https://habr.com/ru/companies/vk/articles/749850/  Как создавать качественные ML-системы. Часть 2: приручаем хаос: https://habr.com/ru/companies/vk/articles/749852/ The Data Engineering Cookbook: https://github.com/andkret/Cookbook Стандарты: ISO/IEC DIS 5259-1: https://www.iso.org/standard/81088.html ISO/IEC DIS 5259-4: https://www.iso.org/standard/81093.html ISO/IEC 8183:2023: https://www.iso.org/standard/83002.html
More Episodes
Работа Data Science-специалистов в промышленных компаниях строится по своим правилам и требует специфических навыков: нужно не только любить математику, но и дружить с физикой, и разбираться в технологии. Кроме того, работа DS-команд вплотную связана с людьми и процессами на производстве. Есть и...
Published 09/30/24
Использовать машинное обучение везде, где это возможно и целесообразно — и в пользовательских сервисах, и во внутренних процессах. Такую парадигму развития ML в компании озвучил Андрей Рыбинцев, старший директор по данным и аналитике «Авито». Обсудили, с чего начинается путь в Data Science, какие...
Published 09/19/24