Дмитрий Монахов — Как кластеры Яндекса оказались в топе

YaTalks 2021: ReRun

Дмитрий Монахов — Как кластеры Яндекса оказались в топе суперкомпьютеров

Listen now

Description

Из доклада вы узнаете краткую историю кластеров для обучения нейронных сетей в Яндексе: — Зачем они нам понадобились? — Что такое современный HPC и почему это не просто объединение нескольких сотен серверов? — Способы создания HPC, и почему Яндекс выбрал наиболее трудный. Поговорим о борьбе за производительность: — Почему такие кластеры, как у нас, не работают «из коробки»? — Как мы оптимизировали производительность одного узла от 30 до 110 терафлопс. — Как масштабировали производительность на 200 узлов, получив в сумме 21,6 петафлопс. Также мы подробно расскажем о том, что представляет из себя распределённое обучение и почему это сложно; и поделимся 10 правилами, без которых GPU-кластеры никогда не окупятся и будут просто дорогой игрушкой. О спикере: Дмитрий Монахов занимается в Яндексе поддержкой и разработкой ядра Linux для нужд инфраструктуры внутреннего облака. Отвечает за файловые системы, распределённые системы и алгоритмы, RDMA, Infiniband, HPC и GPU. С 2008-го по 2018-й занимался разработкой ядра Linux, локальных и распределённых файловых систем в компаниях SwSoft, Parallels и Virtuozzo.

More Episodes

See all »

Павел Воробьёв — Будущее уже наступило: как мы запустили доставку роботами в России и США

Ещё несколько лет назад было сложно поверить, что еду из ресторана или посылку из интернет-магазина вам доставит робот. Роботы-курьеры Яндекса всего за два года прошли путь от идеи и первого прототипа до коммерческих запусков в нескольких странах. Из доклада вы узнаете: — как быстро итерировать...

Published 12/28/21

YaTalks 2021: ReRun

Published 12/28/21

Александр Губочкин — Как запустить кредитный, банковский или другой регулируемый продукт с нуля, используя только in-house-технологии

Компания решила создать новую продуктовую линейку, ваша задача — разработать эти продукты, но помимо названий у вас нет других вводных. Обсудим, с чего начать проект, как собрать команду по спасению мира и вместе довести дело до победного конца. Из доклада вы узнаете: — как спланировать создание...

Published 12/28/21