суботу, 18 травня 2013 р.

Видеолекции курса Технологии хранения и обработки больших объёмов данных

Видеолекции курса Технологии хранения и обработки больших объёмов данных.

Лекторы: Дмитрий Барашев, Александр Дольник.

Курс посвящён теоретическим и практическим аспектам технологий, связанных с хранением, обработкой и анализом больших объёмов данных. В основном будут рассматриваться технологии, ставшие массовыми относительно недавно, такие как распределённые файловые системы и NoSQL СУБД, но будут также затронуты возможности, предоставляемые привычными реляционных СУБД.

В материалах курса используются примеры программ на языке Python; кроме того, домашние задания тоже предполагают программирование на этом языке. Поэтому от слушателей требуется понимание элементарных конструкций этого языка и способность писать несложные программы, а также знание алгоритмов вообще. Знание реляционных СУБД и языка SQL тоже существенно облегчит восприятие некоторых тем курса.


Лекция 1. Распределенные файловые системы.
Поговорим о распределенных файловых системах. Рассмотрим основные аспекты их функционирования, немного затронем историю, подробнее углубимся в архитектуру G(oogle)FS, Apache HDFS и в некоторые интересные алгоритмы.


Посмотреть видео на сайте Лекториума

Дополнительные материалы

Скачать: Презентация


Лекция 2. Распределенная параллельная обработка данных технологией Map-Reduce.
Поговорим о том, что такое Map-Reduce, к каким задачам эту технологию можно применять и при каких условиях она будет эффективной. Повертим в руках игрушечный (но работающий!) Map-Reduce.


Посмотреть видео на сайте Лекториума

Дополнительные материалы

Скачать: Презентация
Реализация среды выполнения MR на Питоне и примеры программ


Семинар 2. Алгоритм коррекции ошибок Рида-Соломона.
Небольшой рассказ о применении матриц Вандермонда, метода Гаусса и конечных полей к вполне практическим вещам. Рассказывают Григорий Рожков и Дмитрий Харьковский.
Дополнительные материалы

Скачать: Презентация


Лекция 3. Полнотекстовый поиск.
Как производить полнотекстовый поиск в большом корпусе документов; какие структуры данных и какие методы обработки могут помочь; какой документ лучше удовлетворяет запросу, а какой хуже.


Посмотреть видео на сайте Лекториума

Дополнительные материалы

Скачать: Презентация


Лекция 4. Статический ранг документов. Распределенные вычисления на графах.
Статический не зависимый от запроса ранг документов и его конкретный вариант PageRank. Вычисление PageRank при помощи Map-Reduce. Системы распределенного выполнения алгоритмов на графах.


Посмотреть видео на сайте Лекториума

Дополнительные материалы

Скачать: Презентация


Лекция 5. Введение в NoSQL. Google Bigtable.
Предпосылки появления NoSQL СУБД, их разновидности, основные отличия от реляционных СУБД, и основные используемые технологии. Подробнее о Google Bigtable.


Посмотреть видео на сайте Лекториума

Дополнительные материалы

Скачать: Презентация


Семинар 5. Вероятностная модель информационного поиска.
Антон Алексеев расскажет о вероятностной модели информационного поиска.
Дополнительные материалы

Скачать: Презентация


Лекция 6. Согласованность в распределенных системах. Percolator.


Дополнительные материалы

Скачать: Презентация


Лекция 7. Средства интеграции больших объёмов данных.
Александр Дольник рассказывает об интеграции данных из разнородных источников и последующем их анализе.


Посмотреть видео на сайте Лекториума

Дополнительные материалы

Скачать: Презентация


Лекция 8. Создание ETL процесса: Case Study.
Александр Дольник демонстрирует создание ETL процесса по обработке отчетов о продажах в торговой сети.


Посмотреть видео на сайте Лекториума

Дополнительные материалы

Скачать: Презентация


Лекция 9. Поиск похожих документов.


Посмотреть видео на сайте Лекториума

Дополнительные материалы

Скачать: Презентация


Лекция 10. Алгоритмы кластеризации.


Посмотреть видео на сайте Лекториума

Дополнительные материалы

Скачать: Презентация


Немає коментарів:

Дописати коментар

HyperComments for Blogger

comments powered by HyperComments