Анализ данных и машинное обучение

11 часов видео, 200 тестов

Анализ данных: часть 1. Введение в данные

Основы теории вероятностей
Основы статистического анализа выборочных данных
Графический анализ данных
Формирование выборок и подготовка данных
Практические задания

9 часов на выполнение

Анализ данных: часть 2. Исследование статистических взаимосвязей

Введение в статистические критерии
Критерии согласия
Поиск взаимосвязей в данных и оценка их статистической значимости
Линейная регрессия
Итоговое задание

8 часов на выполнение

Анализ данных: часть 3. Сравнение и создание групп

Одновыборочные и двухвыборочные критерии
Сравнение нескольких выборок
Введение в кластерный анализ
Итерационные методы кластерного анализа
Итоговое задание

7 часов на выполнение

Анализ данных: часть 4. Тренды и классификации

Анализ временных рядов
Прогноз временных рядов
Факторный анализ
Классификация
Итоговое задание

5 часов на выполнение

Основы статистики.1

Введение
Генеральная совокупность и выборка
Нормальное распределение
Центральная предельная теорема
Идея статистического вывода, p-уровень значимости

Сравнение средних

T-распределение
Проверка распределения на нормальность, QQ-Plot
Однофакторный дисперсионный анализ
ANOVA

Корреляция и регрессия

Корреляция
Регрессия
Гипотеза о значимости взаимосвязи и коэффициент детерминации
Регрессионный анализ
Классификация: логистическая регрессия и кластерный анализ

4 часа видео, 100 тестов

Основы статистики.2

Анализ номинативных данных
Распределение Хи-квадрат Пирсона
Анализ таблиц сопряженности
Точный критерий Фишера
Практические задания на R
Логистическая регрессия и непараметрические методы
Логистическая регрессия: модели без предикторов и с предикторами
Взаимодействие номинативных предикторов
Непараметрический анализ

Кластерный анализ и метод главных компонент

Кластерный анализ методом k - средних
Может ли кластерный анализ ""ошибаться""?
Иерархическая кластеризация
Введение в метод анализа главных компонент
Практические задания на R

6 часов видео, 100 тестов

Основы статистики.3

подробнее о линейной регрессии
Линейная регрессия, линейность взаимосвязи
Логарифмическая трансформация переменных
Проблема гетероскедастичности
Мультиколлинеарность
Практические задания на R

Смешанные регрессионные модели

Нарушение допущения о независимости наблюдений
Смешанные регрессионные модели. Реализация в R
Статистическая значимость, обобщённые модели и случайные эффекты
Практические задания на R

Bootstrap

Складной нож (jackknife)
Bootstrap
Практические задания на R

4 часа видео, 50 тестов

Просто о статистике с R: часть 1. Знакомство с R и базовая статистика

Знакомство с R
Работа с данными
Графики с использованием ggplot2
Описательная статистика
Тестирование гипотез

36 часов на выполнение

Просто о статистике с R: часть 2. Линейная регрессия

Корреляционный анализ. Простая линейная регрессия
Проверка значимости и валидности линейных моделей
Краткое введение в мир линейной алгебры
Множественная линейная регрессия
Сравнение линейных моделей

34 часов на выполнение

Просто о статистике с R: часть 3. Линейные модели с дискретными предикторами

Модели с дискретными и непрерывными предикторами
Модели с разными значениями угла наклона для групп
Однофакторный дисперсионный анализ
Многофакторный дисперсионный анализ

22 часов на выполнение

Просто о статистике с R: часть 4. Обобщенные линейные модели

Знакомство с обобщенными линейными моделями
Проблема выбора модели
Обобщенные линейные модели для счетных данных
Обобщенные линейные модели с бинарным откликом

17 часов на выполнение

Просто о статистике с R: часть 5. Смешанные линейные модели

Знакомство со смешанными линейными моделями
Моделирование структуры дисперсии в смешанных моделях
Смешанные линейные модели для счетных данных
Смешанные линейные модели для бинарных данных

17 часов на выполнение

BigData

Big Data

Название курса

Источник / Организация

Возраст

Длина курса

Управление вычислениями

контейнеризация и Docker

Знакомство с Docker
Работа с файлами в контейнерах Docker
Взаимодействие контейнеров Docker
Работа с образами Docker
Технологические основы и роль контейнеризации

Workflows и Pipelines

Работа с данными и пайплайны
Инструменты пайплайнинга и подходы к описанию пайплайнов
Snakemake: имплицитное описание графа анализа, создание пайплайнов

Common workflow language

Знакомство с CWL
Описание инструментов с использованием CWL
CWL: полезные компоненты, создание пайплайнов

2 часа видео, 50 тестов

Hadoop. Система для обработки больших объемов данных

Введение

Что такое Hadoop?

Распределенная файловая система HDFS

Архитектура HDFS
Shell-команды
Java API

MapReduce

Парадигма MapReduce, фреймворк
Java API
Hadoop Streaming
Алгоритмы на MapReduce
Реляционные функции
Расчет TF-IDF

алгоритмы на графах в MapReduce

Графы в MapReduce
Поиск кратчайшего пути в графе
PageRank
Проблемы MR-алгоритмов на графах

Pig и Hive

Pig, основные операторы PigLatin
Hive
Pig vs Hive

NoSQL базы данных HBase и Cassandra

Способы хранения данных, NoSQL
HBase
Cassandra

Spark

Основные понятия Spark, операторы, фреймворк

Yarn.MapReduce2.0

Что такое YARN?
Компоненты YARN
MapReduce 2.0

Stepik / mail.ru

12 часов видео, 250 тестов

Machine learning

Machine learning

Название курса

Источник / Организация

Возраст

Длина курса

Введение в Datascience и машинное обучение

Введение

Big data, deep machine learning, основные понятия
Модель
Фильтрация данных
Группировка и агрегация
Визуализация, seaborn

Решающие деревья

Какого музыканта Beatles я загадал или entropy reduction
Titanic: Machine Learning from Disaster
Обучение, переобучение, недообучение и кросвалидация
Последний джедай или метрики качества модели
Подбор параметров и ROC and Roll
Практика, Scikit-learn, fit, predict, you are awesome

Random forest, нейронные сети

Снова возвращаемся к деревьям
Random forest
Зачем знать что-то еще, если есть Random Forest?
Секретный гость
И на Марсе будут яблони цвести
Бонусный урок - нейроэволюция
Бонусный урок - трюки в Pandas

Stepik ML contest

Stepik ML contest

9 часов видео, 100 заданий

Введение в науку о данных

Введение
Математический инструментарий науки о данных
Программный инструментарий науки о данных
Машинное обучение: обучение с учителем
Машинное обучение: обучение без учителя

17 часов на выполнение

Введение в машинное обучение

Знакомство с анализом данных и машинным обучением
Логические методы классификации
Метрические методы классификации
Линейные методы классификации
Метод опорных векторов и логистическая регрессия
Метрики качества классификации
Линейная регрессия
Понижение размерности и метод главных компонент
Композиции алгоритмов
Нейронные сети
Кластеризация и визуализация
Частичное обучение
Машинное обучение в прикладных задачах

Coursera / Яндекс и ВШЭ

35 часов на выполнение

Машинное обучение и анализ данных: часть 1. Математика и Python для анализа данных

Введение
Библиотеки Python и линейная алгебра
Оптимизация и матричные разложения
Случайность

29 часов на выполнение

Машинное обучение и анализ данных: часть 2. Обучение на размеченных данных

Машинное обучение и линейные модели
Борьба с переобучением и оценивание качества
Линейные модели: классификация и практические аспекты
Решающие деревья и композиции алгоритмов
Нейронные сети и обзор методов

43 часа на выполнение

Машинное обучение и анализ данных: часть 3. Поиск структуры в данных

Кластеризация
Понижение размерности и матричные разложения
Визуализация и поиск аномалий
Тематическое моделирование

25 часов на выполнение

Машинное обучение и анализ данных: часть 4. Построение выводов по данным

Интервалы и гипотезы
АБ-тестирование
Закономерности и зависимости
Неделя задач

39 часов на выполнение

Машинное обучение и анализ данных: часть 5. Прикладные задачи анализа данных

Бизнес-задачи
Анализ медиа
Анализ текстов
Рекомендации и ранжирование

26 часов на выполнение

Машинное обучение и анализ данных: часть 6. Анализ данных: финальный проект

26 часов на выполнение

Нейронные сети

Основы линейной алгебры

Опциональный ликбез по линейной алгебре: векторы, матрицы
NumPy: основы
Линейная алгебра в деле

Перцептрон и градиентный спуск

Нейроны: настоящие и искусственные
Перцептрон, больше искусственных нейронов!
Градиентный спуск
Однослойные модели

Алгоритм обратного распространения ошибки

Многослойный перцептрон
Алгоритм обратного распространения ошибки
Целевые функции

Мониторинг состояния сети

Мониторинг состояния сети
Визуализация

Проект по нейронной сети для управления автомобилем

Проект

6 часов, 100 тестов

Машинное обучение

Введение в машинное обучение и основные понятия статистики
Восстановление пропущенных значений
Поиск выбросов и аномалий
Кластеризация
Задача предсказания, линейная регрессия
Классификация, kNN, кросс-валидация
Деревья в машинном обучении
Линейные классификаторы
Вероятностные алгоритмы. Наивный Байес
Ансамбли алгоритмов
Отбор признаков (feature selection) и объектов

Stepik / ОмГТУ

7 часов видео, 50 тестов

Применения ML

Применения ML

Название курса

Источник / Организация

Возраст

Длина курса

Нейронные сети и компьютерное зрение

Нейрон и нейронная сеть

Математическая модель нейрона
Булевы операции в виде нейронов
От нейрона к нейронной сети
Семинар: Базовая работа в PyTorch

Строим первую нейронную сеть

Восстановление зависимости нейронной сетью
Компоненты нейронной сети
Алгоритм настройки нейронной сети
Графы вычислений и BackProp
Восстановление зависимостей
Реализация градиентного спуска

Задачи, решаемые при помощи нейросетей

Бинарная классификация? Бинарная кросс-энтропия!
Многоклассовая классификация? Софтмакс!
Локализация, детекция, сегментация и super-resolution
Функции потерь

Методы оптимизации

Самый обычный градиентный спуск
Модификации градиентного спуска
Теоретические задачи: Понимаем SGD с momentum
Классификация рукописных чисел полносвязанной сетью

Сверточные нейронные сети

Свёртка, каскад свёрток
Семинар: Реализация сверточного слоя
Собери их все: архитектура LeNet (1998)
Собери их все: AlexNet (2012) и VGG (2014)
Собери их все: GoogLeNet и ResNet (2015)

Регуляризация и нормализация

Ударим дропаутом по переобучению!
И целой вечности мало? Батч-нормализация!
Семинар: cлой нормализации
Семинар: Решаем задачу классификации на датасете CIFAR

Метод максимального правдоподобия

Метод максимального правдоподобия
Transfer learning на примере соревнования на Kaggle

Stepik / Samsung research

7 часов видео, 200 тестов

Нейронные сети и обработка текста

Введение

Естественный язык и текст, особенности обработки естественных языков
В общих чертах: лингвистический анализ, извлечение признаков
Прикладные задачи обработки текста и итоги

Векторная модель текста и классификация длинных текстов

Векторная модель текста и TF-IDF
Создаём нейросеть для работы с текстом
Семинар: классификация новостных текстов

Базовые нейросетевые методы работы с текстами

Общий алгоритм работы с текстами с помощью нейросетей
Дистрибутивная семантика и векторные представления слов
Семинар: рецепты еды и Word2Vec на PyTorch
Основные виды нейросетевых моделей для обработки текстов
Свёрточные нейросети для обработки текстов
Семинар: POS-тэггинг свёрточными нейросетями

Языковые модели и генерация текста

Рекуррентные нейросети
Моделирование языка
Семинар: генерация имён и лозунгов с помощью RNN
Агрегация, механизм внимания
Transformer и self-attention

Преобразование последовательностей 1-k-1 и N-k-M

Распознавание плоской структуры коротких текстов
Семинар: распознавание структуры рецептов
Семинар: аспектный сентимент-анализ как NER
Преобразование последовательностей (seq2seq)
Семинар: генерация кода со Stack Overflow

Transfer learning и адаптация моделей

Контекстуализированные представления и перенос знаний
Семинар: PyTorch-Transformers, или... как мне запустить BERT?
Семинар: BERT для вопросно-ответного поиска

Финальное соревнование на kaggle и заключение

Что ещё почитать, как развиваться
Соревнование на Kaggle: обзор задачи и базового решения

Stepik / Samsung research

9 часов видео, 200 тестов

Машинное обучение в финансах

Введение в машинное обучение
Прогнозирование с помощью методов машинного обучения
Трейдинг и оптимальное управление в финансах
Natural Language Processing
Применение методов машинного обучения в анализе процессов
Прогнозирование макроэкономических показателей

Coursera / Сбербанк