Закрыто

DSCource 2. Data Mining с помощью Python (Юрий Кашницкий)

Тема в разделе "Курсы по программированию"

Статус темы:
Комментирование темы ограничено.
Цена:
7000 руб
Взнос:
254 руб
Организатор:
Gagarin

Список участников складчины:

1. Gagarin 2. Aplication 3. sk0012 4. a1ik 5. Gizo 6. batazor
  1. Gagarin Организатор складчин

    DSCource 2. Data Mining с помощью Python (Юрий Кашницкий)

    Юрий Кашницкий, Data Mining с помощью Python
    Видео лекций, презентации, ссылки по второму курсу данной серии


    "Мы постарались сделать программу так, чтобы в нее входили только самые основные навыки, необходимые в реальной работе. Здесь не будет длинной теории, только практически важные вещи."
    • Юрий Кашницкий, преподаватель Высшей Школы Экономики, умеющий объяснять сложные вещи простым языком, познакомит слушателей сперва с основными инструментами, которые пригодятся начинающему Data Scientist'у, а после проведет курс по машинному обучению, в котором даст необходимые навыки для построения прогнозных моделей

    Data Mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных) – собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности

    Kaggle – это платформа для исследователей разных уровней, где они могут опробовать свои модели анализа данных на серьезных и актуальных задачах. Суть такого ресурса – не только в возможности получить неплохой денежный приз в случае, если именно ваша модель окажется лучшей, но и в том (а, это, пожалуй, гораздо важнее), чтобы набраться опыта и стать специалистом в области анализа данных и машинного обучения.


    Данный курс освящает практическое применение алгоритмов обработки данных на примере решения одной из самых популярных задач платформы Kaggle, Titanic: Learning from Disaster (предсказание выживших в катастрофе пассажиров)
    Урок 1. Введение
    - Введение в машинное обучение, необходимые навыки
    - Задачи классификации, регрессии и кластеризации
    - Краткий обзор Kaggle
    - Открытие соревнования Kaggle Inclass
    - Знакомство с набором данных по автострахованию этого соревнования
    - Статистические распределения, нормализация признаков, приведение к нормальному распределению
    - Деревья решений
    - Применение дерева решений Scikit-learn к набору данных iris и данным из контеста Kaggle Inclass
    - Настройка параметров дерева, кросс-валидация

    Урок 2. Обзор инструментов
    - Работа с векторами и матрицами в библиотеке NumPy
    - Обзор библиотеки для научных выичслений SciPy
    - Тетрадки Jupyter (IPython) для презентации материала, содержащего код
    - Визуализация данных с Matplotlib
    - Чтение и обработка данных с библиотекой Pandas
    - Решение задачи соревнования Kaggle "Titanic: Learning from Disaster" c помощью Pandas
    - Обзор библиотеки машинного обучения Scikit-learn

    Урок 3. Обучение с учителем. Классификация
    - Работа с признаками – отбор, преобразование, построение
    - Метрики качества алгоритмов машинного обучения (accuracy, precision, recall, F-score). ROC-кривая, AUC
    - Метод максимального правдоподобия
    - Логистическая регрессия

    Урок 4. Обучение с учителем. Ансамбли. Переобучение
    - Случайный лес (Random Forest)
    - Случайный лес на примере набора данных Titanic
    - Случайный лес на примере набора данных по автострахованию
    - Бустинг (boosting) и бэггинг (bagging)
    - Сравнение бустинга и бэггинга на наборах данных репозитория UCI
    - Стекинг. Демонстрация решения задачи категоризации продуктов Otto (вкратце)
    - Переобучение, кросс-валидация, регуляризация
    - Пример регуляризации для логистической регрессии

    Урок 5. Обучение без учителя
    - Обзор методов кластеризации, снижения размерности, поиска аномалий в данных
    - Кластеризации городов России по социально-экономическим показателям
    - Сингулярное разложение матрицы
    - Пример снижения размерности изображений, сжатие изображений
    - Снижение размерности как способ визуализации даных
    - Решение задачи соревнования Kaggle "Titanic: Learning from Disaster" с помощью Python

    Урок 6. Продвинутые методы. API Scikit-learn
    - Нейронные сети, библиотеки nolearn и Lasagne NN
    - Библиотека XGBoost, сравнение с градиентным бустингом в Scikit-learn
    - Пример голосования между алгоритмами для повышения качества классификации
    - Смешивание (блендинг) алгоритмов на примере задачи Kaggle "Titanic: Learning from Disaster"
    - Стекинг. Пример для Titanic
    - Разработка собственного класса Scikit-learn Estimator для задачи по автострахованию Kaggle Inclass. kNN с подобранной метрикой.
    Скрытый текст. Доступен только зарегистрированным пользователям.Нажмите, чтобы раскрыть...
     
    Goldnadia нравится это.
  2. Похожие складчины
    Загрузка...
  3. Aplication Партнёр
    Скрытый текст. Доступен только зарегистрированным пользователям.Нажмите, чтобы раскрыть...
     
    Aplication,
  4. SandraW Организатор складчин
    Освой Профессию‌ ‌Data‌ ‌Scientist‌ [SkillBox] _Beach
    Дата-сайентист — одна из самых востребованных профессий в мире.

    Вас ждут 8 курсов, онлайн-лекции и практические задания, а также 2 дипломных проекта.
    После обучения вы сможете претендовать на позицию Junior Data Scientist.

    Чему вы научитесь:
    + Программировать на Python
    + Визуализировать данные
    + Разрабатывать интерактивную инфографику
    + Работать с библиотеками и базами данных (Pandas, NumPy и Matplotlib, PostgreSQL, SQLite3, MongoDB)
    + Программировать на R
    + Применять нейронные сети для решения реальных задач
    + Освоите фреймворки для обучения нейронных сетей Tensorflow и Keras
    + Построите рекомендательную систему и добавите её в своё портфолио

    ПОРА ПРОФЕССИЮ МЕЧТЫ ПРЕВРАЩАТЬ В РЕАЛЬНОСТЬ! _Neo Скрытый текст. Доступен только зарегистрированным пользователям.Нажмите, чтобы раскрыть...

    P.S. Дефицит дата-сайентистов наблюдается не только в России, но и во всем мире. ВЭФ считает эту профессию одной из самых востребованных в ближайшие пять лет. В России, по данным HeadHunter, только с 2019 по 2020 год число вакансий на должность дата-сайентиста выросло на треть. При этом уровень предлагаемых зарплат в сфере остается высоким — в среднем 150 тысяч рублей в месяц.
     
    SandraW,
Статус темы:
Комментирование темы ограничено.
Наверх