Главная Теги Data Science

Тема: Data Science

Глубокое погружение в ROC-AUC

Глубокое погружение в ROC-AUC

Я думаю, что большинство людей слышали о ROC-кривой или о AUC (площади под кривой) раньше. Особенно те, кто интересуется наукой о данных....
ML-Фреймворк LightGBM для градиентного бустинга

ML-Фреймворк LightGBM для градиентного бустинга

LightGBM — это фреймворк, который предоставляет реализацию деревьев принятия решений с градиентным бустингом. Он создан группой исследователей и разработчиков Microsoft. LightGBM известен...
Полное руководство по линейной регрессии в Scikit-Learn

Полное руководство по линейной регрессии в Scikit-Learn

Обсудим модель линейной регрессии, используемую в машинном обучении. Используем ML-техники для изучения взаимосвязи между набором известных показателей и тем, что мы надеемся...
Sklearn Datasets — машинное обучение на встроенных датасетах Scikit-Learn

Встроенные Scikit-Learn datasets для машинного обучения

Библиотека Scikit-Learn предоставляет чистые датасеты, которые вы можете использовать при построении моделей машинного обучения. Они поставляются вместе с Scikit-Learn. Вам не нужно...
Оценка моделей ML/DL: матрица ошибок, Accuracy, Precision и Recall

Оценка моделей ML/DL: матрица ошибок, Accuracy, Precision и Recall

В компьютерном зрении обнаружение объекта — это проблема определения местоположения одного или нескольких объектов на изображении. Помимо традиционных методов обнаружения, продвинутые модели...
Функция train_test_split из Sklearn

Примеры разделения датасета на train и test c Scikit-learn

Если вы разбиваете датасет на данные для обучения и тестирования, нужно помнить о некоторых моментах. Далее следует обсуждение трех передовых практик, которые...
Функция Pandas value_counts() — количество каждого значения в колонке

8 примеров использования value_counts из Pandas

Прежде чем начинать работать над проектом, связанным с данными, нужно посмотреть на набор данных. Разведочный анализ данных (EDA) — очень важный этап,...
Топ-10 библиотек Python для машинного обучения

Топ-10 библиотек Python для машинного обучения

Data Science активно использует предиктивные возможности алгоритмов машинного обучения (ML). Python же предоставляет удобную среду для экспериментов с этими алгоритмами благодаря своей...
Основные приложения / keras 8

Основные приложения / keras 8

Благодаря богатому пользовательскому опыту, возможности повторно использовать код и расширяемости Keras делает процесс написания кода простым и гибким. Помимо этого он также предлагает дополнительные...
Продвинутые графики pyplot / plt 4

Продвинутые графики pyplot / plt 4

Помимо классических графиков, таких как столбчатые и круговые, можно представлять данные и другими способами. В интернете и разных источниках можно найти самые разные примеры...

«Data science» или «Наука о данных» достаточно широкое понятие. Проще всего описать, что это такое, перечислив конкретные области:

Исследование и анализ данных.

  • Pandas; NumPy; SciPy; и стандартные библиотеки Python.

Визуализация данных. Здесь просто — Беру данные и превращаю их во что-то красочное.

  • Matplotlib; Seaborn; Datashader; другие.

Классическое машинное обучение. Концептуально, мы могли бы определить это как любую задачу обучения с учителем и буз, которая не является глубоким обучением(см. Ниже). Scikit-learn — это универсальный инструмент для реализации классификации, регрессии, кластеризации и уменьшения размерности, в то время как StatsModels разрабатывается менее активно, но все же обладает рядом полезных функций.

  • Scikit-Learn, StatsModels.

Глубокое обучение. Это подмножество машинного обучения, которое получило вторую жизнь и обычно реализуется с Keras, среди других библиотек.

  • Keras, TensorFlow и много других.

Хранение данных и фреймворки для больших данных. Большие данные лучше всего описать как данные, которые в буквальном смысле слишком велики для размещения на одной машине или не могут быть обработаны целиком. Привязки Python к технологиям Apache играют здесь большую роль.

  • Apache Spark; Apache Hadoop; HDFS; Даск; h5py / pytables.

Обработка. Включает подтемы, такие как обработка естественного языка и манипулирование изображениями с такими библиотеками, как OpenCV.

  • NLTK; Spacy; OpenCV / CV2; scikit-изображения; Cython.

В этом разделе собраны примеры и руководства по изучению Data science с использованием Python с нуля.

Это также поможет вам изучить основные методы анализа данных с использованием Python.

Новое