Статьи и уроки по Data Sciece на python, бесплатно на русском ~ PythonRu

«Data science» или «Наука о данных» достаточно широкое понятие. Проще всего описать, что это такое, перечислив конкретные области:

Исследование и анализ данных.

Pandas; NumPy; SciPy; и стандартные библиотеки Python.

Визуализация данных. Здесь просто — Беру данные и превращаю их во что-то красочное.

Matplotlib; Seaborn; Datashader; другие.

Классическое машинное обучение. Концептуально, мы могли бы определить это как любую задачу обучения с учителем и буз, которая не является глубоким обучением(см. Ниже). Scikit-learn — это универсальный инструмент для реализации классификации, регрессии, кластеризации и уменьшения размерности, в то время как StatsModels разрабатывается менее активно, но все же обладает рядом полезных функций.

Scikit-Learn, StatsModels.

Глубокое обучение. Это подмножество машинного обучения, которое получило вторую жизнь и обычно реализуется с Keras, среди других библиотек.

Keras, TensorFlow и много других.

Хранение данных и фреймворки для больших данных. Большие данные лучше всего описать как данные, которые в буквальном смысле слишком велики для размещения на одной машине или не могут быть обработаны целиком. Привязки Python к технологиям Apache играют здесь большую роль.

Apache Spark; Apache Hadoop; HDFS; Даск; h5py / pytables.

Обработка. Включает подтемы, такие как обработка естественного языка и манипулирование изображениями с такими библиотеками, как OpenCV.

NLTK; Spacy; OpenCV / CV2; scikit-изображения; Cython.

В этом разделе собраны примеры и руководства по изучению Data science с использованием Python с нуля.

Это также поможет вам изучить основные методы анализа данных с использованием Python.

Тема: Data Science

Руководство по PySpark для начинающих

Алгоритм классификации Random Forest на Python

Алгоритмы K-ближайших соседей и K-средних на Python

Полное руководство по библиотеки Gensim для начинающих

Глубокое погружение в ROC-AUC

ML-Фреймворк LightGBM для градиентного бустинга

Полное руководство по линейной регрессии в Scikit-Learn

Встроенные Scikit-Learn datasets для машинного обучения

Оценка моделей ML/DL: матрица ошибок, Accuracy, Precision и Recall

Примеры разделения датасета на train и test c Scikit-learn

Новое

Нахождение делителей числа с помощью Python

Лямбда-функции и анонимные функции в Python

Когда стоит использовать yield вместо return в Python

Как извлечь кубический корень в Python

Python цикл for — for i in range