«Data science» или «Наука о данных» достаточно широкое понятие. Проще всего описать, что это такое, перечислив конкретные области:
Исследование и анализ данных.
- Pandas; NumPy; SciPy; и стандартные библиотеки Python.
Визуализация данных. Здесь просто — Беру данные и превращаю их во что-то красочное.
- Matplotlib; Seaborn; Datashader; другие.
Классическое машинное обучение. Концептуально, мы могли бы определить это как любую задачу обучения с учителем и буз, которая не является глубоким обучением(см. Ниже). Scikit-learn — это универсальный инструмент для реализации классификации, регрессии, кластеризации и уменьшения размерности, в то время как StatsModels разрабатывается менее активно, но все же обладает рядом полезных функций.
- Scikit-Learn, StatsModels.
Глубокое обучение. Это подмножество машинного обучения, которое получило вторую жизнь и обычно реализуется с Keras, среди других библиотек.
- Keras, TensorFlow и много других.
Хранение данных и фреймворки для больших данных. Большие данные лучше всего описать как данные, которые в буквальном смысле слишком велики для размещения на одной машине или не могут быть обработаны целиком. Привязки Python к технологиям Apache играют здесь большую роль.
- Apache Spark; Apache Hadoop; HDFS; Даск; h5py / pytables.
Обработка. Включает подтемы, такие как обработка естественного языка и манипулирование изображениями с такими библиотеками, как OpenCV.
- NLTK; Spacy; OpenCV / CV2; scikit-изображения; Cython.
В этом разделе собраны примеры и руководства по изучению Data science с использованием Python с нуля.
Это также поможет вам изучить основные методы анализа данных с использованием Python.