Руководство по K-Means и KNN с примерами в SKLearn | К-ближайших соседей и К-средних

Одно из самых популярных приложений машинного обучения — решение задач классификации. Задачи классификации — это ситуации, когда у вас есть набор данных, и вы хотите классифицировать наблюдения из этого набора в определенную категорию.

Известный пример — спам-фильтр для электронной почты. Gmail использует методы машинного обучения с учителем, чтобы автоматически помещать электронные письма в папку для спама в зависимости от их содержания, темы и других характеристик.

Две модели машинного обучения выполняют большую часть работы, когда дело доходит до задач классификации:

Метод K-ближайших соседей
Метод К-средних

Из этого руководства вы узнаете, как применять алгоритмы K-ближайших соседей и K-средних в коде на Python.

Модели K-ближайших соседей

Алгоритм K-ближайших соседей является одним из самых популярных среди ML-моделей для решения задач классификации.

Обычным упражнением для студентов, изучающих машинное обучение, является применение алгоритма K-ближайших соседей к датасету, категории которого неизвестны. Реальным примером такой ситуации может быть случай, когда вам нужно делать предсказания, используя ML-модели, обученные на секретных правительственных данных.

В этом руководстве вы изучите алгоритм машинного обучения K-ближайших соседей и напишите его реализацию на Python. Мы будем работать с анонимным набором данных, как в описанной выше ситуации.

Используемый датасет

Первое, что вам нужно сделать, это скачать набор данных, который мы будем использовать в этом руководстве. Вы можете скачать его на Gitlab.

Далее вам нужно переместить загруженный файл с датасетом в рабочий каталог. После этого откройте Jupyter Notebook — теперь мы можем приступить к написанию кода на Python!

Необходимые библиотеки

Чтобы написать алгоритм K-ближайших соседей, мы воспользуемся преимуществами многих Python-библиотек с открытым исходным кодом, включая NumPy, pandas и scikit-learn.

Начните работу, добавив следующие инструкции импорта:

Модели K-ближайших соседей

Используемый датасет

Необходимые библиотеки

Импорт датасета

Стандартизация датасета

Разделение датасета на обучающие и тестовые данные

Обучение модели K-ближайших соседей

Делаем предсказания с помощью алгоритма K-ближайших соседей

Оценка точности нашей модели

Выбор оптимального значения для K с помощью метода «Локтя»

Модели кластеризации методом K-средних

Используемый датасет

Импортируемые библиотеки

Визуализация датасета

Создание и обучение модели кластеризации K-средних

Применяем нашу модель кластеризации K-средних для получения предсказаний

Визуализация точности предсказаний модели

Заключительные мысли

Статьи по теме

Запуск Django-приложения в Docker контейнере

Алгоритм классификации Random Forest на Python

Полное руководство по линейной регрессии в Scikit-Learn

Создаем API блога на Django REST Framefork

Настройка и подключение статических файлов в Django

8. Словари