Gensim — NLP Библиотека Python, руководство для начинающих

Gensim – это библиотека с открытым исходным кодом на Python, написанная Радимом Рехуреком, которая используется для тематического моделирования без учителя и обработки естественного языка (NLP). Она предназначена для извлечения семантических тем из документов.

Gensim может работать с большими текстовыми коллекциями. Этим она отличается от других программных библиотек машинного обучения, ориентированных на обработку в памяти. GenSim также предоставляет эффективные многоядерные реализации различных алгоритмов для увеличения скорости обработки. В нее добавлены более удобные средства для обработки текста, чем у конкурентов, таких как Scikit-learn, R и т. д.

В этом руководстве будут рассмотрены следующие концепции:

Создание корпуса из заданного датасета.
Матрицы TFIDF в Gensim.
Создание биграммы и триграммы с помощью Gensim.
Модели Word2Vec, с использованием Gensim.
Модели Doc2Vec, с использованием Gensim.
Создание тематической модели с LDA.
Создание тематической модели с LSI.

Прежде чем двигаться дальше, давайте разберемся, что означают следующие термины:

Корпус: коллекция текстовых документов.
Вектор: форма представления текста.
Модель: алгоритм, используемый для генерации представления данных.
Тематическое моделирование: инструмент интеллектуального анализа информации, который используется для извлечения семантических тем из документов.
Тема: повторяющаяся группа слов, часто встречающихся вместе.

Например:

У вас есть документ, состоящий из таких слов, как:
bat, car, racquet, score, glass, drive, cup, keys, water, game, steering, liquid.

Их можно сгруппировать по разным темам:

Тема 1	Тема 2	Тема 3
glass	bat	car
cup	racquet	drive
water	score	keys
liquid	game	sterring

Некоторые из методов тематического моделирования:

Латентно-семантический анализ (LSI)
Латентное размещение Дирихле (LDA)

Теперь, когда у нас есть базовое понимание терминологии, давайте перейдем к использованию пакета Gensim. Сначала установите библиотеку с помощью следующих команд:

pip install gensim
# или
conda install gensim

Шаг 1. Создайте корпус из заданного датасета

Вам необходимо выполнить следующие шаги, чтобы создать свою коллекцию документов:

Загрузите выбранный датасет.
Проведите предварительную обработку вашего набора данных.
Создайте словарь.
Создайте Bag of Words.

1.1 Загрузите выбранный датасет:

У вас может быть файл .txt в качестве набора данных или вы также можете загрузить необходимые датасеты с помощью API Gensim Downloader.

Шаг 1. Создайте корпус из заданного датасета

1.1 Загрузите выбранный датасет:

1.2 Предварительная обработка набора данных

1.3 Создание словаря

1.3.1 Сохранение словаря

1.4 Создание Bag of Words

1.4.1 Сохранение корпуса на диск

Шаг 2: Создание матрицы TF-IDF в Gensim

Шаг 3. Создание биграмм и триграмм с помощью Gensim

Шаг 4: Создайте модель Word2Vec с помощью Gensim

4.1) Обучение модели

4.2) Обновление модели

Шаг 5: Создание модели Doc2Vec с помощью Gensim

5.1) Обучите модель

5.2) Обновите модель

Шаг 6. Создание тематической модели с помощью LDA

6.1 Подготовка данных

6.2 Создание словаря и корпуса

6.3 Обучение LDA-модели

6.4 Интерпретация вывода

Шаг 7. Создание тематической модели с помощью LSI

Заключение

Статьи по теме

Цветной вывод текста в Python: Colorama

Руководство по PySpark для начинающих

CRUD-операции в SQLAlchemy ORM

Создание схемы в SQLAlchemy ORM

CRUD-операции с помощью SQLAlchemy Core

Создание схемы базы данных в SQLAlchemy Core