Python для NLP: работа с текстовыми и PDF-файлами

Это первая статья в моей серии статей о Python для обработки естественного языка [/ what-is-natural-language-processing /] (NLP). В этой статье мы начнем с основ Python для NLP. Мы увидим, как мы можем работать с простыми текстовыми файлами и файлами PDF с помощью Python. Работа с текстовыми файлами Текстовые файлы, вероятно, являются самыми основными типами файлов, с которыми вы можете столкнуться в своих усилиях по НЛП. В этом разделе мы увидим, как читать из текстового файла [/ read-files-with-p

Python для NLP: токенизация, стемминг и лемматизация с библиотекой SpaCy

В предыдущей статье [/ python-for-nlp-working-with-text-and-pdf-files /] мы начали обсуждение того, как выполнять обработку естественного языка с помощью Python. Мы увидели, как читать и писать текстовые и PDF-файлы. В этой статье мы начнем работать с библиотекой spaCy [https://spacy.io/] для выполнения еще нескольких основных задач НЛП, таких как токенизация [https://en.wikipedia.org/wiki/Lexical_analysis#Tokenization] , стемминг и лемматизация [https://nlp.stanford.edu/IR-book/html/htmledition/stemming-

Python для НЛП: Введение в библиотеку шаблонов

Это восьмая статья из моей серии статей о Python для НЛП. В моей предыдущей статье [/ python-for-nlp-Introduction-to-the-textblob-library /] я объяснил, как библиотеку Python TextBlob можно использовать для выполнения множества задач NLP, начиная от токенизации и заканчивая тегами POS и классификацией текста. к анализу настроений. В этой статье мы рассмотрим библиотеку Python Pattern [https://github.com/clips/pattern], которая является еще одной чрезвычайно полезной библиотекой обработки естественного языка. В

Python для НЛП: вложения слов для глубокого обучения в Керасе

Это 16-я статья из моей серии статей о Python для НЛП. В моей предыдущей статье [/ python-for-nlp-development-an-automatic-text-filler-using-n-grams /] я объяснил, как можно использовать технику N-граммов для разработки простого автоматического наполнителя текста в Python. Модель N-Gram - это, по сути, способ преобразования текстовых данных в числовую форму для использования статистическими алгоритмами. Перед N-Grams я объяснил набор слов [/ python-for-nlp-create-bag-of-words-model-from-scratch /] и TF-IDF

Python для НЛП: начало работы с библиотекой StanfordCoreNLP

Это девятая статья из моей серии статей о Python для НЛП. В предыдущей статье [/ python-for-nlp-Introduction-to-the-pattern-library /] мы увидели, как библиотеку шаблонов Python можно использовать для выполнения множества задач НЛП, от токенизации до тегов POS и классификации текста. к анализу настроений. Перед этим мы исследовали библиотеку TextBlob [/ python-for-nlp-Introduction-to-the-textblob-library /] для выполнения аналогичных задач обработки естественного языка. В этой статье,

Python для НЛП: нейронный машинный перевод с помощью Seq2Seq в Керасе

Это 22-я статья из моей серии статей о Python для НЛП. В одной из моих предыдущих статей о решении проблем последовательности с помощью Keras [/ resolve-sequence-issues-with-lstm-in-keras-part-2 /] я объяснил, как решить многие или многие задачи последовательности, в которых как входы, так и выходы разделены на несколько временных шагов. Архитектура seq2seq [https://google.github.io/seq2seq/] представляет собой тип моделирования последовательности "многие ко многим" и обычно используется для различных задач, таких как текстовое суммирование,

Python для НЛП: работа с библиотекой Gensim (часть 1)

Это 10-я статья из моей серии статей о Python для НЛП. В моей предыдущей статье [/ python-for-nlp-getting-started-with-the-stanfordcorenlp-library /] я объяснил, как библиотека StanfordCoreNLP [https://stanfordnlp.github.io/CoreNLP/index.html] может использоваться для выполнения различных задач НЛП. В этой статье мы исследуем библиотеку Gensim [https://radimrehurek.com/gensim/intro.html], которая является еще одной чрезвычайно полезной библиотекой NLP для Python. Gensim в первую очередь разрабатывался для темы

Python для НЛП: словарный запас и сопоставление фраз с помощью SpaCy

Это третья статья из этой серии статей о Python для обработки естественного языка. В предыдущей статье [/ python-for-nlp-tokenization-stemming-and-lemmatization-with-spacy-library /] мы увидели, как библиотеки Python NLTK и spaCy [https://spacy.io/] могут использоваться для выполнять простые задачи НЛП, такие как токенизация [https://en.wikipedia.org/wiki/Lexical_analysis#Tokenization], стемминг и лемматизация [https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and -лемматизация-1.html

Python для НЛП: создание текста для глубокого обучения с помощью Keras

Это 21-я статья из моей серии статей о Python для НЛП. В предыдущей статье я объяснил, как использовать библиотеку FastText Facebook [/ python-for-nlp-working-with-facebook-fasttext-library /] для поиска семантического сходства и выполнения классификации текста. В этой статье вы увидите, как сгенерировать текст с помощью техники глубокого обучения на Python с использованием библиотеки Keras [https://keras.io/]. Генерация текста - одно из самых современных приложений НЛП. Методы глубокого обучения