scikit-learn: Сохранение и восстановление моделей

Во многих случаях при работе с библиотекой scikit-learn вам необходимо сохранить свои модели прогнозов в файл, а затем восстановить их, чтобы повторно использовать вашу предыдущую работу для: тестирования вашей модели на новых данных, сравнения нескольких моделей или что-нибудь еще. Эта процедура сохранения также известна как сериализация объекта - представляет объект с потоком байтов, чтобы сохранить его на диске, отправить по сети или сохранить в базе данных, в то время как процедура восстановления известна как десериализация. [Далее]

Деревья принятия решений в Python с помощью Scikit-Learn

Вступление Дерево решений - один из наиболее часто и широко используемых алгоритмов контролируемого машинного обучения, который может выполнять задачи как регрессии, так и классификации. Интуиция, лежащая в основе алгоритма дерева решений, проста, но при этом очень эффективна. Для каждого атрибута в наборе данных алгоритм дерева решений формирует узел, в котором наиболее важный атрибут помещается в корневой узел. Для оценки мы начинаем с корневого узла и продвигаемся вниз по дереву, следуя за соответствующим узлом, который соответствует нашему условию или «решению». [Далее]

Использование машинного обучения для прогнозирования погоды: часть 2

Эта статья является продолжением предыдущей статьи из серии из трех частей, посвященных использованию машинного обучения в Python для прогнозирования погодных температур в городе Линкольн, штат Небраска, США, на основе данных, собранных из служб API Weather Underground. В первой статье серии « Использование машинного обучения для прогнозирования погоды: часть 1» я описал, как извлечь данные из Weather Underground, проанализировать их и очистить. Краткое изложение тем для каждой из статей, представленных в этой серии, можно найти во введении к предыдущей статье. [Далее]

Наивный байесовский алгоритм в Python с помощью Scikit-Learn

При изучении теории вероятностей и статистики одной из первых и наиболее важных теорем, которые изучают студенты, является теорема Байеса . Эта теорема является основой дедуктивного мышления, которое фокусируется на определении вероятности возникновения события на основе предварительных знаний об условиях, которые могут быть связаны с этим событием. Наивный байесовский классификатор привносит силу этой теоремы в машинное обучение, создавая очень простой, но мощный классификатор. В этой статье мы увидим обзор того, как работает этот классификатор, какие у него подходящие приложения и как использовать его всего в нескольких строках Python и библиотеки Scikit-Learn. [Далее]

Реализация LDA в Python с помощью Scikit-Learn

В нашей предыдущей статье « Реализация PCA в Python с помощью Scikit-Learn» мы изучили, как можно уменьшить размерность набора функций с помощью PCA. В этой статье мы изучим еще один очень важный метод уменьшения размерности:линейный дискриминантный анализ (или LDA). Но сначала давайте кратко обсудим, чем PCA и LDA отличаются друг от друга. PCA против LDA: в чем разница? И PCA, и LDA представляют собой методы линейного преобразования. Однако PCA является неконтролируемым, а LDA - контролируемым методом уменьшения размерности. [Далее]

Реализация PCA на Python с помощью Scikit-Learn

Благодаря наличию высокопроизводительных процессоров и графических процессоров, практически возможно решить все проблемы регрессии, классификации, кластеризации и другие связанные проблемы с использованием моделей машинного обучения и глубокого обучения. Тем не менее, существуют различные факторы, которые вызывают узкие места в производительности при разработке таких моделей. Большое количество функций в наборе данных является одним из факторов, влияющих как на время обучения, так и на точность моделей машинного обучения. У вас есть разные варианты работы с огромным количеством функций в наборе данных. [Далее]

Классификация в Python с помощью Scikit-Learn и Pandas

Вступление Классификация - это обширная область статистики и машинного обучения. Как правило, классификацию можно разделить на две области: Бинарная классификация , в которой мы хотим сгруппировать результат в одну из двух групп. Классификация по нескольким классам , где мы хотим сгруппировать результат в одну из нескольких (более двух) групп. В этом посте основное внимание будет уделено использованию различных алгоритмов классификации в обеих этих областях, меньше внимания будет уделяться теории, лежащей в основе них. [Далее]

Классификация текста с помощью Python и Scikit-Learn

Вступление Классификация текстов - одна из важнейших задач обработки естественного языка . Это процесс классификации текстовых строк или документов по различным категориям в зависимости от содержимого строк. Классификация текста имеет множество приложений, таких как определение настроения пользователей из твита, классификация электронной почты как спама или ветчины, классификация сообщений в блогах по различным категориям, автоматическая пометка запросов клиентов и т. Д. В этой статье мы увидим реальный пример классификации текста. Мы обучим модель машинного обучения, способную предсказывать положительный или отрицательный отзыв о фильме. [Далее]

Алгоритм K-ближайших соседей в Python и Scikit-Learn

Алгоритм K-ближайших соседей (KNN) - это тип контролируемых алгоритмов машинного обучения. KNN чрезвычайно легко реализовать в его самой простой форме, но при этом выполняет довольно сложные задачи классификации. Это алгоритм ленивого обучения, поскольку он не имеет специальной фазы обучения. Скорее, он использует все данные для обучения при классификации новой точки данных или экземпляра. KNN - это непараметрический алгоритм обучения, что означает, что он ничего не предполагает о базовых данных. Это чрезвычайно полезная функция, поскольку большая часть реальных данных на самом деле не соответствует никаким теоретическим предположениям, например, линейной разделимости, равномерному распределению и т. [Далее]

Алгоритм оптимизации поиска по сетке на Python

Вступление В этом руководстве мы поговорим об очень мощном алгоритме оптимизации (или автоматизации), то есть об алгоритме поиска по сетке. Чаще всего он используется для настройки гиперпараметров в моделях машинного обучения. Мы узнаем, как реализовать его с помощью Python, а также применить его в реальном приложении, чтобы увидеть, как он может помочь нам выбрать лучшие параметры для нашей модели и повысить ее точность. Итак, начнем. Предпосылки Чтобы следовать этому руководству, вы должны иметь базовое понимание Python или другого языка программирования. [Далее]