В чем разница между линейной и логистической регрессиями?

Линейная и логистическая регрессии – это методы машинного обучения, которые делают прогнозы на основе анализа исторических данных. Например, изучая тенденции покупок клиентов в прошлом, регрессионный анализ позволяет оценить будущие продажи, что дает возможность более обоснованно осуществлять закупки товаров. Методы линейной регрессии математически моделируют неизвестный фактор по нескольким известным для точной оценки неизвестного значения. Аналогичным образом логистическая регрессия использует математические методы для нахождения взаимосвязи между двумя факторами данных. Затем эта взаимосвязь используется для прогнозирования значения одного из этих факторов на основе другого. Предсказание обычно имеет конечное количество результатов, например «да» или «нет».

Подробнее о линейной регрессии »

Подробнее о логистической регрессии »

Прогнозирование: линейная и логистическая регрессии

Линейная и логистическая регрессии используют математическое моделирование для прогнозирования значения выходной переменной на основе одной или нескольких входных переменных. Выходные переменные являются зависимыми переменными, а входные – независимыми.

Линейная регрессия

Каждая независимая переменная напрямую связана с зависимой и не связана с другими независимыми переменными. Эта взаимосвязь известна как линейная зависимость. Зависимая переменная обычно представляет собой значение из диапазона непрерывных значений.

Это формула или линейная функция для создания модели линейной регрессии:

y = β0 + β1X1 + β2X2 +… βnXn + ε

Значение переменных:

  • y – прогнозируемая зависимая переменная
  • β0 – пересечение по оси y, когда все независимые входные переменные равны нулю (0)
  • β1X1 – коэффициент регрессии (B1) первой независимой переменной (X1), значение влияния первой независимой переменной на зависимую
  • βnXn – коэффициент регрессии (BN) последней независимой переменной (XN) при наличии нескольких входных значений
  • ε – ошибка модели

Примером линейной регрессии является прогнозирование цены на жилье (зависимая переменная) на основе количества комнат, района и возраста дома (независимые переменные).

Логистическая регрессия

Значение зависимой переменной является одним из списка конечных категорий, которые называются категориальными переменными и используют бинарную классификацию. В качестве примера можно привести результат броска шестигранного кубика. Эта связь называется логистической.

Формула логистической регрессии применяет логитное преобразование или натуральный логарифм отношения шансов к вероятности успеха или неудачи конкретной категориальной переменной.

y = e^(β0 + β1X1 + β2X2+… βnXn+ ε) / (1 + e^(β0 + β1 x 1 + β2 x 2 +… βn x n + ε))

Значение переменных:

  • y дает вероятность успеха категориальной переменной y
  • e (x) – число Эйлера, обратное функции натурального логарифма или сигмоидальной функции ln (x)
  • Β0, β1X1…βnXn – имеют то же значение, что и линейная регрессия в предыдущем разделе

Примером логистической регрессии является прогнозирование вероятности того, что цена дома превысит 500 000 USD (зависимая переменная) на основе количества комнат, района и возраста жилья (независимые переменные).

В чем сходство линейной и логистической регрессий?

Линейная и логистическая регрессии имеют некоторые общие черты и схожие области применения.

Статистический анализ

Логистическая и линейная регрессии являются формами статистического анализа или анализа данных и предметом изучения науки о данных. Они используют математическое моделирование для связи набора независимых или известных переменных с зависимыми. Логистическую и линейную регрессии можно представить в виде математических уравнений или модели на графике.

Методы машинного обучения

Модели линейной и логистической регрессий применяют в контролируемом машинном обучении.

Машинное обучение под наблюдением включает в себя обучение модели путем ввода маркированных наборов данных. Известные зависимые и независимые переменные собираются исследователями. Путем ввода известных исторических данных происходит обратная инженерия математического уравнения. В конечном итоге прогнозы могут стать точными для вычисления неизвестных зависимых переменных на основе известных.

Отличие обучения под наблюдением от обучения без наблюдения заключается в том, что во втором случае маркировка данных не проводится.

Подробнее о машинном обучении »

Сложность обучения

Логистическая и линейная регрессии требуют значительного количества маркированных данных, чтобы модели в прогнозах стали точными. Для людей это может оказаться трудной задачей. Например, если вы хотите указать, содержит ли изображение автомобиль, все изображения должны иметь теги таких переменных, как размеры автомобиля, углы съемки, а также препятствия на дороге. 

Ограниченная точность прогноза

Статистическая модель, которая сопоставляет входные данные с выходными, не обязательно подразумевает причинно-следственную связь между зависимой и независимой переменными. Как для логистической, так и для линейной регрессии корреляция не является причинно-следственной.

Чтобы использовать пример ценообразования на жилье из предыдущего раздела, предположим, что имя домовладельца входит в список независимых переменных. В таком случае имя Джона Доу связано со снижением цен на продажу жилья. В то время как линейная и логистическая регрессии всегда предсказывают снижение цен на жилье, если владельца зовут Джон Доу, логики это не так.

Основные отличия линейной и логистической регрессий

Логистическая и линейная регрессии больше всего отличаются по своим математическим подходам.

Выходное значение

Выходные данные линейной регрессии представляют собой непрерывную шкалу значений. К примеру, сюда относятся номера, километры, цена и вес.

В отличие от этого, выходным значением модели логистической регрессии является вероятность наступления фиксированного категориального события. Например, 0,76 может означать 76 % вероятности, что человек наденет синюю рубашку, а 0,22 – 22 %.

Переменная зависимость

В регрессионном анализе линия регрессии имеет форму линии графика и показывает взаимосвязь между каждой независимой и зависимой переменной.

В линейной регрессии эта линия прямая. Любые изменения независимой переменной оказывают прямое влияние на зависимую переменную.

В логистической регрессии линия регрессии представляет собой S-образную кривую, также известную как сигмовидная.

Математический тип распределения

Линейная регрессия следует нормальному или гауссовскому распределению зависимой переменной. На графике нормальное распределение изображается непрерывной линией.

Логистическая регрессия следует биномиальному распределению. Его обычно изображают в виде гистограммы.

Когда использовать линейную регрессию, а когда – логистическую

Линейную регрессию можно использовать для прогнозирования непрерывной зависимой переменной по шкале значений. Логистическая регрессия используется, когда ожидается результат бинарной операции (например, «да» или «нет»).

Примеры линейной регрессии: 

  • Прогнозирование роста взрослого человека на основе роста матери и отца.
  • Прогнозирование объема продаж тыквы на основе цены, времени года и местоположения магазина.
  • Прогнозирование цены авиабилета на основе пункта отправления, пункта назначения, времени года и авиакомпании.
  • Прогнозирование количества отметок «нравится» в социальных сетях на основе постера, количества естественных подписчиков, содержания поста, времени и даты публикации.

Примеры логистической регрессии:

  • Прогнозирование сердечного заболевания у человека на основе ИМТ, статуса курения и генетической предрасположенности.
  • Прогнозирование наиболее популярных в розничной торговле предметов одежды по цвету, размеру, типу и цене.
  • Прогнозирование возможности увольнения сотрудника в текущем году на основе данных о размере заработной платы, количестве дней, проведенных в офисе, количестве встреч, количестве отправленных электронных писем, коллективе и стаже работы.
  • Прогнозирование команды отдела продаж, которая заключит контрактов на сумму более 1 млн долларов в течение года, на основе данных о продажах за предыдущий год, стаже работы и размере вознаграждения.

Краткое описание различий линейной и логистической регрессий

 

Линейная регрессия

Логистическая регрессия

Что это

Статистический метод прогнозирования выходного значения по набору входных значений.

Статистический метод прогнозирования вероятности принадлежности выходного значения к определенной категории по набору категориальных переменных.

Зависимость

Линейная зависимость, представленная прямой линией.

Логистическая или сигмоидальная зависимость, представленная S-образной кривой.

Уравнение

Линейное.

Логарифмическое.

Тип обучения под наблюдением

Регрессия.

Классификация.

Тип распределения

Нормальное/гауссовское.

Биномиальное.

Лучше всего подходит для

Задач, требующих прогнозирования непрерывной зависимой переменной по шкале.

Задач, требующих прогнозирования вероятности появления категориальной зависимой переменной из фиксированного набора категорий.

Как провести линейный и логистический регрессионный анализ на AWS?

С помощью Amazon SageMaker можно выполнять линейный и логистический регрессионные анализы в Amazon Web Services (AWS).

SageMaker – это полностью управляемый сервис машинного обучения со встроенными алгоритмами линейной и логистической регрессии, а также несколькими другими пакетами статистического программного обеспечения. Благодаря ему можно создать линейную регрессию с любым количеством входных значений или решать задачи регрессии с помощью логистических моделей вероятности.

Какие преимущества от использования SageMaker?

  • Быстрая подготовка, создание, обучение и развертывание регрессионных моделей.
  • Избавление от лишних усилий на каждом этапе процесса линейной и логистической регрессии и разработка высококачественных регрессионных моделей.
  • Доступ ко всем компонентам, необходимым для регрессионного анализа, в одном сервисе, чтобы ускорить, упростить и сделать производство моделей более доступным.

Создайте аккаунт прямо сейчас и начните работу с регрессионным анализом на AWS.