Qual é a diferença entre regressão linear e regressão logística?
A regressão linear e a regressão logística são técnicas de machine learning que fazem previsões por meio da análise de dados históricos. Por exemplo, ao analisar as tendências anteriores das compras de clientes, a análise de regressão estima as vendas futuras, para que você possa fazer compras de estoque mais informadas. As técnicas de regressão linear modelam matematicamente o fator desconhecido em vários fatores conhecidos para estimar o valor exato desconhecido. Da mesma forma, a regressão logística usa a matemática para encontrar as relações entre dois fatores de dados. Em seguida, essa relação é usada para prever o valor de um desses fatores com base no outro. A previsão geralmente tem um número finito de resultados, como sim ou não.
Fazer previsões: regressão linear versus regressão logística
Tanto a regressão linear quanto a regressão logística usam modelagem matemática para prever o valor de uma variável de saída com base em uma ou mais variáveis de entrada. As variáveis de saída são variáveis dependentes e as variáveis de entrada são variáveis independentes.
Regressão linear
Cada variável independente tem uma relação direta com a variável dependente e não tem relação com as outras variáveis independentes. Essa relação é conhecida como relação linear. A variável dependente geralmente é um valor de uma faixa de valores contínuos.
Esta é a fórmula, ou função linear, para criar um modelo de regressão linear:
y= β0 + β1X1 + β2X2+… βnXn+ ε
Veja o que cada variável significa:
- y é a variável dependente prevista
- β0 é a interceptação y quando todas as variáveis de entrada independentes forem iguais a 0
- β1X1 é o coeficiente de regressão (B1) da primeira variável independente (X1), o valor do impacto da primeira variável independente na variável dependente
- βnXn é o coeficiente de regressão (BN) da última variável independente (XN), quando houver vários valores de entrada
- ε é o erro do modelo
Um exemplo de regressão linear é prever o preço de uma casa (variável dependente) com base no número de quartos, bairro e idade (variáveis independentes).
Regressão logística
O valor da variável dependente vem de uma lista de categorias finitas que usam a classificação binária. Essas são chamadas de variáveis categóricas. Um exemplo é o número obtido após jogar um dado de seis lados. Essa relação é conhecida como relação logística.
A fórmula para a regressão logística aplica uma transformação logit, ou o logaritmo natural das probabilidades, a probabilidade de sucesso ou falha de uma variável categórica específica.
y = e^(β0 + β1X1 + β2X2+… βnXn+ ε) / (1 + e^(β0 + β1 x 1 + β2 x 2 +… βn x n + ε))
Veja o que cada variável significa:
- y fornece a probabilidade de sucesso da variável categórica y
- e (x) é o número de Euler, o inverso da função logarítmica natural ou função sigmoide, ln (x)
- β0, β1X1...βnXn têm o mesmo significado da regressão linear na seção anterior
Um exemplo de regressão logística é prever a chance de o preço de uma casa ser superior a USD 500 mil (variável dependente) com base no número de quartos, bairro e idade (variáveis independentes).
Quais são as semelhanças entre regressão linear e regressão logística?
A regressão linear e a regressão logística compartilham algumas semelhanças e têm espaços de aplicações semelhantes e abrangentes.
Análise estatística
A regressão logística e linear são formas de análise estatística ou de dados e se enquadram no campo da ciência de dados. Ambos usam modelagem matemática para relacionar um conjunto de variáveis independentes ou conhecidas com variáveis dependentes. Você pode representar tanto a regressão logística quanto a regressão linear como equações matemáticas. Você também pode representar o modelo em um gráfico.
Técnicas de machine learning
Tanto a regressão linear quanto os modelos de regressão logística são usados na machine learning supervisionada.
A machine learning supervisionada envolve o treinamento de um modelo inserindo conjuntos de dados rotulados. As variáveis dependentes e independentes são conhecidas e coletadas por pesquisadores humanos. Ao inserir dados históricos conhecidos, a equação matemática é submetida à engenharia reversa. Em algum momento, as previsões poderão se tornar precisas para o cálculo de variáveis dependentes desconhecidas por meio das variáveis independentes conhecidas.
O aprendizado supervisionado difere do aprendizado não supervisionado, no qual os dados não são rotulados.
Dificuldade de treinamento
Tanto a regressão logística quanto a regressão linear exigem uma quantidade significativa de dados rotulados para que os modelos se tornem precisos nas previsões. Isso pode ser uma tarefa árdua para humanos. Por exemplo, se você quiser rotular se uma imagem contém um carro, todas as imagens deverão ter etiquetas de variáveis como tamanhos de carros, ângulos fotográficos e obstruções.
Precisão da previsão limitada
Um modelo estatístico que coloca os dados de entrada nos dados de saída não sugere necessariamente uma relação causal entre a variável dependente e a independente. Tanto para a regressão logística quanto para a regressão linear, a correlação não é causalidade.
Para usar o exemplo de preços de imóveis da seção anterior, suponhamos que o nome do proprietário faça parte da lista de variáveis independentes. Por exemplo, o nome John Doe está correlacionado aos preços mais baixos de casas. Embora a regressão linear e a regressão logística sempre preverão preços mais baixos de casas cujo o nome do proprietário é John Doe, a lógica diz que essa relação com os dados de entrada está incorreta.
Principais diferenças: regressão linear versus regressão logística
A regressão logística e a regressão linear são muito diferentes em suas abordagens matemáticas.
Valor da saída
A saída da regressão linear é uma escala de valores contínua. Por exemplo, isso inclui números, quilômetros, preço e peso.
Por outro lado, o valor da saída do modelo de regressão logística é a probabilidade de ocorrência de um evento categórico fixo. Por exemplo, 0,76 pode significar uma chance de 76% do uso de uma camisa azul e 0,22 pode significar 22% de chance de um voto “sim”.
Relação variável
Na análise de regressão, uma linha de regressão é a forma da linha gráfica que representa a relação entre cada variável independente e a variável dependente.
Na regressão linear, a linha de regressão é reta. Qualquer alteração em uma variável independente afeta diretamente a variável dependente.
Na regressão logística, a linha de regressão é uma curva em forma de S, também conhecida como curva sigmoide.
Tipo de distribuição matemática
A regressão linear segue uma distribuição normal ou gaussiana da variável dependente. Uma distribuição normal é representada por uma linha contínua em um gráfico.
Uma regressão logística segue uma distribuição binomial. A distribuição binomial geralmente é descrita como um gráfico de barras.
Quando usar regressão logística versus regressão linear
Você pode usar a regressão linear quando quiser prever uma variável dependente contínua em uma escala de valores. Use a regressão logística quando você espera um resultado binário (por exemplo, sim ou não).
Estes são alguns exemplos de regressão linear:
- Prever a altura de um adulto com base na altura da mãe e do pai
- Prever o volume de vendas de abóboras com base no preço, época do ano e localização da loja
- Prever o preço de uma passagem aérea com base na origem, destino, época do ano e companhia aérea
- Prever o número de curtidas nas redes sociais com base na pessoa que fez o post, no número de seguidores orgânicos, no conteúdo do post e na hora do dia em que foi publicado
Estes são alguns exemplos de regressão logística:
- Prever se uma pessoa terá doenças cardíacas com base no IMC, tabagismo e predisposição genética
- Prever quais itens de vestuário serão mais populares com base na cor, tamanho, tipo e preço
- Prever se um funcionário se demitirá naquele ano com base no salário, dias no escritório, número de reuniões, número de e-mails enviados, equipe e estabilidade
- Prever quais membros da equipe de vendas farão mais de USD 1 milhão em contratos em um ano com base nas vendas, estabilidade e taxa de comissão do ano anterior
Resumo das diferenças: regressão linear versus regressão logística
Regressão linear |
Regressão logística |
|
O que é isso? |
Um método estatístico para prever um valor de saída com base em um conjunto de valores de entrada. |
Um método estatístico para prever a probabilidade de um valor de saída em uma determinada categoria de um conjunto de variáveis categóricas. |
Relacionamento |
Relação linear, representada por uma linha reta. |
Relação logística ou relação sigmoidal, representada por uma curva em forma de S. |
Equação |
Linear. |
Logarítmico. |
Tipo de aprendizado supervisionado |
Regressão. |
Classificação. |
Tipo de distribuição |
Normal/gaussiana. |
Binomial. |
Mais adequada para |
Tarefas que exigem uma variável dependente contínua prevista em uma escala. |
Tarefas que exigem uma probabilidade prevista de uma variável dependente categórica ocorrer em um conjunto fixo de categorias. |
Como você pode executar análises de regressão linear e de regressão logística na AWS?
Você pode executar análises de regressão linear e logística na Amazon Web Services (AWS) usando o Amazon SageMaker.
O SageMaker é um serviço de machine learning totalmente gerenciado com algoritmos de regressão integrados tanto para regressão linear como para regressão logística, entre vários outros pacotes de software estatístico. Você pode implementar a regressão linear com quantos valores de entrada precisar ou resolver problemas de regressão com modelos de probabilidade logística.
Por exemplo, veja como você pode se beneficiar ao usar o SageMaker:
- Prepare, desenvolva, treine e implemente modelos de regressão rapidamente
- Elimine o trabalho pesado de cada etapa do processo de regressão linear e logística e desenvolva modelos de regressão de alta qualidade
- Acesse todos os componentes necessários para a análise de regressão em um único conjunto de ferramentas para colocar os modelos em produção de forma mais rápida, fácil e econômica
Comece com a análise de regressão na AWS criando uma conta hoje mesmo.