¿Qué es la regresión lineal?

La regresión lineal es una técnica de análisis de datos que predice el valor de datos desconocidos mediante el uso de otro valor de datos relacionado y conocido. Modela matemáticamente la variable desconocida o dependiente y la variable conocida o independiente como una ecuación lineal. Por ejemplo, supongamos que tiene datos sobre sus gastos e ingresos del año pasado. Las técnicas de regresión lineal analizan estos datos y determinan que tus gastos son la mitad de tus ingresos. Luego calculan un gasto futuro desconocido al reducir a la mitad un ingreso conocido futuro.

¿Por qué es importante la regresión lineal?

Los modelos de regresión lineal son relativamente simples y proporcionan una fórmula matemática fácil de interpretar para generar predicciones. La regresión lineal es una técnica estadística establecida y se aplica fácilmente al software y a la computación. Las empresas lo utilizan para convertir datos sin procesar de manera confiable y predecible en inteligencia empresarial y conocimiento práctico. Los científicos de muchos campos, incluidas la biología y las ciencias del comportamiento, ambientales y sociales, utilizan la regresión lineal para realizar análisis de datos preliminares y predecir tendencias futuras. Muchos métodos de ciencia de datos, como el machine learning y la inteligencia artificial, utilizan la regresión lineal para resolver problemas complejos.

¿Cómo funciona la regresión lineal?

En esencia, una técnica de regresión lineal simple intenta trazar un gráfico lineal entre dos variables de datos, x e y. Como variable independiente, x se traza a lo largo del eje horizontal. Las variables independientes también se denominan variables explicativas o variables predictivas. La variable dependiente, y, se traza en el eje vertical. También puede hacer referencia a los valores y como variables de respuesta o variables pronosticadas.

Pasos en la regresión lineal

Para esta visión general, tenga en cuenta la forma más simple de la ecuación de gráfico de líneas entre y y x; y=c*x+m, donde c y m son constantes para todos los valores posibles de x e y. Así, por ejemplo, supongamos que los datos de entrada para (x, y) era (1,5), (2,8) y (3,11). Para identificar el método de regresión lineal, debe seguir los siguientes pasos:

  1. Trace una línea recta y mida la correlación entre 1 y 5.
  2. Siga cambiando la dirección de la línea recta para los nuevos valores (2,8) y (3,11) hasta que se ajusten todos los valores.
  3. Identifique la ecuación de regresión lineal como y = 3*x + 2.
  4. Extrapola o predice que y es 14 cuando x es

¿Qué es la regresión lineal en el machine learning?

En el machine learning, los programas de computación denominados algoritmos analizan grandes conjuntos de datos y trabajan hacia atrás a partir de esos datos para calcular la ecuación de regresión lineal. Los científicos de datos primero entrenan el algoritmo en conjuntos de datos conocidos o etiquetados y, a continuación, utilizan el algoritmo para predecir valores desconocidos. Los datos de la vida real son más complicados que el ejemplo anterior. Es por eso que el análisis de regresión lineal debe modificar o transformar matemáticamente los valores de los datos para cumplir con los siguientes cuatro supuestos.

Relación lineal

Debe existir una relación lineal entre las variables independientes y las dependientes. Para determinar esta relación, los científicos de datos crean una gráfica de dispersión (una colección aleatoria de valores x e y) para ver si caen a lo largo de una línea recta. De lo contrario, puede aplicar funciones no lineales, como la raíz cuadrada o el registro, para crear matemáticamente la relación lineal entre las dos variables.

Independencia residual

Los científicos de datos utilizan residuos para medir la precisión de la predicción. Un residuo es la diferencia entre los datos observados y el valor previsto. Los residuos no deben tener un patrón identificable entre ellos. Por ejemplo, no querrá que los residuos crezcan con el tiempo. Puede utilizar diferentes pruebas matemáticas, como la prueba de Durbin-Watson, para determinar la independencia residual. Puede usar datos ficticios para reemplazar cualquier variación de datos, como los datos estacionales.

Normalidad

Las técnicas de representación gráfica, como las gráficas Q-Q, determinan si los residuos se distribuyen normalmente. Los residuos deben caer a lo largo de una línea diagonal en el centro de la gráfica. Si los residuos no están normalizados, puede probar los datos para detectar valores atípicos aleatorios o valores que no sean típicos. Eliminar los valores atípicos o realizar transformaciones no lineales puede solucionar el problema.

Homocedasticidad

La homocedasticidad supone que los residuos tienen una variación constante o desviación estándar de la media para cada valor de x. De lo contrario, es posible que los resultados del análisis no sean precisos. Si no se cumple esta suposición, es posible que tenga que cambiar la variable dependiente. Dado que la variación se produce de forma natural en grandes conjuntos de datos, tiene sentido cambiar la escala de la variable dependiente. Por ejemplo, en lugar de usar el tamaño de la población para predecir la cantidad de estaciones de bomberos en una ciudad, podría usar el tamaño de la población para predecir la cantidad de estaciones de bomberos por persona.

¿Cuáles son los tipos de regresión lineal?

Algunos tipos de análisis de regresión son más adecuados que otros para gestionar conjuntos de datos complejos. A continuación se muestran algunos ejemplos.

Regresión lineal simple

La regresión lineal simple se define mediante la función lineal:

Y= β0*X + β1 + ε 

β0 y β1 son dos constantes desconocidas que representan la pendiente de regresión, mientras que ε (épsilon) es el término de error.

Puede utilizar la regresión lineal simple para modelar la relación entre dos variables, como las siguientes:

  • Lluvia y rendimiento de los cultivos
  • Edad y estatura en niños
  • Temperatura y expansión del mercurio metálico en un termómetro

Regresión lineal múltiple

En el análisis de regresión lineal múltiple, el conjunto de datos contiene una variable dependiente y múltiples variables independientes. La función de línea de regresión lineal cambia para incluir más factores, de la siguiente manera:

Y = β0*x0 + β1x1 + β2x2+…… βNxN+ ε 

A medida que aumenta el número de variables predictivas, las constantes β también aumentan en consecuencia.

 La regresión lineal múltiple modela múltiples variables y su impacto en un resultado:

  • Lluvia, temperatura y uso de fertilizantes en el rendimiento de los cultivos
  • Dieta y ejercicio sobre enfermedades cardíacas
  • Crecimiento salarial e inflación en las tasas de préstamos hipotecarios

Regresión logística

Los científicos de datos utilizan la regresión logística para medir la probabilidad de que se produzca un evento. La predicción es un valor entre 0 y 1, donde 0 indica un evento que es poco probable que ocurra y 1 indica una probabilidad máxima de que suceda. Las ecuaciones logísticas usan funciones logarítmicas para calcular la línea de regresión.

A continuación, se indican varios ejemplos:

  • La probabilidad de ganar o perder en un partido deportivo
  • La probabilidad de aprobar o reprobar una prueba 
  • La probabilidad de que una imagen sea una fruta o un animal

¿Cómo puede AWS ayudar a resolver los problemas de regresión lineal?

Amazon SageMaker es un servicio completamente administrado que le ayuda a preparar, crear, formar y desplegar modelos de machine learning (ML) de alta calidad. El Piloto automático de Amazon SageMaker es una solución de ML automática genérica para problemas de clasificación y regresión, como la detección de fraudes, el análisis de abandono y el marketing dirigido. 

Amazon Redshift, almacenamiento de datos en la nube rápido y ampliamente utilizado, se integra de forma nativa con Amazon SageMaker para ML. Con Amazon Redshift ML, puede usar instrucciones SQL simples para crear y entrenar modelos de ML a partir de sus datos en Amazon Redshift. Luego puede utilizar estos modelos para resolver todos los tipos de problemas de regresión lineal.

Comience a usar Amazon SageMaker JumpStart o cree una cuenta de AWS hoy mismo.

Siguientes pasos de la regresión lineal en AWS

Descubra otros recursos relacionados con el producto
Servicios gratuitos de Machine Learning: AWS 
Regístrese para obtener una cuenta gratuita

Obtenga acceso inmediato al nivel Gratuito de AWS. 

Regístrese 
Comience a crear en la consola

Comience a crear en la consola de administración de AWS.

Iniciar sesión