domingo, 14 de junio de 2015

Conceptos en Regresiones


R Cuadrado
(tambien llamado coeficiente de determinación)
Mide la proporción de la variabilidad que puede describir el modelo (bondad de ajuste). Puede tener un valor entre 0 y 1. En una regresión múltiple, al agregar mas variables aumenta el R cuadrado de la regresión, independientemente si las variables nuevas aportan información comprobable. Por esta imprecisión del R cuadrado, se crea el R Cuadrado Ajustado como mejor indicador de la calidad del modelo de regresión multiple.

R Cuadrado Ajustado
(tambien llamado coeficiente de determinación corregido)
Mide la proporción de la variabilidad de pude describir un modelo, considerando la cantidad de variables incluidas en el modelo. A diferencia del R cuadrado, este indicador no aumenta su valor al agregar más variables, si estas no aportan información al modelo. Por esto el R cuadrado ajustado es mejor indicador que el R cuadrado. El R Cuadrado Ajustado puede tener valores entre 0 y 1. La ecuacion seria esta, donde k=cantidad variables, N=total de registros y R2 es igual al R_Cuadrado o coeficiente de determinación.









Error Residual Estándar
Es el promedio de las diferencia entre el valor real y la predicción en cada observación

T Value
Es el resultado de dividir (error estardar) / (coeficiente). Es una medida para aproximar la hipotesis de que el coeficiente (parametros, betas... etc.) no sea cero.  A mayor valor t, menor es la probabilidad de que el coeficiente sea cero. Si el coeficiente de una variable es muy cerca de cero, entonces esa variable no aporta información al modelo y debe eliminarse.


Residuos Estandarizados
Indicador utilizado para comparar los residuos y detectar outlier. Se calcula como:
(Residuo) / (Desviacion estándar de Residuos). Da un valor de media cero y desviación típica de 1. Los residuos mayores a 2 suelen considerarse outlier.


Efecto Palanca 
En el método de "mínimos cuadrados" los valores de la variable explicativa alejados de su media tienden a acercar la recta hacia ellos, esto es llamado “efecto palanca”. Como consecuencia, los residuos tienen una tendencia a ser menores para valores de x extremos. La varianza de los residuos será más chica si x  está lejos de su promedio, y el valor ajustado ( yˆ ) estará cerca del valor observado por efecto palanca. 


Heterocedasticidad en Regresión
Situación que indica que un modelo de regresión lineal no es muy bueno. Sucede cuando los residuos de la predicción aumentan o disminuyen cuando se predicen valores cada vez mas altos o mas bajos. Para solucionar esta situación, se puede exponenciar la variable que causa la heterocedasticidad hasta que esta desaparezca. Ejemplo: 
En ecuación de regresión   Sueldo = 0.5 + 0.2(Antiguedad)  si el modelo presenta heterocedastidad, puede elevarse al cuadraro la variable Antiguedad, e ir aumentando hasta que el R Ajustado siga mejorando con cada cambio.


Residuos Predictivos
Estos residuos son el error de predicción de una observación no incluida en la muestra. Para calcularlos se elimina la observación i de la muestra y luego se estiman los parámetros con los datos restantes (es decir: se hace regresion con los datos restantes). Despues de tener la regreison, se predice la observación que no se usó para crear la regresión y luego se calcula el error de predicción en el punto eliminado. 


Residuos estudentizado
Es la division entre el residuo de una observacion (Xi) y la desviacion estándar del resto de los residuos (sin incluir la observacion Xi). Es decir, se divide cada  residuo por su desviacion estándar, eliminada la observacion.


Coeficiente de Correlación parcial
Ejemplo: Si se tiene una regresión así: Sueldo = 0.5 + 0.2(edad)+0.3(experiencia)
y se quiere saber la relación entre sueldo y edad, eliminando el efecto de la variable experiencia, se calcula el coeficiente de correlación parcial de esta forma:
Paso 1. Se hacer regresión entre la variable Sueldo Experiencia para obtener los residuos
Paso 2. se hace regresión entre Edad y Experiencia para obtener los residuos
Paso 3. se calcula el coeficiente de correlación (R) entre los residuo obtenido en la regresión del paso 1 y el residuo de la regresión del paso 2. Este coeficiente obtenido es llamado coeficiente de correlación parcial.


Multicolinealidad
Causa: Sucede cuando una o mas variables explicativas están relacionadas entre sí de forma lineal en un modelo de regresión lineal con mas de una variable explicativa.
Detección: Para identificar la colinelidad de una variable, pude hacerce la regresión de la variable explicativa sobre el resto de las variables explicativas. Ejemplo: para validar multicolinealidad de variable X_1 en un modelo y = b0+ B1X1 + B2X2  + B3X puede hacer regresión de X1 explicada por X2 y X3.  Si el R cuadrado de esta regresión es significativo, entonces X1 presenta colinealidad en el modelo de regresión original.
EfectoLa multicolinealidad no permite identificar el valor explicativo de cada variable dentro de una regresión, ya que se solapan entre si, por lo cual no es fiable el modelo de regresión.
Solución: una solución es eliminar las  variables que presentan colinealidad


Máxima verosimilitud 
Ejemplo: si se quiere saber la probabilidad (usando el método de máxima verosimilitud) de que en un set de datos existan transacciones con fraude, se eligen diferentes muestras y en cada muestra se calculala probabilidad de fraude (casos fraude / total casos), y luego se hace gráfico de frecuencia con la probabilidad obtenida en cada muestra, entonces se determina que la probabilidad que tenga mayor frecuencia es la probabildad de la poblacion total estimada usando máxima verosimilitud. 

M-Estimadores
Esta clase de estimadores (o medidas) pueden considerarse como generalización de los de Máxima Verosímil, de ahí la denominación “estimadores- M”.  Estos estimadores Consisten en minimizar la función suma ponderada de errores absolutos. El estimador "Desviacion Minima Absoluta" es un Estimador-M.


No hay comentarios:

Publicar un comentario