Una regresión lineal es muy adecuada para expresar la relación entre dos variables continuas como son la rentabilidad y la liquidez. En el siguiente gráfico tenemos seis empresas y, en ellas, cuanto mayor es la rentabilidad mayor es la liquidez. Obtenemos sin problema la recta que mejor ajusta esos puntos por el método de mínimos cuadrados ordinarios. Pero en nuestro caso queremos determinar la relación entre la rentabilidad y una variable binaria, como es la quiebra o no de una empresa (que toma valores 0 o 1). Ahí es más adecuado usar una regresión logística, técnica similar al análisis discriminante, que estima los parámetros de la función por el método de máxima verosimilitud. Comparando con el análisis discriminante, tiene la ventaja de que se interpreta de forma similar a la regresión lineal y es menos exigente en cuanto a la calidad de la información.
Ohlson (1980) fue pionero en utilizar esta capacidad de la regresión logística para modelizar la quiebra de las empresas a partir de un conjunto de ratios financieros.
Ohlson, J. A. (1980). Financial ratios and the probabilistic prediction of bankruptcy. Journal of Accounting Research (18), 1, pp 109-131.
La regresión logística es la técnica estadística multivariante más utilizada a la hora de diseñar modelos matemáticos para la predicción de la quiebra. Cuando alguien utiliza una nueva técnica suele comparar los resultados con los que proporciona la regresión logística, es decir, se utiliza como benchmark o punto de referencia.En el SPSS -> [ANALIZAR]-> [REGRESION] -> [LOGISTICA BINARIA]
![]()
Obtenemos los siguientes resultados:
Cuando se desarrolla un modelo predictivo es necesario validarlo, es decir, evaluar su rendimiento comprobando si el modelo predice bien la variable dependiente ante nuevos casos.
Existen varias formas de realizar una validación del modelo desarrollado.
Validación interna. No siempre tenemos datos de otras empresas, otros países u otros años. Entonces tendremos una única muestra de datos de empresas y a partir de ellos tendremos que desarrollar el modelo predictivo y realizar la validación. Como es "gratis" (porque no tenemos que buscar nuevos datos y solo debemos hacer click en algún opción del software elegido) al menos vamos a aplicar algunas técnicas de validación interna que sean rigurosas.
Vamos a probar la metodología del bootstrap para validar los resultados.
- En el SPSS -> [ANALIZAR]-> [REGRESION] -> [LOGISTICA BINARIA] como [DEPENDIENTES] seleccionamos Output como [COVARIABLES] seleccionamos los ratios como [METODO] dejamos por defecto Introducir
- como [BOOTSTRAP], realizar muestreo bootstrap, número de muestras 100.
Comprueba el porcentaje de acierto.
Probemos ahora la metodología del validación simple. Hemos de crear una variable nueva, que le llamaremos Train y le ponemos unos y ceros alternativamente. Algo como la figura siguiente.
Comprueba el porcentaje de acierto en la Tabla de Clasificación. Ha acertado el 100% de la submuestra de entrenamiento o aprendizaje. Pero el porcentaje baja al 69.7% en la muestra de test.
- En el SPSS -> [ANALIZAR]-> [REGRESION] -> [LOGISTICA BINARIA] como [DEPENDIENTES] seleccionamos Output como [COVARIABLES] seleccionamos los ratios como [METODO] dejamos por defecto Introducir
- como [VARIABLE DE SELECCION], seleccionamos Train, y se elige como regla = 1.
La base de datos de préstamos personales P2P de Lending Club contiene datos de clientes que van devolviendo el préstamo solictado y otros que no. La variable dependiente es LOAN_STATUS_FULLY_PAID (0 fracaso - 1 pagando). Las variables independientes continuas son:
No hay problema en utilizar variables independientes binarias, como el destino del préstamo y la vivienda.
EJERCICIO: Realiza una regresión logística. Puedes utilizar la validación simple porque la ultima de las variables es precisamente la variable Train. ¿Qué porcentaje de aciertos has obtenido en la muestra de entrenemianto y en el test?
En la regresión logística también es deseable tratar de seleccionar un modelo sencillo, parsimonioso, en vez de incluir todas las variables independientes. Con ello mejora la capacidad de explicación, aunque podemos perder algo de capacidad predictiva.
En SPSS hay varios métodos disponibles. El más común es el fordward stepwise regression (adelante-condicional). La primera variable que se introduce en el modelo es la de mayor correlación con la variable dependiente. A continuación se considera la variable independiente cuya correlación parcial sea la mayor y que no esté en la ecuación. El procedimiento se detiene cuando el incremento en el grado de ajuste del modelo debido a incluir una nueva variable explicativa ya es muy pequeño. También se puede hacer al revés, es decir, empezar con un modelo que tenga todas las variables e ir quitando una a una, las menos importantes.
- En SPSS está en: [METODO] -[ADELANTE CONDICIONAL].
Aunque son métodos sencillos de utilizar presentan muchos inconvenientes, porque a veces ignoran variables importantes. Existen métodos de selección de modelos más adecuados como el Método LASSO (Least Absolute Shrinkage and Selection Operator) de Robert Tibshirani que aproxima a cero los coeficientes de las variables independientes, llegando a excluir algunos de ellos. Así se consiguen modelos con menos variables.
En la regresión logística podemos obtener la probabilidad de quiebra de cada empresa. Utilizaremos la opción [GUARDAR] -> Probabilidades y Grupo de Pertenencia.
EJERCICIO: ¿Qué variables son importantes? ¿Cuál es el porcentaje de acierto con la regresión logística? ¿Se te ocurre alguna variable más?.