09. Analizar el tiempo hasta que se produce la quiebra con análisis de supervivencia


1) ¿Para qué sirve?

Seis pacientes han contraído el virus del ébola el 1 de enero y han recibido tratamientos distintos. A tres de ellos se les ha suministrado una aspirina y a los otros tres una medicina experimental a base de zumo de limón (y otros ingredientes). Al revisar el historial el 30 de junio, se aprecia que todos ellos han muerto por lo que se concluye que ninguno de los dos tratamientos es útil. Si aplicamos un test de medias no encontraremos diferencias significativas. Con el análisis discriminante o la regresión logística la variable dependiente toma siempre el valor 0. ¿Algún comentario...?

f

El análisis de supervivencia es un conjunto de técnicas estadísticas que modelizan el tiempo que se tarda en que ocurra un determinado suceso. Tiene su origen en los estudios médicos, en los que se analizan los efectos de un tratamiento hasta que sucede un evento, que en este caso es la muerte del paciente. Pueden estudiar las características del enfermo y obtener las llamadas tablas de mortalidad y supervivencia. Distinguiremos entre:

Pero esta técnica tiene muchos usos más allá de la medicina. Por ejemplo, en marketing el evento puede ser que un cliente responda o no a una publicidad enviada por email. Y lógicamente el tiempo serán los días transcurridos hasta que contestó al email, si es que lo hizo. También se puede estudiar el abandono de la clientela o churn rate. Los ingenieros pueden estudiar el tiempo en que se producen fallos en una pieza y los sociólogos el tiempo hasta que una persona se casa, se divorcia, o encuentra trabajo tras estudiar un master.

Nosotros hasta ahora hemos utilizado una muestra de datos de empresas que quebraron y otras que no lo hicieron. Pero podemos hilar más fino utilizando la fecha de quiebra de la empresa. Esto puede ser muy útil para estudios en los que analizas la superivencia de una start up. Otro ejemplo de uso de análisis de supervivencia es el caso de los préstamos. Dos clientes pueden haber dejado de devolver el préstamo, pero no es lo mismo dejar de devolver la primera cuota que pagar todas menos una. En ocasiones será la técnica más adecuada: si los préstamos se conceden el 1 de enero y tienen 12 meses de duración hasta el 30 de diciembre no tienes datos completos, pero a mitad de año puedes realizar un análisis de supervivencia con la información disponible.

En Serrano-Cinca et al. (2015) utilizamos esta capacidad del análisis de supervivencia para estudiar los factores que explican la morosidad en los préstamos P2P.

Serrano-Cinca, C., Gutiérrez-Nieto, B., & López-Palacios, L. (2015). Determinants of default in P2P lending. PloS one, 10(10), e0139427.


2) Aplicación al estudio de los préstamos P2P

Aplicaremos análisis de supervivencia para estudiar los factores que explican que los clientes devuelvan los préstamos. Utilizaremos la base de datos de préstamos personales P2P de Lending Club: DatosP2P.sav que contiene clientes que van devolviendo regularmente el préstamo solicitado y otros que han dejado de pagar (como si hubieran "muerto", por tanto). Son préstamos de 36 meses de duración. Como técnica utilizaremos la Regresión de Cox. Tenemos una nueva variable que mide el tiempo llamada MESES, que son los meses que lleva devolviendo el préstamo. La variable dependiente, es decir, el evento es LOAN_STATUS_FULLY_PAID (0 fracaso - 1 pagando). Podemos introducir las covariables, que son las variables independientes que ya conocemos. Elegiremos el motivo del préstamo, que es purposecorto. Y vamos a obtener un gráfico que visualiza la tabla de supervivencia.

 

d

Es decir, la sintaxis en SPSS es:

COXREG MESES
/STATUS=LOAN_STATUS_FULLY_PAID(0)
/PATTERN BY purposecorto
/CONTRAST (purposecorto)=Indicator
/METHOD=ENTER purposecorto
/PLOT SURVIVAL
/CRITERIA=PIN(.05) POUT(.10) ITERATE(20).

Obtenemos como resultado el siguiente gráfico que representa la tabla de supervivencia. ¡¡Problema con los préstamos estudiantiles en EEUU!!

Hay que tener en cuenta que en la base de datos solo había 7 prestamos a estudiantes y 14 a energías renovables. Vamos ahora a analizar exclusivamente una de las categorías, la de aquellos que emprenden un pequeño negocio PURPOSE_SMALL_BUSINESS, que contiene 162 préstamos. Hay que hacer algún pequeño cambio porque es una variable binaria.

Se obtienen los resultados. El gráfico asociado a la tabla de supervivencia permite comprobar que los préstamos a pequeños negocios son más arriesgados ya que su probabilidad de supervivencia acumuada es claramente menor. Las diferencias son estadísticamente significativas. Es interesante analizar la columna Exp(B) también llamada hazard ratio (HR), que nos informa de que, concretamente, el riesgo de prestar a un pequeño negocio es 2,257 veces mayor que a otros préstamos.

Podemos obtener un modelo completo, analizando ésta vez todas las variables. Recordemos que las variables independientes continuas son:

Y el resto de variables independientes binarias, como el destino del préstamo y la vivienda.

¿Eres negacionista cara? Puedes comprobar la tabla de supervivencia de las vacunas de Covid vs placebo.

a¿Qué régimen de tenencia de vivienda es más arriesgado en los préstamos P2P?


La base de datos de préstamos personales P2P de Lending Club contiene datos de clientes que van devolviendo el préstamo solictado y otros que no.


EJERCICIO: Realiza un análisis de supervivencia ¿Cuál es el régimen de tenencia de vivienda más arriesgado? Utiliza la variable home_ownership ¿Es más arriesgado un cliente que tiene una hipoteca? Utiliza la variable HOME_OWNERSHIP_MORTGAGE ¿Qué variable es la más importante para determinar el riesgo de un préstamo? Identifícala, quítala del modelo y vuelve a proponer un modelo sin ella.

DatosP2P.sav h

 

 

© Citar como: Serrano Cinca C. (