Resumen

 

Una de las herramientas más útiles en el análisis de regresión son las variables discretas o ficticias (dummies). Estas variables aparecen en los modelos de regresión de dos maneras diferentes cuando hay factores que se quieren controlar y no se pueden cuantificar.

 

En primer lugar, pueden aparecer como variables explicativas independientes que influyen sobre la variable dependiente que se pretende modelizar. Por ejemplo, cuando se quiere conocer si el tipo de cualificación de los individuos afecta a los salarios en la ocupación, se puede construir una variable que tome el valor 1 cuando el individuo está cualificado y 0 en caso contrario.

 

En segundo lugar, en muchos contextos el fenómeno que se quiere modelizar no es continuo, sino discreto. Por ejemplo, si se desea modelizar la participación en el mercado de trabajo de los individuos, la decisión sobre si se hace o no una compra, o la decisión de a qué candidato a Rector se vota en las elecciones a la Universidad de Alcalá. En estos ejemplos, la variable de interés toma valores discretos, y el modelo planteado requiere un tratamiento específico.

 

El objetivo de este tema es presentar la utilidad de las variables ficticias o cualitativas y los tipos de variables ficticias que se pueden construir para tener en cuenta factores explicativos cualitativos. También, se analizan los modelos que contienen variables ficticias endógenas, conocidos como modelos de elección discreta o de respuesta cualitativa. En particular, en estos modelos se discute la estimación y las propiedades de los estimadores de un modelo de probabilidad lineal. Como no hay garantías de que las predicciones de este modelo parezcan verdaderas probabilidades. Se plantean diferentes modelos que solucionan los problemas de los estimadores aplicados al modelo de probabilidad lineal. Estos son los modelos logit y probit. Finalmente, se describe de manera sencilla generalizaciones de los modelos anteriores como el caso que exista variables alternativas de elección, y el supuesto que la variable endógena sea una combinación de variables cualitativas y continuas, los denominados modelos truncados y censurados.