Resumen
Una de las herramientas más útiles en el análisis
de regresión son las variables discretas o ficticias (dummies). Estas variables
aparecen en los modelos de regresión de dos maneras diferentes cuando hay
factores que se quieren controlar y no se pueden cuantificar.
En primer lugar, pueden aparecer como variables explicativas
independientes que influyen sobre la variable dependiente que se pretende
modelizar. Por ejemplo, cuando se quiere conocer si el tipo de cualificación de
los individuos afecta a los salarios en la ocupación, se puede construir una
variable que tome el valor 1 cuando el individuo está cualificado y 0 en caso
contrario.
En segundo lugar, en muchos contextos el fenómeno
que se quiere modelizar no es continuo, sino discreto. Por ejemplo, si se desea
modelizar la participación en el mercado de trabajo de los individuos, la
decisión sobre si se hace o no una compra, o la decisión de a qué candidato a
Rector se vota en las elecciones a la Universidad de Alcalá. En estos ejemplos,
la variable de interés toma valores discretos, y el modelo planteado requiere
un tratamiento específico.
El objetivo de este tema es presentar la utilidad
de las variables ficticias o cualitativas y los tipos de variables ficticias
que se pueden construir para tener en cuenta factores explicativos
cualitativos. También, se analizan los modelos que contienen variables
ficticias endógenas, conocidos como modelos de elección discreta o de respuesta
cualitativa. En particular, en estos modelos se discute la estimación y las
propiedades de los estimadores de un modelo de probabilidad lineal. Como no hay
garantías de que las predicciones de este modelo parezcan verdaderas
probabilidades. Se plantean diferentes modelos que solucionan los problemas de
los estimadores aplicados al modelo de probabilidad lineal. Estos son los
modelos logit y probit. Finalmente, se describe de manera sencilla
generalizaciones de los modelos anteriores como el caso que exista variables
alternativas de elección, y el supuesto que la variable endógena sea una
combinación de variables cualitativas y continuas, los denominados modelos
truncados y censurados.