"Escarbando en las bases de datos con técnicas de minería de datos", por Carlos Serrano, Universidad de Zaragoza (España)

La Contabilidad en la Era del Conocimiento

Escarbando en las bases de datos con técnicas de minería de datos y big data

1) ¿Para qué sirven?

No es lo mismo gestionar una pequeña base de datos de clientes que disponer de una con varios millones. Incluso un supermercado de tamaño medio dispone de millones de datos si acumula las ventas diarias.

Para las empresas internacionales extraer información útil de millones de datos es una necesidad. Ahí intervienen las técnicas de minería de datos o Data Mining.

Se utilizan tanto para descubrir patrones de comportamiento en consumidores, o encontrar cuales son los mejores y peores clientes de una compañía de seguros o un banco.

Big Data... el nuevo trend topic en computación

Más recientemente se viene empleando el término Big Data. Veamos en Google Trends (http://www.google.com/trends/?q=data+mining,+big+data&ctab=0&geo=all&date=all&sort=0).

Aunque todavía pocos libros hablan de ello, veamos Google Books Ngrams (http://books.google.com/ngrams/graph?content=data+mining%2C+big+data&year_start=1800&year_end=2000&corpus=0&smoothing=3).

Por cierto ¿de qué países y lugares provienen las visitas de las personas que buscan información sobre Big Data?...[de aquí, 100.000 empleados].

Un ejemplo: del Marketing One_to_One a la Docencia One_to_One, aplicando big data. School of One http://schoolofone.org/concept_keyfeatures4.html o la herramienta de Google, Big Query (https://developers.google.com/bigquery/) capaz de analizar base de datos de miles de millones de de filas...

2) ¿Qué utilizan?

Como metodología se utilizan normalmente modelos predictivos, de segmentación, de agrupamiento y de afinidad, por lo que se aplican herramientas matemáticas multivariantes -estadísticas clásicas o procedentes de la inteligencia artificial-.

¿Que relación hay entre patatas fritas, cervezas, varones y día de la semana?
Destacan, por ejemplo, como modelos predictivos las regresiones o modelos de red neuronal supervisada. Técnicas de agrupamiento habituales son el análisis cluster y los modelos neuronales de mapas autoorganizados. Para realizar segmentaciones, son frecuentes los análisis discriminantes y la regresión logística. Para detectar la afinidad, es decir, que una persona que alquila una película de vídeo se lleva una caja de cervezas y patatas fritas se usan análisis de Fourier, generadores de asociaciones de reglas y otras técnicas estadísticas. [¿leyenda urbana?].

Un caso especial del Data Mining es el Web Mining. Cuando navegamos por un servidor de Internet, por ejemplo una tienda virtual, dejamos rastros, huellas en un fichero que se llama access.log.

Podemos analizar ese fichero y por ejemplo, darnos cuenta que los clientes que hacen una compra de un producto son funcionarios o jubilados o apertenecen a un nicho concreto de mercado. A partir de ahí podríamos proponer ofertas específicas.
Podríamos conocer que los clientes que compraron un determinado producto también compraron otro al cabo de un tiempo. Esto indica que se podría insertar publicidad del segundo producto en la página del primero.
Programas para analizar las estadísticas de visitas a la web como Google analytics [http://www.google.com/analytics/es-ES/]

Data mining. Averiguar qué bancos van a quebrar en EEUU

La crisis financiera ha llevado a la quiebra a 140 bancos en EEUU en el año 2009, 157 en el 2010 y sigue todavía. La FDIC ha avisado de que hay 884 bancos en la "problem list" pero no dice cuales, por miedo a una "bank run" (pánico). Quedan 7973 bancos que a fecha de hoy no han quebrado... ¿como adivinar cuales son?. [la lista de quebrados ] [los datos].

Tenemos 7973 bancos y 900 variables cada año, con información de 10 años. Una excel bastante grande...

Usando técnicas de data mining (redes neuronales, c4.5, análisis discriminante, regresión logística, k-nearest neighbour...) encontramos exactamente 885 entidades en situación de riesgo. Vemos una imagen (en círculo rojo las buenas a la derecha y en triángulo verde las malas, a la izquierda):

¿Como funcionan esos algoritmos?. Veamos por ejemplo el k-nearest neighbour (vecino más cercano). Ponemos todos juntos los quebrados -en rojo- y los solventes -en azul-. Como vemos los solventes son más rentables y tienen mejor ratio de liquidez. Ahora queremos analizar una nueva entidad, la que tiene un interrogante. Loque hacemos es mirar sus vecinos, en la figura de al lado hamos puesto un círculo verde. En ese círculo vemos que d elos 4 vecinos 3 son solventes y uno quebrado: el algoritmo lo clasifica como solvente.

Tras el data mining, aplicando la técnica de ecuaciones estructurales planteamos un modelo causal para la quiebra bancaria:

Serrano-Cinca, C.; Fuertes, Y.; Gutiérrez, B and Cuellar, B. (2011): "Path modeling to bankruptcy: causes and symptoms of the banking crisis", Working Papers CEB from ULB -- Universite Libre de Bruxelles , Num 11/007.

Citar como: Serrano Cinca C. (2013): "La Contabilidad en la Era del Conocimiento", [en línea] 5campus.org, Sistemas Informativos Contables <http://www.5campus.org/leccion/introduc> [y añadir fecha consulta]	[Índice]