Obtención de reglas de clasificación difusas utilizando técnicas de optimización - caso de estudio riesgo crediticio

Jimbo Santana, Patricia Rosalia

Obtención de reglas de clasificación difusas utilizando técnicas de optimización - caso de estudio riesgo crediticio

Jimbo Santana, Patricia Rosalia

Supervised by:

Laura Cristina Lanzarini Director
Aurelio Fernández Bariviera Director

Defence university: Universitat Rovira i Virgili

Fecha de defensa: 14 July 2020

Committee:

José Ángel Olivas Varela Chair
Marcelo Luis Errecalde Secretary
Mario Guillermo Leguizamón Committee member

Type: Thesis

Teseo: 649075 DIALNET TDX editor

Abstract

En los últimos años gracias al avance de la tecnología, las organizaciones han almacenado gran cantidad de información. Esto las ha llevado a la necesidad de incorporar técnicas que permitan procesar y obtener información útil de los datos. El proceso de Extracción del Conocimiento, conocido como proceso de KDD (Knowledge Discovery in Databases), está formado por varias fases que van desde la recolección y transformación de los datos hasta la identiﬁcación e interpretación de patrones o relaciones subyacentes sumamente útiles en la toma de decisiones. Dentro del proceso de KDD, la Minería de Datos (Data Mining) es considerada la fase más importante, ya que agrupa a las técnicas capaces de modelizar la información disponible. A partir del uso o comprensión del modelo generado es posible extraer conocimiento. Este conocimiento que se genera resulta de gran interés para las organizaciones, debido a que constituye una herramienta sumamente importante para la toma de decisiones tácticas y estratégicas, lo cual se convierte en una ventaja competitiva. Una característica deseable de los modelos construidos con las técnicas de la Minería de Datos es que el conocimiento que se extrae se exprese en términos comprensibles. En este sentido, las reglas de asociación son consideradas, por quienes deben tomar decisiones, como una de las formas más comprensibles que puede ser utilizada para representar el conocimiento, ya que tienen la capacidad de explicarse por sí mismas. Una regla de asociación es una expresión de la forma ”SI condic1 ENTONCES condic2” donde ambas condiciones son conjunciones de proposiciones de la forma (atributo=valor) cuyos atributos/variables pueden ser cuantitativas o cualitativas. Por su estructura condicional, puede aﬁrmarse que el objetivo principal de una regla es identiﬁcar relaciones entre los atributos. Cuando el conjunto de reglas de asociación presenta en el consecuente el mismo atributo, se dice que se trata de un conjunto de ”reglas de clasiﬁcación”. Si a esto se le suma que las reglas de clasiﬁcación empleen lógica difusa a través de conjuntos difusos para describir los valores de sus atributos, se obtienen ”Reglas de Clasiﬁcación Difusas”, facilitando aun más su comprensión, permitiendo además el manejo de la incertidumbre, aproximándonos cada vez más al razonamiento humano.. La utilización de la lógica difusa para la generación de las reglas ha permitido que los investigadores obtengan formas de mejorar el desempeño de las metaheurísticas, básicamente para acelerar la convergencia y obtener una mejor calidad en las soluciones planteadas. El aporte central de esta tesis es la deﬁnición de un nuevo método capaz de generar un conjunto de reglas de clasiﬁcación difusas de fácil interpretación, baja cardinalidad y una buena precisión. Estas características ayudan a identiﬁcar y comprender las relaciones presentes en los datos facilitando de esta forma la toma de decisiones. El nuevo método propuesto se denomina FRvarPSO (Fuzzy Rules variable Particle Swarm Oprmization) y combina una red neuronal competitiva con una técnica de optimización basada en cúmulo de partículas de población variable para la obtención de reglas de clasiﬁcación difusas, capaces de operar sobre atributos nominales y numéricos. Los antecedentes de las reglas están formados por atributos nominales y/o condiciones difusas. La conformación de estas últimas requiere conocer el grado de pertenencia a los conjuntos difusos que deﬁnen a cada variable lingüística. Esta tesis propone tres alternativas distintas para resolver este punto. Con respecto a la forma de obtención de las reglas, el método propuesto utiliza un proceso iterativo por medio del cual se van cubriendo los ejemplos de una clase a la vez hasta lograr la cobertura deseada. Por lo tanto, el consecuente de la regla queda determinado por la clase seleccionada y es el antecedente el que se extrae a través de la técnica de optimización. Cada partícula de la población utiliza una representación de longitud ﬁja, donde sólo se codiﬁca el antecedente de la regla y dado el enfoque adoptado, se efectuará un proceso iterativo asociando todos los individuos de la población con una clase predeterminada. El hecho de que todos los individuos pertenezcan a la misma clase hace innecesaria la codiﬁcación del consecuente dentro de la partícula. Uno de los aportes de esta tesis radica en la deﬁnición de la función de aptitud o ﬁtness de cada partícula basada en un ”Criterio de Votación” que pondera de manera difusa la participación de las condiciones difusas en la conformación del antecedente. Su valor se obtiene a partir de los grados de pertenencia de los ejemplos que cumplen con la regla y se utiliza para reforzar el movimiento de la partícula en la dirección donde se encuentra el valor más alto. Con la utilización de PSO (Particle Swarm Optimization) las partículas compiten entre ellas para encontrar a la mejor regla de la clase seleccionada. La eﬁciencia y eﬁcacia de FRvarPSO se encuentran fuertemente condicionadas por la manera en que se determinen las funciones de pertenencia de los conjuntos difusos. En el marco de las investigaciones de esta tesis se han utilizado diferentes opciones. Uno de estas opciones fue particionar el rango de cada atributo numérico en intervalos de igual longitud, y centrando en cada uno de ellos una función triangular con un solapamiento adecuado. Otra de las formas para obtener los conjuntos difusos ha sido utilizando el método Fuzzy C-Means. Adicionalmente, se utilizó también como técnica el conocimiento de un experto para la deﬁnición de los conjuntos difusos, y su correspondiente valor de pertenencia. El desempeño del método propuesto FRvarPSO fue comparado con versiones previas del mismo como son SOM + PSO, SOM + varPSO (PSO con población variable), LVQ + PSO, así como otros métodos de extracción de reglas de clasiﬁcación como PART y C4.5. Adicionalmente se comparó FRvarPSO con las versiones SOM + PSO Difuso, SOM + varPSO Difuso, LVQ + PSO Difuso, que son las versiones anteriores a las que se les aplicó lógica difusa al momento de construir el antecedente junto con el criterio de votación utilizado en la función ﬁtness. La medición se realizó sobre doce bases de datos del repositorio UCI (Machine Learning Repository) y tres casos reales en el área de crédito del Sistema Financiero del Ecuador asociadas al riesgo crediticio considerando un conjunto de variables micro y macroeconómicas. Dentro de las bases de datos del Sistema Financiero del Ecuador se contó con la información de una cooperativa de ahorro y crédito, y las otras dos bases de datos correspondieron a bancos que otorgan crédito de consumo Se veriﬁcó que con este análisis las reglas difusas obtenidas a través de FRvarPSO permiten que el oﬁcial de crédito de respuesta al cliente en menor tiempo, y principalmente disminuya el riesgo que representa el otorgamiento de crédito para las instituciones ﬁnancieras. Lo anterior fue posible, debido a que al aplicar una regla difusa se toma el menor grado de pertenencia promedio de las condiciones difusas que forman el antecedente de la regla, con lo que se tiene una métrica proporcional al riesgo de su aplicación. Con esta observación el oﬁcial de crédito puede tomar la decisión de conceder el crédito incrementando la tasa de interés, las garantías y/o colaterales (activo), con la ﬁnalidad de disminuir el riesgo asociado. Los resultados obtenidos fueron comparados mediante tests de diferencia de medias, veriﬁcándose que los modelos difusos presentan en la mayor parte de los casos una precisión superior a la del método PART, pero ligeramente mayor a la alcanzada por el método C4.5. Sin embargo, si se observa la cantidad de reglas generadas para alcanzar dicha precisión, los métodos difusos utilizan una cantidad promedio de reglas mucho menor, que las reglas de C4.5 y PART. Esto último ratiﬁca el énfasis puesto en la sencillez del modelo y en su facilidad de interpretación, gracias a la utilización de la lógica difusa. FRvarPSO no solo obtiene un modelo más simple ya que utiliza menor cantidad de reglas que otros métodos, si no que presenta una buena precisión, y especialmente gracias a la incorporación de la lógica difusa mejora la interpretabilidad de la regla. Luego, este método aporta al área informática y se ha demostrado que también realiza aportes en el área de la economía, a través del análisis del riesgo crediticio, incorporando para ello variables macroeconómicas.