Librerías de odio según intensidad y tipos en medios informativos digitales en España (Hate speech libraries according to intensity and types in digital news media in Spain)
- Said-Hung, Elias
- Montero-Diaz, julio
- Blanco, Xiomara
- Ruiz-Iniesta, Almudena
- Pérez Palau, Daniel
- De Gregorio Vicente, Oscar
- José Cubillas, Juan
Resumen
Librerías de odio según intensidad y tipos en los medios informativos digitales en España, resultado del proyecto "Hatemedia" (proyecto PID2020-114584GB-I00), financiado por MCIN/ AEI /10.13039/501100011033.A partir de la <b>BD usada para el entrenamiento</b> de los diferentes modelos de algoritmos de clasificación desarrollados en el proyecto Hatemedia, se extranjeron 6.273 lemas simples y compuestos, asociados a los mensajes con expresiones de odio identificados por cada una de las intensidades y tipos de odio estudiados en este proyecto. Las librerías de odio por intensidad y tipo de odio, están conformadas por un total de: 2.706 y 3.567 lemas simples y compuestos, respectivamente.<b>Por intensidad de odio:</b>Intensidad 1 – Odio asociado a mensajes incívidos: 1.000 lemas simples y compuestos.Intensidad 2 – Odio asociado a mensajes mal intensionados o con expresiones abusivas: 364 lemas simples y compuestos.Intensidad 3 – odio asociado a insultos: 1.110 lemas simples y compuestos.Intensidad 4 – Odio asociado a amenazas veladas o explícitas: 232 lemas simples y compuestos.<b>Por tipo de odio:</b>Odio general: 1.001 lemas simples y compuestos.Odio misogino: 505 lemas simples y compuestos.Odio politico: 1.235 lemas simples y compuestos.Odio sexual: 160 lemas simples y compuestos.Odio xenófobo: 666 lemas simples y compuestos.Una vez recabado estos lemas, se llevó a cabo el siguiente proceso:ETIQUETADO DE EXPRESIONES Y EXTRACCIÓN DE LEMAS. Del total de mensajes identificados se eliminaron stop-words, se identificaron datos anómalos (que no pertenecían a un idioma conocido o eran diminutivos de éste), separándolos posteriormente en función de su intensidad y su tipo de odio. A partir de esta separación, se identificaron tanto los lemas simples como compuestos de forma independiente para cada intensidad y tipo de odio.IDENTIFICACIÓN DE DUPLICADOS: En la primera fase se realizaron dos listados, el primero de lemas simples y el segundo de lemas compuestos. El primer paso fue filtrar estas dos listas para identificar lemas repetidos, obteniendo estas dos bibliotecas donde cada lema aparece una sola vez.INTEGRACIÓN BBDD: A continuación, en la tercera fase, se procedió a unir ambas bibliotecas para construir una biblioteca final que integrara todos los lemas, tanto simples como compuestos. Finalmente, se realizó un filtrado final para asegurar que no se repitan los lemas.Una vez hecho el proceso descrito, se revisó manualmente cada uno de los lemas identificados, con el fin de eliminar aquellos que no aludían a expresiones de odio, por motivo de contexto o significado del término, quedando finalmente la siguiente relación de lemas, según intensidad y tipo de odio. Las librerías de odio por intensidad y tipo de odio, están conformadas por un total de: 1.140 y 1.673 lemas simples y compuestos, respectivamente.<b>Por intensidad de odio:</b>Intensidad 1 – Odio asociado a mensajes incívidos: 401 lemas simples y compuestos.Intensidad 2 – Odio asociado a mensajes mal intensionados o con expresiones abusivas: 99 lemas simples y compuestos.Intensidad 3 – odio asociado a insultos: 542 lemas simples y compuestos.Intensidad 4 – Odio asociado a amenazas veladas o explícitas: 98 lemas simples y compuestos.<b>Por tipo de odio:</b>Odio general: 463 lemas simples y compuestos.Odio misogino: 239 lemas simples y compuestos.Odio politico: 579 lemas simples y compuestos.Odio sexual: 74 lemas simples y compuestos.Odio xenófobo: 319 lemas simples y compuestos.---Hate libraries according to intensity and types in digital news media in Spain, the result of the "Hatemedia" project (project PID2020-114584GB-I00), financed by MCIN/ AEI /10.13039/501100011033.The <b>database used</b> to train the classification algorithm models developed in the Hatemedia project identified 6,273 simple and compound lemmas associated with messages with hate expressions identified by each of the intensities and types of hate studied in this project. The hate libraries by intensity and type of hate consist of 2,706 and 3,567 simple and compound words, respectively.<b>By intensity of hate:</b>Intensity 1 – Hate associated with uncivil messages: 1,000 simple and compound lemmas.Intensity 2 – Hatred associated with poorly intended messages or abusive expressions: 364 simple and compound lemmas.Intensity 3 – hatred associated with insults: 1,110 simple and compound lemmas.Intensity 4 – Hatred associated with veiled or explicit threats: 232 simple and compound lemmas.<b>By type of hate:</b>General hatred: 1,001 simple and compound lemmas.Misogynistic hate: 505 simple and compound lemmas.Political hatred: 1,235 simple and compound lemmas.Sexual hatred: 160 simple and compound lemmas.Xenophobic hatred: 666 simple and compound lemmas.Once these lemmas were collected, the following process was carried out:LABELING OF EXPRESSIONS AND EXTRACTION OF LEMMAS. Stop-words were eliminated from the total number of identified messages, and anomalous data were identified (that did not belong to a known language or were diminutives of it). Subsequently, they were separated based on their intensity and type of hatred. This separation identified simple and independently composed words for each intensity and type of hatred.IDENTIFICATION OF DUPLICATES: In the first phase, two lists were made, the first of simple lemmas and the second of compound lemmas. The first step was to filter these two lists to identify repeated lemmas, obtaining these two libraries where each lemma appears only once.BBDD INTEGRATION: Next, in the third phase, both libraries were joined to build a final library that integrated all the lemmas, both simple and compound. Finally, a final filtering was performed to ensure the lemmas were not repeated.Once the described process was completed, each of the identified lemmas was manually reviewed to eliminate those that did not refer to expressions of hate due to the context or meaning of the term. Finally, the following list of lemmas was left according to intensity and type of hate. The hate libraries by intensity and type of hate consist of 1,140 and 1,673 simple and compound lemmas, respectively.<b>By intensity of hate:</b>Intensity 1 – Hate associated with uncivil messages: 401 simple and compound lemmas.Intensity 2 – Hatred associated with poorly intended messages or abusive expressions: 99 simple and compound lemmas.Intensity 3 – hatred associated with insults: 542 simple and compound lemmas.Intensity 4 – Hatred associated with veiled or explicit threats: 98 simple and compound lemmas.<b>By type of hate:</b>General hatred: 463 simple and compound lemmas.Misogynistic hate: 239 simple and compound lemmas.Political hatred: 579 simple and compound lemmas.Sexual hatred: 74 simple and compound lemmas.Xenophobic hatred: 319 simple and compound lemmas.<br>