Hate Speech Library in Spanish / Librería de odio en Español

  1. Said-Hung, Elias
  2. Römer Pieretti, Max
  3. Montero-Diaz, julio
  4. De Lucas Vicente, Alberto
  5. Torres, Javier Martinez

Editor: figshare

Año de publicación: 2023

Tipo: Dataset

CC BY 4.0

Resumen

Librería de expresiones de odio detectado en medios informativos digitales en España, resultado del proyecto "Hatemedia" (proyecto PID2020-114584GB-I00), financiado por la Agencia Estatal de Investigación - Ministerio de Ciencia e Innovación. <br> Las expresiones de odio muestra 7.210 lemas simples y compuestos más repetidos y que desde el punto de vista semántico tienden al odio en medios informativos digitales en España. La elaboración de este documento final, requirió las siguientes fases: <br> ETIQUETADO DE EXPRESIONES Y EXTRACCIÓN DE LEMAS. En la primera fase, se revisaron un total de 476.753 mensajes asociados a medios informativos digitales en España, en el que se identificaron un total aproximadamente 4,5% de mensajes con expresiones que tendían al odio. Del total de mensajes identificados se eliminaron stop-words, se identificaron datos anómalos (que no pertenecían a un idioma conocido o eran diminutivos de éste) y se revisaron manualmente para identificar tanto los lemas simples como compuestos que tendían al odio. IDENTIFICACIÓN DE DUPLICADOS: En la primera fase se realizaron dos listados, el primero de lemas simples y el segundo de lemas compuestos. El primer paso fue filtrar estas dos listas para identificar lemas repetidos, obteniendo estas dos bibliotecas donde cada lema aparece una sola vez. INTEGRACIÓN BBDD: A continuación, en la tercera fase, se procedió a unir ambas bibliotecas para construir una biblioteca final que integrara todos los lemas, tanto simples como compuestos. Finalmente, se realizó un filtrado final para asegurar que no se repitan los lemas. <br> <strong>Autores:</strong> - Elias Said-Hung, Max Römer Pieretti, Julio Montero-Díaz, Alberto De Lucas, Javier Martínez Torres. <br> <strong>Apoyado por:</strong> - POSIBLE S.L. <br> <strong>Para más información:</strong> - https://www.hatemedia.es/, o contactar a elias.said@unir.net <br> --- <br> Library of hate speech detected in digital news media in Spain, the result of the "Hatemedia" project (project PID2020-114584GB-I00), financed by the State Research Agency - Ministry of Science and Innovation. <br> Hate expressions show 7,210 more repeated simple and compound slogans, and from the semantic point of view tend to be hate in digital news media in Spain. The preparation of this final document required the following phases: <br> LABELING OF EXPRESSIONS AND EXTRACTION OF SLOGMS. In the first phase, a total of 476,753 messages associated with digital news media in Spain were reviewed. Approximately 4.5% of messages with expressions tending toward hatred were identified. From the total number of messages identified, stop-words were removed, and anomalous data (that did not belong to a known language or were diminutive of it) were identified and manually reviewed to identify both simple and compound slogans that tended towards hatred. IDENTIFICATION OF DUPLICATES: In the first phase, two lists were made, the first of simple lemmas and the second of compound lemmas. The first step was to filter these two lists to identify repeated lemmas, obtaining these two libraries where each lemma appears only once. DDBB INTEGRATION: Next, in the third phase, we proceeded to join both libraries to build a final library that integrated all the lemmas, both simple and compound. Finally, final filtering was carried out to ensure that the lemmas were not repeated. <br> <strong>Authors:</strong> - Elias Said-Hung, Max Römer Pieretti, Julio Montero-Díaz, Alberto De Lucas, Javier Martínez Torres. <br> <strong>Supported by:</strong> - POSSIBLE S.L. <br> <strong>For more information:</strong> - https://www.hatemedia.es/ or contact elias.said@unir.net