Storia di un dataset sui femminicidi che è arrivato tra le mie mani
La seconda parte di una storia iniziata un anno fa, che ora sembra essere finita, ma che in verità è solo una tappa di una strada lunga e necessaria.
The production of counterdata is intentional, contextualized,and political - Cruxên & Jungs de Almeida, 2024
Era il 19 marzo del 2025 quando Donata Columbro ci ha messi in contatto - Andrea Borruso e me - con Sabino Metta, e ci ha mostrato, per la prima volta, il dataset sui femminicidi che Sabino ha costruito durante il suo lavoro al Centro Ricerche e Innovazione Tecnologica della Rai di Torino. L’allegato di quell’email era un link protetto a un grosso file excel con dentro diversi fogli di calcolo; in calce Donata ci avvisava:
una nota per chi li aprirà: contengono dettagli di morti violente, abbiate cura della vostra salute mentale
Su quel dataset io e Andrea Borruso siamo tornati, in diverse modalità e a più riprese. E ci siamo tornati innanzitutto in qualità di vicepresidente e presidente dell’associazione onData, che da anni si spende per l’apertura di dati di interesse pubblico, ma soprattutto in qualità di persone che con i dati ci lavorano e che nei dati e attraverso i dati riescono a immaginare un modo diverso di capire e descrivere la realtà e di fare le cose.
Come ha detto Donata nella prima parte di questa storia, il file pesava 22,1 megabyte, conteneva centinaia e centinaia di righe e decine di colonne. C’erano celle per descrivere alcuni metadati, un po’ di spazio per annotare campi personali, quelli della vittima da un lato e quelli dell’aggressore dall’altro, e ancora altro spazio per descrivere l’evento con una serie di dettagli possibili: “quando, dove, come”.
Perché ci siamo messi a lavorare su questo dataset? Che cosa volevamo ottenere? L’obiettivo era fondamentalmente uno: metterlo a disposizione della comunità come esempio di controdati, dati cioè messi insieme da gruppi di persone (come Sabino) per contestare le statistiche ufficiali, soprattutto quando queste sono incomplete, imprecise, o non esistono nemmeno. Volevamo quindi pubblicare il dataset - in una maniera aperta e accessibile - perché potesse diventare strumento di ricerca, di osservazioni, di studio; perché potessimo chieder conto alle istituzioni; perché ci permettesse, insomma, di riempire un vuoto.
Che cosa abbiamo fatto
Ci siamo innanzitutto presi cura dei dati. Questa fase in inglese si chiama proprio data curation, ed è una fase importantissima per la pubblicazione di qualunque dataset di interesse pubblico, perché permette di pulire, strutturare, e arricchire i dati per renderli poi accurati, affidabili, e pronti all’uso e al riuso. Chi si spende nel mondo dei dati aperti lo sa bene: non basta mettere assieme qualche tabellina e pubblicarla su internet. E non basta nemmeno un grosso o sofisticato foglio di calcolo in Excel, se poi mancano descrittori puntuali e metadati, e rimane impossibile capire che cosa c’è dentro le celle. E non bastano nemmeno i report in pdf o le dashboard, perché una macchina, un software, non sa che farsene. Il dato aperto è il risultato di una serie di scelte molto diverse, e la prima di queste scelte è proprio la cura.

Abbiamo reso i campi, lì dove possibile, omogenei e standard. Al dataset originale abbiamo aggiunto, ad esempio, ripartizioni geografiche e regioni, assieme ai codici ISTAT (Istituto Nazionale di Statistica) per queste ultime: qualunque altro dataset faccia uso di questi codici potrà essere interfacciato con questi dati senza ambiguità e senza rischio di errori. Ci siamo occupati ovviamente anche dell’anonimizzazione del dataset per la privacy di tutte le persone coinvolte: questo significa ad esempio creare fasce d’età (18-29, 30-44, etc.), o mantenere alcuni campi soltanto se compaiono più di un certo numero di volte nello stesso anno (come ad esempio per la nazionalità o l’occupazione). Lo scopo della pubblicazione di questo dataset - e di molti dataset di interesse pubblico - è certamente quello di permettere analisi sociali e statistiche sul fenomeno, ma bisogna al tempo stesso ridurre al minimo il rischio di identificazione personale.
Il lavoro di cura di un dataset è per me sempre la parte più faticosa, e forse è per questo che rimane la parte più importante. Possiamo dirci che ci assiste l’intelligenza artificiale, certo, e possiamo dirci che se il tuo lavoro è quello di una data scientist certe cose le fai a occhi chiusi. Ma il punto è proprio questo, soprattutto quando si ha a che fare con un dataset come quello raccolto da Sabino. Non si può lavorare a un dataset così con gli occhi chiusi, perché è proprio il tempo dedicato all’osservazione e al dettaglio, è proprio la presenza piena e totale - quella che poi inevitabilmente ti fa venire il mal di pancia - che detta una cura di tipo diverso, quella che prescinde dal calcolo e dalla riga di comando.
Il dataset finale
Con una serie di iterazioni - in cui siamo sempre tornati a Sabino, perché la storia di questo dataset è iniziata con lui - siamo riusciti a costruire un dataset "pulito" (tecnicamente pulito), il più possibile corretto (restiamo pur sempre umani), e ovviamente anonimizzato. Il risultato finale è una tabella che contiene 819 episodi di violenza, per un totale di 939 righe, ovvero 939 vittime (un singolo episodio di violenza può contenere più di una vittima). La tabella ci dice qualcosa sul movente, sulla relazione tra la vittima e l’aggressore, sul luogo dell’episodio di violenza. Mi pare ci sia tanto, dentro questa tabella, e allo stesso tempo non abbastanza.
Che farne, poi, di un dataset così? Come metterlo a disposizione della società, di persone interessate, di persone che magari la violenza di genere la studiano, la ricercano, e la vogliono calare dentro altre cornici di analisi? Dovevamo pubblicare la tabella.
Per la pubblicazione del dataset abbiamo deciso di utilizzare il formato standard frictionless, di cui vi parlerò tra breve, una licenza aperta e permissiva, e un archivio digitale a disposizione di tutti e tutte, Zenodo.
Il formato Frictionless Data Package è uno standard aperto per descrivere e pubblicare dataset in modo che siano facili da capire e usare da chiunque. L’idea di base è che avere un file csv da solo non ti dice nulla su cosa significano le colonne, che tipo di dati devono contenere, o se i dati sono precisi (in questa colonna ci va un numero o una data? chi può dirlo). Il formato Frictionless risolve questo problema aggiungendo un file di descrizione che accompagna sempre i dati. Il dataset che abbiamo pubblicato è quindi proprio un package, una scatola che contiene:
il file csv con tutte le righe e le colonne della nostra tabella finale, il cuore del dataset (data.csv)
un file json che descrive in modo unico e dettagliato tutto quello che c’è da sapere sul cuore del dataset: chi lo ha creato, che cosa c’è dentro, quali sono le colonne e che cosa possono contenere, che licenza ha, e così via (datapackage.json)
La pubblicazione del dataset in questo formato garantisce una serie di cose di non poca importanza, tra cui l’interoperabilità - qualsiasi strumento riconosca Frictionless o sappia aprire un file csv può leggere questi dati - e la validazione automatica - si può sempre verificare che i dati rispettino le regole dello schema. Si può cioè accedere al dataset senza attriti (che è proprio quello che significa frictionless). Un formato che forse anche le pubbliche istituzioni potrebbero iniziare ad adoperare?
C’è poi un ulteriore aspetto a cui io sono particolarmente legata che ritorna alla questione della data curation e la approfondisce: se il dato cambia, cambia il metadato, e se cambia il metadato, il dato deve essere aggiustato. Se voglio capire il dato, devo leggere il metadato, devo aprire il file json, leggere lo schema, capire cosa significano i campi, interrogarmi su quali valori possono avere. Questo tipo di rappresentazione, che abbandona l’approccio approssimativo di un file excel caricato sul web, consente di costruire un rapporto diverso con il dataset in questione: ci mette in relazione al dato, accorcia le distanze tra noi utenti e quello che il dato rappresenta. Ci rende, insomma, partecipi.
Il dataset finale è stato pubblicato su Zenodo, una biblioteca digitale creata dal CERN e sostenuta finanziariamente dall’Unione Europea, dove persone (che fanno ricerca) possono pubblicare dati, codice, software, presentazioni, e persino articoli scientifici. La cosa importante di Zenodo è che assegna un DOI unico a ogni risorsa (una specie di documento di identità), attraverso il quale è possibile citare la risorsa stessa (questo il DOI del dataset che abbiamo pubblicato: 10.5281/zenodo.17672138), e che rende tutto il materiale open access e accessibile a chiunque.
Dentro Zenodo, in particolar modo, abbiamo creato una community, che è un modo di raccogliere assieme risorse intorno a una certa tematica.

Ci piacerebbe senza dubbio vedere altri dataset trovare residenza dentro questa community digitale; non importa quanti, se pochi o tanti, ma importano sicuramente le intenzioni di chi li ha creati, la cura di chi ci ha lavorato, importa la qualità del dato finale.
La cura che abbiamo rivolto ai dati raccolti da Sabino, la creazione della community su Zenodo, la pubblicazione del dataset finale, vuole tutto essere un insieme di passi per un’azione sempre più partecipata, per la costruzione di un’intelligenza collettiva dedicata a legittimare e comprendere il fenomeno della violenza di genere e dei femminicidi.
Dove i dati spariscono negli archivi istituzionali, o addirittura non vengono mai raccolti, i controdati resistono e insistono, e con loro le storie che li hanno generati. Le storie di chi viene contato, e di chi conta.
Cose che ho letto, visto, sentito
Ho iniziato la terza stagione di Ted Lasso.
Margini che si toccano. Prosegue questo progetto bellissimo. Questa puntata è delicata e potente. "Non sei troppo".
A presto, e fate ə monellə :)





Ho letto una prima volta, e sono rimasto un po’ confuso, quasi abbagliato.
Vai di seconda lettura, e mi è rimasta una grande ispirazione, quella che si prova per l’impegno di una mamma che ha passato la notte a finire di cucire il costume di carnevale per la festa del figlio. È l’ammirazione per chi si prende cura delle cose degli altri. Che in questo caso, sono anche le cose per gli altri. Per le altre.
Poi arriva la voglia di imparare come si fa a essere così brave. Da persona che si è fermata a trattare i dati solo su excel, mi rendo conto sia qualcosa che mi manchi per contribuire alla cultura della condivisione open access dei dati, per renderli bene comune.
Come si crea un ponte fra chi si prende cura dei controdati solo su excel per fargli fare l’evoluzione che avete fatto voi? Non posso essere l’unica persona qua fuori che si fa questa domanda dai! Risp 💖
immenso.