Come lavorare con i dati per non dare i numeri 16 Luglio 2024

Perché l'alfabetizzazione ai dati, la data literacy, è una competenza che ogni persona dovrebbe coltivare? Benedetta Tonnini ci racconta come lavorare correttamente con i dati sia alla base per per capire meglio il mondo che ci circonda.

a cura di Benedetta Tonnini - Project manager & Researcher on Data literacy topics @Dataninja

Quante volte abbiamo sentito le frasi i dati sono il nuovo petrolio? Oppure: la professione di data scientist è la più sexy del XXI secolo?

Probabilmente molte, al punto di esser diventate quasi dei luoghi comuni.

Era il 2006 quando il matematico britannico Clive Humby pronunciò la prima, e il 2012 quando il ruolo di data scientist è stato dichiarato il “più sexy” (qualsiasi cosa significhi essere sexy per una carriera) dalla Harvard Business Review . Nel corso degli anni, si è aperto un dibattito che ha aggiunto delle riflessioni interessanti al mondo dei dati.

C’è chi crede che la metafora del petrolio non sia (più) adeguata, e che i dati sarebbero più simili a una yellowcake o ancora che il “nuovo petrolio” sia piuttosto il tempo: per esempio quello che trascorriamo su piattaforme che poi raccolgono i nostri, di dati. La professione di data scientist si è evoluta non solo per le tecnologie utilizzate, ma anche grazie a contributi accademici che hanno arricchito i punti di vista, promuovendo un approccio femminista al lavoro con i dati.

Ciò che è certo è che usare, leggere e rappresentare i dati non dovrebbe essere una capacità per pochi eletti: l’alfabetizzazione ai dati (in inglese data literacy) è un set di conoscenze e competenze fondamentali non solo nella vita professionale – ogni mestiere che si basa sull’osservazione (e il racconto) della realtà parte dai dati – ma anche come individui e, soprattutto, come cittadini e cittadine.

Ok, ora che l’introduzione teorica l’abbiamo fatta, se si vuole  familiarizzare con il mondo dei dati (e magari introdurli anche nella propria professione), da dove si comincia?

Un buon punto di partenza è conoscere come si struttura il ciclo di lavoro con i dati, che ora esploreremo attraverso le 4 fasi trova-pulisci-analizza-visualizza, fornendo consigli pratici per ognuna di queste.

Trovare i dati

Quando parliamo di dati, intendiamo dati che siano leggibili a macchina, ovvero in un formato che il computer possa interpretare correttamente, per esempio tramite un software come Excel, e rilasciati con una licenza che ne permette il riutilizzo.

Prima ancora di vedere dove o come possiamo trovare i dati dobbiamo chiederci: a quali domande desidero rispondere? In poche parole, è cruciale avere degli obiettivi chiari che guidino la nostra ricerca e ci aiutino a trovare le fonti adatte.

Queste possono essere molteplici: database aziendali, dataset pubblici disponibili online, e dati raccolti direttamente tramite sondaggi o questionari.

Ho bisogno di fare una ricerca sul tasso di disoccupazione in Europa?
Potrei iniziare dando un’occhiata al portale dell’Eurostat, dove verosimilmente si troveranno dei dati scaricabili in formato aperto e pronti all’uso.
Voglio indagare il grado di soddisfazione dei miei clienti su un prodotto che vendo?
In questo caso raccogliere dati tramite un questionario potrebbe rivelarsi la scelta più adatta.

One size does not fit all quando parliamo di fonti di dati, perché molto dipende da quali sono gli obiettivi della nostra ricerca e da come possiamo strutturare la raccolta in base alle nostre competenze.

Tuttavia, una regola aurea possiamo ricavarla: prima di lavorare con un dataset, assicuriamoci che sia valido e affidabile. Come? Facendoci una serie di domanda su chi ha raccolto questi dati, quando e perché lo ha fatto, e che metodologia ha usato.

Pulire i dati

Una volta raccolti, i dati spesso necessitano di essere puliti. Questo processo include la correzione di errori, la gestione dei dati mancanti e assicurarci che i dati siano coerenti e formattati correttamente.

Delle varie fasi del ciclo di lavoro con i dati è probabilmente la meno entusiasmante, ma è fondamentale per non distorcere i risultati delle nostre analisi.

Possiamo iniziare avendo a disposizione una checklist delle attività di pulizia più comuni, questa guida è un riferimento prezioso da cui partire per farsi un’idea.

Nota bene: è importante documentare tutte le decisioni prese durante la fase di pulizia dei dati, in modo da aumentare la trasparenza e facilitare la replicabilità del lavoro.

Gli strumenti da usare possono essere molteplici: fogli di calcolo, strumenti open source come Open Refine, linguaggi di programmazione, software di AI generativa; come per le altre fasi la scelta è da fare sia in base alle proprie competenze, ma anche alla complessità delle operazioni di pulizia da svolgere. 

Analizzare i Dati

L’analisi è il cuore del ciclo di lavoro con i dati, la fase che ci permette di trasformarli in informazioni, di farli parlare. Qui si apre un mondo: è evidente che ci sono molte possibilità e differenze nel tipo di analisi che si possono fare se abbiamo, per esempio, un dottorato in statistica e/o conosciamo dei linguaggi di programmazione. Ma ricordiamo cosa abbiamo detto all’inizio: qui si sta parlando di literacy, del fatto che ci dovrebbe interessare acquisire queste competenze a un livello base anche solo semplicemente in quanto cittadini/e.

Quindi niente paura se alla maturità cantavi “la matematica non sarà mai il mio mestiere”, perché ce la possiamo fare nonostante questo. Tuttavia, non possiamo ignorare il fatto che sia imprescindibile conoscere un po’ di statistica, che rimane la disciplina alla base dell’analisi dei dati (ma anche di ambiti che ultimamente “creano hype” come Intelligenza artificiale o Machine learning).

Inoltre, non dimentichiamoci che studiare e fare propri i concetti di base di statistica non significa poi mettersi a fare i calcoli. In questo i computer sono decisamente migliori di noi e possiamo lasciar ben volentieri a loro il lavoro, dandogli però le istruzioni corrette e verificando che i risultati delle analisi siano accurati e significativi.

Visualizzare i Dati

Finalmente ci si diverte un po’!
Con impegno abbiamo capito che dati ci servivano, dopo averli trovati magari li abbiamo pure dovuti pulire/ristrutturare prima di passare all’analisi, ora è il momento di far vedere i risultati del nostro lavoro.

Anche quest’ultima fase, come prevedibile, apre molteplici mondi, ma forse un po’ più colorati!

In estrema sintesi: la visualizzazione dei dati ci permette di comunicare i risultati delle nostre analisi in modo chiaro e comprensibile. Spesso, però, “un’immagine non vale più di mille parole” – per cui la domanda da farsi prima di iniziare a realizzare un grafico è proprio: c’è bisogno di comunicare visivamente questa informazione? Se la risposta è sì, dobbiamo scegliere che tipo di grafico utilizzare in base a diversi fattori: il tipo di dati che ho, l’angolo narrativo che voglio comunicare, chi è il mio pubblico, e (come per tutte le altre fasi) le mie conoscenze e competenze per la realizzazione pratica del grafico.

Ci sono molte risorse utili a guidarci nella scelta del grafico adatto, per esempio questa o questa. Così come sono numerosi gli strumenti che possono aiutarci nella realizzazione di un grafico: Datawrapper e Flourish sono ottimi alleati, user friendly, intuitivie molto completi anche nella loro versione gratuita.

Un certo livello di creatività potrebbe essere necessario anche in altre fasi del lavoro con i dati (per esempio quando ti servono dati che mancano e ti devi costruire il tuo dataset), ma è nella visualizzazione che emerge in modo più evidente. Per questo motivo, è importante anche lasciarsi ispirare e contaminare dal lavoro delle altre persone!

Ecco qui una lista (non esaustiva) di profili da seguire se ti interessa la data visualization:

Conclusione

Nella realtà, queste fasi del ciclo di lavoro con i dati non sono sempre sequenziali e lineari. Spesso si sovrappongono e si può andare avanti e indietro tra di esse. Durante l’analisi dei dati potremmo scoprire che è necessaria una pulizia aggiuntiva, o che nuovi dati devono essere trovati e integrati.

Ciò che è fondamentale è comprendere quali conoscenze o competenze sono necessarie per ciascuna fase del ciclo e valutare il grado di approfondimento necessario per ogni fase specifica del progetto su cui stiamo lavorando.

Non dobbiamo dimenticare che, a volte, piuttosto che iniziare una nuova laurea triennale in scienze statistiche mentre faccio il corso serale di design potrebbe non essere la scelta più efficace e produttiva. Spesso basta un mix tra collaborazione, scambio di idee e richieste di supporto di altre persone, apportando ciascuno/a la propria expertise. Come in ogni altra situazione, riconoscere quando è il momento di cercare aiuto o un confronto può fare la differenza.

Infine, la pratica è fondamentale. Sperimentare con diverse tecniche e strumenti ci aiuterà a sviluppare un nostro metodo di lavoro con i dati.


Categorie: Blog, Tips for job
Tag: