Feb 102013
 

Il problema della privacy in rete, come spiegato più volte (a partire dalla semplice associazione big data + data mining), è davvero preoccupante.
Il mercato non sta a guardare e viene incontro a noi cittadini con nuovi servizi (a pagamento, ovviamente), per tutelare e proteggere la nostra privacy.

Un esempio è quello offerto da Reputation.com: guarda il video

from: MyPrivacy from Reputation.com

Tutto verosimile quanto illustrato nella prima parte: ma poi, davvero è possibile ripulire la nostra “fedina digitale”? Qualche dubbio mi rimane: andando a visitare il sito reputation.com, mi sono visto “attaccare” da ben 14 trackers (da Google a Yahoo, ma anche ClickTale, AdRoll, Quantcast, etc.)

Se il controllore è a sua volta controllato…

Feb 102013
 

Il data mining è un processo di estrazione di conoscenza da una grande quantità di dati. Questa conoscenza può avere un valore enorme, a seconda della quantità di dati a disposizione e del settore di riferimento.

C’è chi sfrutta il data mining per estrarre potenziali conclusioni da una serie di dati biologicimetereologicifisici o comunque scientifici.  E naturalmente, ci sono i grandi colossi del Web, per i quali i dati utente stanno diventando sempre più preziosi, poiché consentono di individuare quali utenti siano bersagli perfetti per pubblicità mirate.

In realtà, il data mining vero e proprio è solo uno degli step di un processo più ampio chiamato KDD (Knowledge Discovery in Databases). Questo macroprocesso consiste nella riorganizzazione dei dati all’interno di un database affinché siano pronti per essere “estratti”. Una volta selezionato il tipo di dati su cui si vuole compiere l’analisi, una volta puliti i dati da ogni tipo di rumore o ridondanza, una volta scelto l’algoritmo di estrazione migliore per lo scopo si passa all’analisi vera e propria dei dati in cerca di pattern da cui si possa estrarre un’informazione sconosciuta o verificarne una prevista.

A cosa servono le informazioni estratte da Internet?
Il tempo che passiamo in Rete potrebbe tranquillamente essere paragonato al tragitto di Pollicino nel bosco, la differenza è che noi utenti le briciole le perdiamo da tasche bucate rigonfie di pane, e dunque a nostra insaputa. Lasciamo tracce quando accediamo a un sito, quando apriamo un link, quando utilizziamo una social app, anche solo quando ci soffermiamo più del solito su una particolare immagine o pubblicità. Ogni giorno, la nostra attività in Rete lascia dietro di sè una scia di informazioni che fanno gola a decine di segugi elettronici sguinzagliati nel Web. Come è facile intuire, gran parte di queste informazioni vengono sottoposte a data mining a fini commerciali, pubblicitari per la precisione.
Dall’analisi dei dati utente è possibile reperire informazioni puntuali sulle loro tendenze di consumo e, dal confronto con il comportamento di altri utenti dai gusti simili nei confronti degli ad pubblicitari, valutare quali inserzioni possano avere maggiori chance di ottenere click.

Per approfondire:  CINECA* offre servizi di DataMining (pdf, 416KB)

*CINECA è un Consorzio Interuniversitario senza scopo di lucro formato da 54 università italiane, più l’Istituto Nazionale di Oceanografia e di Geofisica Sperimentale – OGS il Consiglio Nazionale delle Ricerche – CNR e il Ministero dell’Istruzione, dell’Università e della Ricerca – MIUR.
Feb 042013
 

L’incomprensione diffusa delle nozioni elementari della statistica è sorgente di confusione e danni per individui e società. Proposta per il prossimo governo: più teoria della probabilità nei programmi scolastici

[Carlo Rovelli]

Nell’istituto dove lavoravo qualche anno fa, una malattia rara non infettiva colpì cinque colleghi, a poco tempo l’uno dall’altro. L’allarme fu forte e si cercò la causa del problema. Pensammo ci fossero contaminazioni chimiche nei locali dell’istituto, ma non fu trovato niente. L’apprensione crebbe e qualcuno, spaventato, cercò lavoro altrove.

Una sera raccontai questi eventi a una cena, e un amico matematico si mise a ridere. «Ci sono 400 piastrelle sul pavimento di questa stanza; se lancio 100 chicchi di riso per terra – ci chiese -, troveremo cinque chicchi sulla stessa mattonella?». Rispondemmo di no: ci sarebbe stato solo un chicco ogni 4 piastrelle. Sbagliavamo: provammo molte volte a lanciare davvero il riso e c’era sempre qualche mattonella con due, tre, e anche cinque o più chicchi. Perché mai? Perché chicchi “lanciati a caso” non si dispongono in bell’ordine, a eguale distanza l’uno dall’altro. Atterrano, appunto, a caso, e ci sono sempre chicchi disordinati che arrivano su piastrelle dove sono arrivati anche altri chicchi. D’un tratto, il problema dei cinque colleghi malati prese tutt’altro aspetto. Cinque chicchi di riso sulla stessa mattonella non significano che la mattonella possieda forze attira-riso. Cinque persone malate non significano affatto che il nostro istituto fosse contaminato.

La mancanza di familiarità con le idee della statistica è molto diffusa, anche fra persone colte, e deleteria. L’istituto dove lavoravo era un dipartimento universitario. Noi professori sapientoni eravamo caduti in un grossolano errore di statistica. Ci eravamo convinti che il numero “fuori media” di malati richiedesse una causa. Avevamo confuso la media con la varianza. Qualcuno aveva addirittura cambiato lavoro, per niente. Di storie simili è piena la vita quotidiana.

Non è raro sentire un telegiornale riportare con rilievo il fatto che in un certa località la percentuale di qualcosa sia superiore alla media. La percentuale di qualunque cosa è superiore alla media in più o meno metà delle località (inferiore nell’altra metà).

Qualche anno fa gli italiani si commossero vedendo in televisione malati di cancro guariti dopo la cura Di Bella. Quale prova migliore dell’efficacia di questa cura, che non vedere guariti dei malati di tumori gravissimi? E invece era una sciocchezza. Con o senza cura, ci sono guarigioni naturali anche nei tumori più gravi. Esibire guarigioni, anche se numerose, non significa affatto che la cura abbia avuto effetto. Per sapere se la cura è efficace bisogna contare quante volte ha funzionato e quante non ha funzionato, e confrontare i risultati con quelli di malati non curati, o curati in altro modo.

Se non facciamo così, tanto vale che danziamo per fare scendere la pioggia, come facevamo nella preistoria: ci saranno sempre giorni in cui la danza è effettivamente seguita dalla pioggia, e potremo esibire questi giorni a dimostrazione dell’efficacia della nostra danza… È l’incomprensione della statistica che porta molti a stupirsi per le guarigioni a Lourdes, a curarsi con medicine fatte di acqua e zucchero, o a morire in giochi pericolosi dopo aver visto altri giocare senza farsi male.

Eviteremmo molte sciocchezze, e la società avrebbe vantaggi significativi se le idee di base della teoria della probabilità e della statistica fossero insegnate in maniera approfondita a scuola: in forma semplice nelle scuole elementari, in modo articolato nelle scuole medie e superiori. Ragionamenti di tipo probabilistico e statistico sono uno strumento della ragione potente e affilato. Non disporne ci lascia indifesi. Non avere chiarezza su nozioni come media, varianza, fluttuazioni e correlazioni, come purtroppo molti di noi non abbiamo, è un po’ come non sapere usare la moltiplicazione o la divisione.

La poca familiarità con la statistica porta a confondere la probabilità con l’imprecisione. Al contrario, probabilità e statistica sono strumenti precisi, che ci permettono di rispondere in modo attendibile a domande precise. Senza di esse non avremmo l’efficacia della medicina moderna, la meccanica quantistica, le previsioni del tempo, la sociologia… Anzi, non avremmo l’intera scienza sperimentale, dalla chimica all’astronomia. Senza la statistica avremmo idee molto più vaghe su come funzionano gli atomi, le nostre società e le galassie. È stata la statistica, solo per fare un esempio, a permetterci di comprendere che fumare fa male e l’amianto uccide.

Noi usiamo ogni giorno ragionamenti probabilistici. Prima di prendere una decisione, valutiamo la probabilità che segua questo o quello. Abbiamo un’idea del prezzo medio della benzina, e della sua varianza, cioè quanto singoli distributori si discostino dal prezzo medio. Sappiamo intuitivamente che due variabili sono correlate (i distributori più vicini al centro sono generalmente più cari). Distinguiamo fatti molto improbabili e poco improbabili: la probabilità di essere coinvolti in un disastro ferroviario è molto piccola, quindi prendiamo il treno; la probabilità di finire sotto il treno attraversando un passaggio a livello chiuso è piccola anch’essa (la maggioranza degli sconsiderati che lo fanno sopravvive) ma è sufficientemente significativa per sconsigliarci vivamente dal farlo. E ancora, capiamo bene la differenza fra coincidenze avvenute “per caso” e fatti legati “da una ragione”, eccetera. Ma usiamo queste idee in modo approssimativo, spesso commettendo errori. La statistica affina queste nozioni, ne dà una definizione precisa, e ci permette per esempio di valutare in maniera affidabile se un farmaco o un ponte siano pericolosi oppure no. Lo fa trattando in maniera quantitativa e rigorosa la nozione di probabilità.

Ma cos’è la probabilità? Nonostante l’efficacia della statistica, la natura della probabilità è questione dibattuta, e un capitolo vivace della filosofia. Una definizione tradizionale è basata sulla “frequenza”: se lancio un dado molte volte, un sesto delle volte verrà il numero uno; quindi dico che la probabilità che venga “uno” è un sesto. Questa definizione è debole. Per esempio, usiamo la probabilità anche in situazioni dove non si può ripetere la prova. Penso che ci sia buona probabilità (non certezza) che il responsabile di questo supplemento pubblichi questo articolo; ma non ha senso pensare di mandargli l’articolo molte volte, perché la seconda volta non lo pubblicherebbe di certo. Un’alternativa è l’interpretazione della probabilità come “propensione”. Un atomo radioattivo, secondo alcuni fisici, ha una “propensione” a decadere durante la prossima mezz’ora, che viene valutata esprimendo la probabilità che questo accada. Neanche questa interpretazione è molto soddisfacente: suona un po’ come le “virtù dormitive” della scolastica presa in giro da Molière nel Malato immaginario: il sonnifero ci fa dormire perché ha la virtù dormitiva e l’atomo decade perché ha la propensione a decadere.

La chiarezza sul concetto di probabilità è, a mio giudizio, il merito di un grande intellettuale italiano, forse non apprezzato in Italia quanto meriterebbe: il matematico e filosofo Bruno de Finetti (1906-1985). Negli anni Trenta del secolo scorso, de Finetti introduce l’idea che si rivela la chiave per comprendere la probabilità: la probabilità non si riferisce al sistema in sé (il dado, il responsabile della Domenica, l’atomo che decade, il tempo di domani), bensì alla conoscenza che io ho di questo sistema. Se dico che la probabilità che domani piova è uno su tre, non sto dicendo qualcosa che appartiene alle nubi, che possono essere già determinate dalla situazione attuale dei venti. Sto caratterizzando il mio grado di conoscenza-ignoranza sullo stato dell’atmosfera.

La geniale intuizione di de Finetti diventa concreta grazie a un teorema dimostrato nel diciottesimo secolo dal matematico inglese Thomas Bayes, e pubblicato per la prima volta due anni dopo la sua morte, nel 1763. Il teorema di Bayes fornisce una formula per calcolare come cambia la probabilità da attribuire a un evento, quando vengo a sapere qualcosa di più. Usando ripetutamente il teorema, le stime di probabilità soggettive convergono a una valutazione affidabile della possibilità di un evento. Pensiamo a un detective che abbia cinque sospetti. All’inizio dirà che la probabilità che ciascuno sia l’assassino è uno su cinque. Poi vari indizi renderanno maggiore la probabilità che il colpevole sia uno o un altro. La probabilità cambia perché il detective sa più cose, non perché siano cambiati i sospetti. Il teorema di Bayes, che fornisce la formula precisa per correggere la probabilità a ogni nuova informazione, ha trovato applicazioni dalla medicina alla fisica, e si pone al cuore della corrente soggettivista della filosofia della probabilità. Esso ci offre chiarezza sul significato della probabilità: la probabilità è la gestione oculata e razionale della nostra ignoranza.

Noi viviamo in un universo di ignoranza. Sappiamo tante cose, ma sono di più quelle che non sappiamo. Non sappiamo chi incontreremo domani per strada, non conosciamo le cause di molte malattie, non conosciamo le leggi fisiche ultime dell’universo, non sappiamo chi vincerà le prossime elezioni, non sappiamo cosa ci faccia davvero bene e cosa ci faccia male. Non sappiamo se domani ci sarà un terremoto. In questo mondo incerto, chiedere certezze assolute è una sciocchezza. Chi esibisce risposte certe è di solito il meno affidabile. Ma non per questo siamo nel buio. Fra certezza e totale incertezza vi è un prezioso spazio intermedio, ed è in questo spazio intermedio che si svolge la nostra vita e il nostro pensiero. Gestire queste conoscenze parziali è più facile se abbiamo idee chiare su probabilità e statistica.

Questo significa, per esempio, comprendere che una probabilità del 2%, cioè uno su cinquanta, che ci sia un terremoto all’Aquila la prossima settimana significa che è decisamente più probabile che il terremoto non avvenga, ma il rischio è lo stesso altissimo, e quindi richiede precauzioni. Nessuno si sognerebbe di prendere un aereo, se la probabilità che cadesse fosse il 2%, cioè se sapesse che in media si sfracella un aereo ogni cinquanta che partono. Il 2% è più o meno la probabilità di un evento maggiore valutata dalla Commissione Grandi Rischi prima del terremoto del 2009. In una società educata a pensare in termini statistici si potrebbe dire qualcosa di diverso che non: “Ci sarà un terremoto”, oppure “Non c’è pericolo: non ci sarà un terremoto”, oppure “Non sappiamo nulla sui terremoti”, tre alternative tutte sciocche. Sarebbe una società che non si farebbe abbindolare dai casi rari. Una società, con un potente strumento concettuale in più a disposizione. Per questo, dovremmo offrire una solida cultura di base di probabilità e statistica ai nostri ragazzi.

Articolo scritto da Carlo Rovelli, Gennaio 2013