Ott 072016
 

Nel loro tentativo di fornire servizi su misura (insieme a notizie e risultati di ricerca), le web companies (con riferimento non solo a Google e Facebook, ma praticamente ad ogni social network e sito web che applichi tecniche di personalizzazione) ci fanno correre il rischio più che mai concreto di rimanere intrappolati in una “gabbia di filtri”, in una “bolla” che ci separa del resto del mondo (filter bubble), impedendoci l’accesso a informazioni che potrebbero stimolarci o allargare la nostra visione del mondo. Eli Pariser argomenta in modo convincente come questo rischio sia negativo per noi e per la democrazia.

 

(il video è in inglese con i sottotitoli in italiano)

Set 222016
 

Nel 2011 ho riportato un esempio di come la famosa “enciclopedia” libera possa facilmente essere manipolata per inserire contenuti dalla dubbia autenticità.

A distanza di 5 anni, la situazione è, sostanzialmente, ancora la stessa. Ne è riprova un interessante articolo (leggi il testo completo) di Nicoletta Bourbaki¹, del quale anticipo alcuini passi interessanti:

<<solo le informazioni verificabili perché accompagnate dalla fonte da cui sono tratte meritano di essere prese in considerazione. La fonte può poi dimostrarsi completamente inattendibile o parziale. Insegnare a valutare l’attendibilità delle fonti

L’analisi (elaborata da Barbara Montesi) dei due siti più frequentati dagli studenti (Wikipedia e Cronologia) delinea una situazione preoccupante. In Wikipedia si dissolve uno dei requisiti essenziali della ricerca storica: la verificabilità del dato attraverso la certezza dell’identità del suo autore. Nel web, infatti, tutti possono scrivere di storia, accreditarsi come storici: genealogisti e antiquari, cultori delle memorie familiari e storici locali, professionisti e dilettanti; si  dissolvono le tradizionali gerarchie accademiche, nasce una nuova comunità enormemente allargata fuori dall’università, dalle riviste, dalle fondazioni e dalle altre istituzioni che erano stati da sempre i «luoghi» esclusivi della ricerca.

Pure, ci sarà sempre bisogno di buoni libri e di ricerche rigorose. Qualsiasi navigazione in rete ha bisogno di questi «timoni» per essere efficace. A quei libri e a quelle ricerche si chiederà di «certificare» i siti frequentati dagli studenti, di smascherare le rappresentazioni del passato più fasulle, di fornire un ancoraggio per chi rischia di smarrirsi nel mondo piatto e uniforme del web.>>

  1. Nicoletta Bourbaki è il nome usato da un gruppo di inchiesta su “Wikipedia e le manipolazioni storiche in rete”.

 

«In tutti i casi in cui non si tratti dei liberi giochi della fantasia, un’affermazione non ha il diritto di presentarsi se non a condizione di poter essere verificata; per uno storico, se usa un documento, indicarne il più brevemente possibile la collocazione, cioè il modo di ritrovarlo, non equivale ad altro che a sottomettersi ad una regola universale di probità. Avvelenata dai dogmi e dai miti, la nostra opinione, anche la meno nemica dei “lumi”, ha perduto persino il gusto del controllo. Il giorno in cui noi, avendo prima avuto cura di non disgustarla con una vana pedanteria, saremo riusciti a persuaderla a misurare il valore di una conoscenza dalla sua premura di offrirsi in anticipo alla confutazione, le forze della ragione riporteranno una delle loro più significative vittorie»

Mark Bloch, Apologia della storia, o mestiere di storico, 1998

 

Mag 122014
 

<<Per quanto la Rete sia meravigliosamente elastica e resistente, non possiamo dimenticare che fu concepita alle origini per qualche milione di utenti al massimo, ora siamo miliardi. È un sistema che si sta avvicinando al livello di guardia, nel senso che sta raggiungendo quel limite oltre il quale potrebbe sfuggire al controllo umano. Se esistesse una scala Richter da 1 a 10 per i terremoti su Internet, quello che abbiamo subìto pochi giorni fa sarebbe a quota 11». L’esperto di crittografia Bruce Schneier ha fatto questo bilancio drammatico sul “New Yorker”, a proposito del super-virus Heartbleed. 500.000 siti violati per due anni, inclusi colossi come Twitter, Yahoo, Amazon, Dropbox, Tumblr. Centinaia di milioni di password, carte di credito, accessi bancari potrebbero essere finiti in mano a hacker, ladri, truffatori.>>

«Cerchiamo almeno di prepararci a sopravvivere per le prime 48 ore di caos e paralisi totale», è una delle esortazioni di Dennett. In quei primi due giorni forse ci giocheremmo tutto, l’umanità (almeno quella che abita nei paesi avanzati) rischierebbe di retrocedere in una sorta di Medioevo.

«La gente non si rende conto che oggi tutto dipende dalla Rete, nessuna funzione vitale può continuare se si blocca Internet. Qui negli Stati Uniti si spegnerebbero tv e cellulari, si fermerebbero bancomat, supermercati, distributori di benzina. Ecco perché il maggiore pericolo sarebbe il panico, il folle panico delle prime 48 ore, quando la gente non sa che fare, non ha notizie, non ha istruzioni, non ha mai fatto un’esercitazione per prepararsi. Occorre un piano-B per resistere le prime 48 ore, in attesa che si riattivi qualche funzione essenziale della società. Altrimenti si rischia la disperazione di massa, e dunque la disintegrazione di una civiltà».

Federico Rampini, “Se crolla Internet, estratto da “La Repubblica” del 13 aprile 2014

 

Feb 102013
 

Il data mining è un processo di estrazione di conoscenza da una grande quantità di dati. Questa conoscenza può avere un valore enorme, a seconda della quantità di dati a disposizione e del settore di riferimento.

C’è chi sfrutta il data mining per estrarre potenziali conclusioni da una serie di dati biologicimetereologicifisici o comunque scientifici.  E naturalmente, ci sono i grandi colossi del Web, per i quali i dati utente stanno diventando sempre più preziosi, poiché consentono di individuare quali utenti siano bersagli perfetti per pubblicità mirate.

In realtà, il data mining vero e proprio è solo uno degli step di un processo più ampio chiamato KDD (Knowledge Discovery in Databases). Questo macroprocesso consiste nella riorganizzazione dei dati all’interno di un database affinché siano pronti per essere “estratti”. Una volta selezionato il tipo di dati su cui si vuole compiere l’analisi, una volta puliti i dati da ogni tipo di rumore o ridondanza, una volta scelto l’algoritmo di estrazione migliore per lo scopo si passa all’analisi vera e propria dei dati in cerca di pattern da cui si possa estrarre un’informazione sconosciuta o verificarne una prevista.

A cosa servono le informazioni estratte da Internet?
Il tempo che passiamo in Rete potrebbe tranquillamente essere paragonato al tragitto di Pollicino nel bosco, la differenza è che noi utenti le briciole le perdiamo da tasche bucate rigonfie di pane, e dunque a nostra insaputa. Lasciamo tracce quando accediamo a un sito, quando apriamo un link, quando utilizziamo una social app, anche solo quando ci soffermiamo più del solito su una particolare immagine o pubblicità. Ogni giorno, la nostra attività in Rete lascia dietro di sè una scia di informazioni che fanno gola a decine di segugi elettronici sguinzagliati nel Web. Come è facile intuire, gran parte di queste informazioni vengono sottoposte a data mining a fini commerciali, pubblicitari per la precisione.
Dall’analisi dei dati utente è possibile reperire informazioni puntuali sulle loro tendenze di consumo e, dal confronto con il comportamento di altri utenti dai gusti simili nei confronti degli ad pubblicitari, valutare quali inserzioni possano avere maggiori chance di ottenere click.

Per approfondire:  CINECA* offre servizi di DataMining (pdf, 416KB)

*CINECA è un Consorzio Interuniversitario senza scopo di lucro formato da 54 università italiane, più l’Istituto Nazionale di Oceanografia e di Geofisica Sperimentale – OGS il Consiglio Nazionale delle Ricerche – CNR e il Ministero dell’Istruzione, dell’Università e della Ricerca – MIUR.
Ott 032012
 

Ho introdotto due nuovi (relativamente…) neologismi, già trattati nei precedenti articoli: Big Data e Data Mining.
Vorrei chiarire cosa sottintendono. Per ora parliamo di Big data.

<<Nel 2003 avevamo prodotto collettivamente 5 miliardi di gigabyte di dati (o exabyte). L’anno scorso questa cifra è salita a 1,8 trilioni di gigabyte (o zettabyte). Si tratta di dati prodotti dagli acquisti e dalle vendite, dai cellulari, dai nostri spostamenti (es. il telepass), dagli oltre 30 milioni di sensori istallati in città (quelli per la misurazione delle polveri sottili) o incorporati in oggetti (macchine industriali, automobili, contatori elettrici, ecc..), dalle attività svolte online.

Pensate che ogni minuto in rete vengono spedite 204 milioni di email,effettuate 2 milioni di ricerche su Google, caricate l’equivalente di 48 ore di video su YouTube, creati più di 27mila post su Tumblr e WordPress, inviati oltre 100mila tweete compiute oltre 2.2 milioni di azioni su Facebook (like, condivisioni, commenti, ecc…).

Big data è il termine che viene usato ultimamente per far riferimento a base dati che hanno alcune caratteristiche peculiari, le 3 V:

  • Volume: nel senso di ingenti quantitativi di data set non gestibili con i database tradizionali;
  • Velocity: dati che affluiscono e necessitano di essere processati a ritmi sostenuti o in tempo reale. La velocità a volte è un fattore critico per garantire la soddisfazione del cliente;
  • Variety: elementi di diversa natura e non strutturati come testi, audio, video, flussi di click, segnali provenienti da RFID, cellulari, sensori, transazioni commerciali di vario genere.

Una miniera di informazioni a disposizione delle organizzazioni che saranno in grado di acquisirli, gestirli, interpretarli. Le aziende potrebbero utilizzarli per analizzare i rischi e le opportunità di mercato, ma soprattutto per comprendere più a fondo i bisogni dei clienti, addirittura prima che questi li esprimano. Wal-Mart ha acquisito una società specializzata per monitorare i post su Facebook, Twitter, Foursquare e individuare i punti vendita da rifornire adeguatamente dei prodotti più citati.

Anche le pubbliche amministrazioni potrebbero trarre vantaggio dalla comprensione dei dati a loro disposizione. Ad esempio l’agenzia per il lavoro tedesca analizzando i dati storici sull’impiego e sugli investimenti effettuati, è riuscita a segmentare la popolazione dei disoccupati per offrire interventi mirati ed efficienti. Ciò si è tradotto in un risparmio di 10 miliardi di euro all’anno e nella riduzione del tempo impiegato per ottenere un lavoro.

Ma per ottenere questi vantaggi c’è bisogno di tecnologie sofisticate e un cambiamento culturale non indifferente. Infatti tutti questi bit sono inutili senza un investimento in risorse umane competenti che sappiano come trasformarli in informazioni utili. Il lavoro del data scientist è uno di quelli che nei prossimi anni sarà sempre più richiesto. Secondo McKinsey, nei soli Stati Uniti per poter sfruttare efficacemente le potenzialità dei big data occorrerebbero un milione e mezzo di analisti e data manager. Se le grandi organizzazioni imparano ad unire i punti delle nostre esistenze per i propri fini commerciali quali problemi potrebbero sorgere? Chi ci dice che non cedano alla tentazione di mettere in atto analisi predittive arbitrarie e discriminatorie per alcune categorie sociali?

Nella società dei dati dove la conoscenza asimmetrica, tra aziende e individui, può acuire enormemente il divario sociale, la gestione dei big data dovrebbe essere affrontata come una questione che coinvolge i diritti civili di tutti. C’è bisogno di stabilire, per tempo, nuove regole in termini di privacy, controllo e conservazione dei dati, trasparenza delle analisi, sicurezza. Alcune riflessioni e proposte in tal senso le trovate nel mio ultimo ebook che si intitola proprio “La società dei dati“.>>

Articolo scritto da Vincenzo Cosenza, Ottobre 2012