mar 232014
 
Segnalibro

<<È vero che il software non potrebbe esercitare i poteri della sua leggerezza se non mediante la pesantezza del hardware; ma è il software che comanda, che agisce sul mondo esterno e sulle macchine, le quali esistono solo in funzione del software, si evolvono in modo d’elaborare programmi sempre più complessi. La seconda rivoluzione industriale non si presenta come la prima con immagini schiaccianti quali presse di laminatoi o colate d’acciaio, ma come i bits d’un flusso d’informazione che corre sui circuiti sotto forma d’impulsi elettronici. Le macchine di ferro ci sono sempre, ma obbediscono ai bits senza peso.>>

Italo Calvino, “Lezioni Americane”

feb 102013
 

Il problema della privacy in rete, come spiegato più volte (a partire dalla semplice associazione big data + data mining), è davvero preoccupante.
Il mercato non sta a guardare e viene incontro a noi cittadini con nuovi servizi (a pagamento, ovviamente), per tutelare e proteggere la nostra privacy.

Un esempio è quello offerto da Reputation.com: guarda il video MyPrivacy from Reputation.com

Tutto verosimile quanto illustrato nella prima parte: ma poi, davvero è possibile ripulire la nostra “fedina digitale”? Qualche dubbio mi rimane: andando a visitare il sito reputation.com, mi sono visto “attaccare” da ben 14 trackers (da Google a Yahoo, ma anche ClickTale, AdRoll, Quantcast, etc.)

Se il controllore è a sua volta controllato…

feb 102013
 

Il data mining è un processo di estrazione di conoscenza da una grande quantità di dati. Questa conoscenza può avere un valore enorme, a seconda della quantità di dati a disposizione e del settore di riferimento.

C’è chi sfrutta il data mining per estrarre potenziali conclusioni da una serie di dati biologicimetereologicifisici o comunque scientifici.  E naturalmente, ci sono i grandi colossi del Web, per i quali i dati utente stanno diventando sempre più preziosi, poiché consentono di individuare quali utenti siano bersagli perfetti per pubblicità mirate.

In realtà, il data mining vero e proprio è solo uno degli step di un processo più ampio chiamato KDD (Knowledge Discovery in Databases). Questo macroprocesso consiste nella riorganizzazione dei dati all’interno di un database affinché siano pronti per essere “estratti”. Una volta selezionato il tipo di dati su cui si vuole compiere l’analisi, una volta puliti i dati da ogni tipo di rumore o ridondanza, una volta scelto l’algoritmo di estrazione migliore per lo scopo si passa all’analisi vera e propria dei dati in cerca di pattern da cui si possa estrarre un’informazione sconosciuta o verificarne una prevista.

A cosa servono le informazioni estratte da Internet?
Il tempo che passiamo in Rete potrebbe tranquillamente essere paragonato al tragitto di Pollicino nel bosco, la differenza è che noi utenti le briciole le perdiamo da tasche bucate rigonfie di pane, e dunque a nostra insaputa. Lasciamo tracce quando accediamo a un sito, quando apriamo un link, quando utilizziamo una social app, anche solo quando ci soffermiamo più del solito su una particolare immagine o pubblicità. Ogni giorno, la nostra attività in Rete lascia dietro di sè una scia di informazioni che fanno gola a decine di segugi elettronici sguinzagliati nel Web. Come è facile intuire, gran parte di queste informazioni vengono sottoposte a data mining a fini commerciali, pubblicitari per la precisione.
Dall’analisi dei dati utente è possibile reperire informazioni puntuali sulle loro tendenze di consumo e, dal confronto con il comportamento di altri utenti dai gusti simili nei confronti degli ad pubblicitari, valutare quali inserzioni possano avere maggiori chance di ottenere click.

Per approfondire:  CINECA* offre servizi di DataMining (pdf, 416KB)

*CINECA è un Consorzio Interuniversitario senza scopo di lucro formato da 54 università italiane, più l’Istituto Nazionale di Oceanografia e di Geofisica Sperimentale – OGS il Consiglio Nazionale delle Ricerche – CNR e il Ministero dell’Istruzione, dell’Università e della Ricerca – MIUR.
ott 032012
 

Ho introdotto due nuovi (relativamente…) neologismi, già trattati nei precedenti articoli: Big Data e Data Mining.
Vorrei chiarire cosa sottintendono. Per ora parliamo di Big data.

<<Nel 2003 avevamo prodotto collettivamente 5 miliardi di gigabyte di dati (o exabyte). L’anno scorso questa cifra è salita a 1,8 trilioni di gigabyte (o zettabyte). Si tratta di dati prodotti dagli acquisti e dalle vendite, dai cellulari, dai nostri spostamenti (es. il telepass), dagli oltre 30 milioni di sensori istallati in città (quelli per la misurazione delle polveri sottili) o incorporati in oggetti (macchine industriali, automobili, contatori elettrici, ecc..), dalle attività svolte online.

Pensate che ogni minuto in rete vengono spedite 204 milioni di email,effettuate 2 milioni di ricerche su Google, caricate l’equivalente di 48 ore di video su YouTube, creati più di 27mila post su Tumblr e WordPress, inviati oltre 100mila tweete compiute oltre 2.2 milioni di azioni su Facebook (like, condivisioni, commenti, ecc…).

Big data è il termine che viene usato ultimamente per far riferimento a base dati che hanno alcune caratteristiche peculiari, le 3 V:

  • Volume: nel senso di ingenti quantitativi di data set non gestibili con i database tradizionali;
  • Velocity: dati che affluiscono e necessitano di essere processati a ritmi sostenuti o in tempo reale. La velocità a volte è un fattore critico per garantire la soddisfazione del cliente;
  • Variety: elementi di diversa natura e non strutturati come testi, audio, video, flussi di click, segnali provenienti da RFID, cellulari, sensori, transazioni commerciali di vario genere.

Una miniera di informazioni a disposizione delle organizzazioni che saranno in grado di acquisirli, gestirli, interpretarli. Le aziende potrebbero utilizzarli per analizzare i rischi e le opportunità di mercato, ma soprattutto per comprendere più a fondo i bisogni dei clienti, addirittura prima che questi li esprimano. Wal-Mart ha acquisito una società specializzata per monitorare i post su Facebook, Twitter, Foursquare e individuare i punti vendita da rifornire adeguatamente dei prodotti più citati.

Anche le pubbliche amministrazioni potrebbero trarre vantaggio dalla comprensione dei dati a loro disposizione. Ad esempio l’agenzia per il lavoro tedesca analizzando i dati storici sull’impiego e sugli investimenti effettuati, è riuscita a segmentare la popolazione dei disoccupati per offrire interventi mirati ed efficienti. Ciò si è tradotto in un risparmio di 10 miliardi di euro all’anno e nella riduzione del tempo impiegato per ottenere un lavoro.

Ma per ottenere questi vantaggi c’è bisogno di tecnologie sofisticate e un cambiamento culturale non indifferente. Infatti tutti questi bit sono inutili senza un investimento in risorse umane competenti che sappiano come trasformarli in informazioni utili. Il lavoro del data scientist è uno di quelli che nei prossimi anni sarà sempre più richiesto. Secondo McKinsey, nei soli Stati Uniti per poter sfruttare efficacemente le potenzialità dei big data occorrerebbero un milione e mezzo di analisti e data manager. Se le grandi organizzazioni imparano ad unire i punti delle nostre esistenze per i propri fini commerciali quali problemi potrebbero sorgere? Chi ci dice che non cedano alla tentazione di mettere in atto analisi predittive arbitrarie e discriminatorie per alcune categorie sociali?

Nella società dei dati dove la conoscenza asimmetrica, tra aziende e individui, può acuire enormemente il divario sociale, la gestione dei big data dovrebbe essere affrontata come una questione che coinvolge i diritti civili di tutti. C’è bisogno di stabilire, per tempo, nuove regole in termini di privacy, controllo e conservazione dei dati, trasparenza delle analisi, sicurezza. Alcune riflessioni e proposte in tal senso le trovate nel mio ultimo ebook che si intitola proprio “La società dei dati“.>>

Articolo scritto da Vincenzo Cosenza, Ottobre 2012

ago 102012
 

Il “social data mining” si occupa di analisi di informazioni generate dai social network.

Recentemente, Twitter ha siglato un accordo con la società inglese DataSift, la quale avrà accesso a ricerche (collegate a metadati, ovvero informazioni su luoghi, lingue, ecc.)  fino 24 mesi nel passato, per scandagliare le discussioni su un prodotto, gli umori della gente durante un avvenimento, e molto altro (per avere un’idea delle possibilità, consiglio di leggere il bel romanzo di Jeffery Deaver,  ”La finestra rotta”).
Basti pensare che lo spazio occupato dai messaggi inviati su Twitter negli ultimi due anni è pari a 22mila dvd da 4,5GB.

Ritorniamo al discordo del “big data”: un’attività che muoverà, entro la fine dell’anno, 5 miliardi di dollari e, nelle previsioni tra 5 anni, ben oltre 53 miliardi di dollari, cioè 10 volte tanto rispetto il 2012.

feb 292012
 

Partiamo dal recente caso Apple: una app (Path), presente (ora rimossa) nell’iTunes App Store, leggeva i contenuti della rubrica del dispositivo (iPhone o iPad) in cui era installata, a insaputa dell’ignaro utente. Tutte le rubriche “rubate”, venivano memorizzate in un server remoto.
Di chi era il server? Quasi di tutti: si è scoperto che ad archiviare i dati di Apple erano Twitter, Facebook, Instagram, Foursquare, a pure Google.
Al di fuori di qualsiasi controllo, sui questi server sono state archiviate decine di milioni di nominativi e relativi numeri telefonici presi dalle rubriche degli smartphone, con annesse relazioni: chi è amico di chi, quanti volte si sono chiamati, per quanto tempo.
Cosa significa questo? Che i dati sono la nuova valuta di questo millennio. Le informazioni digitali, archiviate e aggregate, costituiscono una risorsa preziosissima per chi vuol fare business su di noi, tant’è che le migliori università si stanno organizzando per istituire dei corsi sulla Data Science, ovvero una nuova scienza che insegna ad analizzare e utilizzare questi dati. I nostri dati.
Pensate che il 93% dei dipendenti Microsoft è membro di LinkedIn e che Microsoft, accedendo a queste informazioni, controlla i suoi dipendenti: sa chi non è soddisfatto dell’attuale lavoro e ne sta cercando un altro, chi si lamenta e per quale motivo.
Oppure al caso Nike Plus: la scarpa da corsa “intelligente” che registra con un sensore i percorsi e i ritmi di chi le indossa, comunicando tutto in rete, all’interno di una banca dati “dedicata” ai runners, i quali possono confrontarsi e comunicare esperienze. Ma c’è sempre il rovescio della megaglia. Ad esempio, Nike sa anche, per le grando città, quali sono i percorsi preferiti, e dove solitamente sostano i corridori. Pensate che queste informazioni farebbero gola a catene di bar, articoli sportivi, ecc.? Chi ci assicura che Nike tiene riservate queste informazioni?

 

feb 282012
 

La rete ci salverà!
Uno slogan sentito spesso, ormai divenuto estremo baluardo di rivendicazioni sulla nostra libertà, che sembra essere sempre più controllata e limitata.
Siamo davvero liberi? Le neuroscienze negano questa evidenza (ne parlerò presto in un altro articolo).
E la nostra percezione, qual è? Veramente la rete, Internet, ci salverà?
Cito solo qualche dato.
In troppi Paesi, ormai, crescono  pratiche e normative finalizzare al controllo della rete. Basti pensare alla Cina, all’Iran, al Pakistan o alla Siria, o alle zone coinvolte dalla cosiddetta Primavera Araba. 
Si penserà: ma nelle democrazie occidentali, le cose vanno meglio. Davvero? Ricordo solo la vicenda WikiLeaks, il recente annuncio di Twitter pronto alla censura di specifici tweets su base geolocalizzata, le analoghe manovre previste da Google o le annose problematiche legate alla privacy di Facebook.
Quello che sta accadendo, insomma, è che le grandi aziende presenti sulla rete (come quelle che gestiscono i social network) scendono a patti con i governi, le prime per massimizzare i propri profitti, gli altri per imporre i loro interessi.
Ognuno tragga le proprie conclusioni.

feb 062012
 

One policy, one Google experience“, è il nuovo motto di Google, con la promessa di semplificare la vita dei propri utenti.
Nella nuova policy, in vigore dal prossimo 1 Marzo, è scritto: “Il principale cambiamento è per gli utenti di Google Accounts. Le nostre nuove politiche sulla privacy mettono in chiaro che, se sei loggato, noi possiamo combinare le informazioni che tu hai fornito da uno dei nostri servizi con quelle provenienti da altri. In pratica ti tratteremo come un unico utente attraverso tutti i nostri prodotti, il che significa vivere un’esperienza più semplice e più intuitiva su Google”.
Bello? Mah, dipende dalle prospettive.
Per esempio una ricerca su Google potrebbe tener conto di quello che abbiamo detto e fatto anche su YouTube, Gmail e Google Plus.
Ma potrebbe anche accadere che, sbirciando tra il nostro calendario, mappando la nostra posizione e considerando le condizioni del traffico, Google ci ricordi che siamo in ritardo per un appuntamento.

Eppure, per qualcuno, il cambiamento non è così sottile e così soft. Per esempio, come scrive Gizmodo, forse mescolare tutte le informazioni lasciate dagli utenti di Google sui diversi servizi potrebbe servire solo a rendere gli annunci (pubblicità) consigliati molto più mirati.

Pare che tutto ciò all’Unione Europea non piaccia, tanto è che Google si è visto recapitare la presente lettera.

Intanto che fare? Suggerisco di dare uno sguardo alle robe di casa nostra. E’ appena stato presentato un nuovo interessante progetto, Volunia, un motore di ricerca tutto italiano, sviluppato da un team di ricercatori guidato da  Massimo Marchiori, noto per aver ispirato con un suo algoritmo i fondatori di Google.

Gira e rigira, BigG è sempre di mezzo!

nov 282011
 

Solo un gioco di parole? Purtroppo no.
Da tempo vado (o meglio andiamo, io e alcuni amici)  ripetendo di fare attenzione all’uso dei vari servizi che la rete ci mette a disposizione. In particolare mi riferisco ai motori di ricerca, social network e dintorni.
Come ormai è noto, dimostrato e dimostrabile, la nostra attività sulla rete viene tracciata. Sanno (chi offre  i servizi) cosa cerchiamo, quale sono i nostri interessi, le nostre preferenze, gusti, e così via, ma anche quali relazioni stabiliamo, che opinioni abbiamo, di tutto di più.
Quasi tutti questi servizi sono offerti gratuitamente: Google con il suo fantastico mondo (Google+, Youtube, …), Facebook, Twitter, Flickr, per citarne i più famosi. Quindi, molto appetibili, perchè ben fatti, semplici e funzionali,  e appunto gratuiti.
Ma davvero non “paghiamo” nulla per poterli usare? No, paghiamo eccome. Cediamo una parte, più o meno grande, della nostra identità. E cosa se ne fanno della nostra identità? La “rivendono”.
A chi e perchè? Rispondetevi da soli, basta leggere con attenzione questo grafico (date attenzione alla #1, #2, #3 e #5):
Where Does Google Make Its Money? [ infographic ]© 2011 WordStream, Inc.

In sostanza, le aziende “acquistano” la pubblicità inerente a una determinata parola chiave, impegnandosi a pagare una somma per ogni click verso il proprio sito proveniente dal link sponsorizzato; la cifra viene stabilita tramite un sistema ad asta che mette in competizione gli inserzionisti per l’acquisto di uno spazio abbinato alle keyword più ghiotte.
1. Insurance – Top Cost per Click: 54,91$
Al primo posto, incontrastate, le assicurazioni. Cinquantaquattro dollari per ogni click!
2. Loans – Top Cost per Click: 44,28$
Prestiti e mutui, per studenti e acquirenti: una delle keyword meno sorprendenti del gruppo.
3. Mortgage – Top Cost per Click: 47,12$
Le ricerche correlate alle ipoteche generano un traffico consistente, pieno di potenziali clienti.
4. Attorney – Top Cost per Click: 47,07$
Ancora avvocati, procuratori, mandatari: si conferma il trend del bisogno anche nell’ambito forense.
5. Credit – Top Cost per Click: 36.06$
Le linee di credito procurano agli inserzionisti guadagni sicuri sul lungo periodo: val bene la pena di spendere quei dollari in più.
6. Lawyer – Top Cost per Click: 42,51$
Chi cerca un avvocato su Internet spesso non è nelle condizioni di ponderare accuratamente le proprie scelte.