Feb 102013
 

Il data mining è un processo di estrazione di conoscenza da una grande quantità di dati. Questa conoscenza può avere un valore enorme, a seconda della quantità di dati a disposizione e del settore di riferimento.

C’è chi sfrutta il data mining per estrarre potenziali conclusioni da una serie di dati biologicimetereologicifisici o comunque scientifici.  E naturalmente, ci sono i grandi colossi del Web, per i quali i dati utente stanno diventando sempre più preziosi, poiché consentono di individuare quali utenti siano bersagli perfetti per pubblicità mirate.

In realtà, il data mining vero e proprio è solo uno degli step di un processo più ampio chiamato KDD (Knowledge Discovery in Databases). Questo macroprocesso consiste nella riorganizzazione dei dati all’interno di un database affinché siano pronti per essere “estratti”. Una volta selezionato il tipo di dati su cui si vuole compiere l’analisi, una volta puliti i dati da ogni tipo di rumore o ridondanza, una volta scelto l’algoritmo di estrazione migliore per lo scopo si passa all’analisi vera e propria dei dati in cerca di pattern da cui si possa estrarre un’informazione sconosciuta o verificarne una prevista.

A cosa servono le informazioni estratte da Internet?
Il tempo che passiamo in Rete potrebbe tranquillamente essere paragonato al tragitto di Pollicino nel bosco, la differenza è che noi utenti le briciole le perdiamo da tasche bucate rigonfie di pane, e dunque a nostra insaputa. Lasciamo tracce quando accediamo a un sito, quando apriamo un link, quando utilizziamo una social app, anche solo quando ci soffermiamo più del solito su una particolare immagine o pubblicità. Ogni giorno, la nostra attività in Rete lascia dietro di sè una scia di informazioni che fanno gola a decine di segugi elettronici sguinzagliati nel Web. Come è facile intuire, gran parte di queste informazioni vengono sottoposte a data mining a fini commerciali, pubblicitari per la precisione.
Dall’analisi dei dati utente è possibile reperire informazioni puntuali sulle loro tendenze di consumo e, dal confronto con il comportamento di altri utenti dai gusti simili nei confronti degli ad pubblicitari, valutare quali inserzioni possano avere maggiori chance di ottenere click.

Per approfondire:  CINECA* offre servizi di DataMining (pdf, 416KB)

*CINECA è un Consorzio Interuniversitario senza scopo di lucro formato da 54 università italiane, più l’Istituto Nazionale di Oceanografia e di Geofisica Sperimentale – OGS il Consiglio Nazionale delle Ricerche – CNR e il Ministero dell’Istruzione, dell’Università e della Ricerca – MIUR.

 Leave a Reply

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

(required)

(required)