Print Friendly, PDF & Email

valigiablu

Siete pronti? Questi sono i vostri dati che i giornali online vendono sul mercato digitale

di Tommaso Tani

computer 1245714 1920 990x510I fatti a cui abbiamo assistito ultimamente suonano – almeno nei titoli delle grandi testate - con toni apocalittici, raggiungendo un livello di distopia da far sembrare 1984 un libro per bambini. Non serve riportare né i fatti né tanto meno le successive analisi – un link all'articolo di Fabio Chiusi è sufficiente per aggiornarvi su tutto. Lo scopo di questo altro pezzo invece è capire se davvero Facebook e Cambridge Analytica abbiano rappresentato l’alleanza malvagia che dal 2014 ci spia e ci manipola. In altre parole, il problema di tutto ciò è il social network di Zuckeberg? Se non ne abbiamo mai fatto parte, possiamo essere al sicuro?

La risposta, per almeno due motivi, è ovviamente no. In primis, perché, con la complicità di chiunque gestisca un sito internet, Facebook ci segue e ci studia anche se non ne facciamo parte. Ogni volta che infatti vedete un bottone blu con “Like”, potete stare certi che siete, in diversa misura ovviamente di volta in volta, tracciati dal colosso americano. Quel pulsante infatti carica del codice all’interno della pagina che gli permette di studiare i vostri dati navigazione e il vostro profilo. Da giugno 2014 infatti, Facebook raccoglie informazioni tramite quel piccolo pulsante, che ci facciate click sopra, che siate loggati o meno, poco conta.

Il secondo motivo per il quale escludendo Facebook dal gioco non potete vivere a pieno la vostra privacy è che quasi tutti i siti web più grandi su cui navigate replicano, su scala diversa ma non troppo, la facilità con cui il social network, fino al 2015, faceva fluire i dati verso soggetti terzi. E, ironia della sorte, uno dei business che più trae giovamento da questa fluidità e spensieratezza di condivisione è il settore editoriale.

Per chi non avesse colto l’ironia: mentre leggete un articolo su come Facebook ha permesso ai suoi dati di essere passati a soggetti terzi, lo stesso sito web che ospita quell’articolo sta facendo esattamente la stessa cosa. Non verso Cambridge Analytica forse, ma verso centinaia, e a volte migliaia, di compagnie simili.

 

Come funziona il tracciamento

Cerchiamo di spiegare come avviene la magia, facendo un passo indietro, ossia al momento in cui cliccate all’interno della vostra timeline di Facebook, per esempio, sull’articolo del GuardianThe Cambridge Analytica files: the story so far” (ancora, l’ironia). Tutto quello che sto per spiegare avviene nell’arco di frazioni di un secondo, da quando il vostro browser richiede la pagina al momento in cui il caricamento è completato. Noterete che oltre al contenuto in sé, nella schermata saranno presenti alcune inserzioni pubblicitarie (agli albori di Internet erano i famosi banner, poi diventati pop-up); bene, queste inserzioni non sono ovviamente casuali, ma sono state accuratamente selezionate e acquistate per essere il più precise possibile in base ai vostri interessi. Tutto il mondo della pubblicità online si basa sulla possibilità infatti di raggiungere con il proprio messaggio il target potenzialmente più interessato in modo da massimizzare l’efficacia della campagna – il cosiddetto conversion rate, ossia la percentuale di persone che, una volta fatto click sulla pubblicità, compiono un’azione determinata. Secondo la testimonianza alla House of Commons del whistleblower Christopher Wylie, i tassi di successo ottenuti da Cambridge Analytica si attestavano dal 7% al 10% – un risultato eccezionale per lo standard del settore.

Screen Shot 2018 03 30 at 17.55.15
Flussi dei dati nella pubblicità online, via PageFair

Ma come funziona la procedura di selezione delle pubblicità? Cercherò di illustrarlo con più semplicità possibile. Il sito – in questo caso theguardian.com – al caricamento della pagina raccoglie informazioni su di voi: indirizzo IP, località, la pagina che state vedendo, dettagli del vostro dispositivo e altri elementi che permettono la successiva identificazione del vostro profilo. Questo set di dati viene immediatamente (nell'ordine dei millisecondi) inviato a centinaia di broker pubblicitari o data broker. Questi sono delle compagnie che si occupano di mettere all’asta quel particolare spazio nella pagina dell’articolo che si sta caricando per la pubblicità del miglior offerente. Grazie all’insieme di tutti questi piccoli dati che vengono costantemente inviati dai siti e alla collezione di informazioni da altre sorgenti (anche offline), i broker possono costruire un vostro profilo e vendere all’inserzionista che piazza l’offerta più alta perché ritiene che voi siate il target perfetto per la sua pubblicità. In ultimo, il broker invia il contenuto vincitore dell’asta direttamente al vostro browser, senza passare fisicamente dalle infrastrutture del Guardian.

È importante notare che l’editore in questo caso, come i milioni di proprietari di siti internet, non ha alcun controllo sui destinatari di questi dati raccolti, né sul contenuto delle pubblicità. Loro si limitano infatti a inserire una porzione di codice che viene poi gestito dietro le quinte dalle compagnie dedicate.

guardianrid
Trackers su guardian.com, foto via Dan Barker (@danbarker)

 

I numeri degli editori

Ma quale è la scala di questo flusso di informazioni? È davvero paragonabile ai dati passati da Facebook? Mettiamo le cose in prospettiva: la mole di dati, la granularità e la capillarità ottenuta dal social network è difficile da eguagliare, se non da altri colossi come Google. Prendiamo come riferimento però il set “passato” a Cambridge Analytica: si parla di 50 milioni di soggetti i cui dati sono stati processati. Uno studio della FTC (la commissione federale per il commercio USA) del 2014 (ere geologiche fa, in tema di internet) riporta così:

I data broker collezionano e memorizzano un’enorme quantità di dati su quasi tutte le transazioni domestiche e commerciali degli Stati Uniti. Sui nove brokers studiati, uno specifico database contiene informazioni su 1,4 miliardi di transazioni di consumatori e oltre 700 miliardi di dati aggregati; […] Ma più importante, i brokers di dati conservano informazioni sui singoli consumatori. Per esempio, uno di questi nove memorizza 3000 singole informazioni su ciascun consumatore degli Stati Uniti.

Seppur con le dovute differenze, si può concludere che il mondo delle inserzioni pubblicitarie tramite la condivisione di dati a terze parti (i brokers) ha dimensioni non solo non trascurabili, ma talmente estese che ci si dovrebbe aspettare un clamore mediatico altrettanto grande come quello registrato per il caso CA.

Ma che parte di questo meccanismo viene sfruttato dagli editori e dai siti di notizie? In breve, una fetta enorme, così grande che dovrebbe far accedere la spia del conflitto di interessi quando il tema è la condivisione dei dati con soggetti terzi. In primis, un dato sul modello di business attuale delle testate online: secondo Doc Searls, un quarto degli introiti degli editori europei è dovuto solamente ai meccanismi descritti sopra e quindi fondamentalmente basato sulla condivisione - inconsapevole e potenzialmente illecita - dei dati personali degli utenti. Il sito theconversation.com nel novembre 2015 (dati un po’ obsoleti quindi, da ritoccare al rialzo) ha effettuato una ricerca abbastanza semplice ma efficace per capire quanti dei 100.000 siti internet più popolari elencati su Alexa, condividessero dati personali con terze parti per fini commerciali. In media, sono stati riscontrati otto tracker (i codici utilizzati per creare i profili degli utenti) per sito.

repubblica spiderrid
Trackers in azione sulla hompage di repubblica.it

Ma il risultato sorprendente è uscito fuori analizzando i 2000 siti di notizie più frequentati: la malsana abitudine di vendere (perché di questo si tratta) i dati degli utenti è più diffusa che mai. In media, ogni testata invia informazioni a 19 server di terze parti, più del doppio della media dei siti “normali”. Addirittura, sono stati registrati dei picchi di 44 server per il New York Times e 32 per il Los Angeles Times. Inoltre, il 92% trasmette dati a Google (molto probabilmente la maggior parte dei quali attraverso il servizio Analytics, ma anche tramite il suo circuito pubblicitario) e il 56% li indirizza anche verso Facebook. Proprio quei dati che poi Cambridge Analytica ha estrapolato.

Ovviamente è molto facile replicare l’indagine sulle testate Italiane, giusto per curiosità per scoprire se anche nel nostro paese si tratta di un business così affermato; e come potete immaginare, la risposta è tre, quattro, cinque volte si. Per esempio Repubblica.it, quando carichiamo l’home page, invia le nostre informazioni a 5 diverse compagnie: Kataweb (società dello stesso gruppo editoriale), Facebook (ovviamente), imrworldwide.com (gruppo The Nielsen Company), scoredcardsearch.com (un enorme data broker) e Gigya (compagnia israeliana che gestisce profili digitali, accessi e fornisce servizi utili per chi fa pubblicità online). In parte stessi tracker sono presenti sul corriere.it: Google Analytics ovviamente, ma anche di nuovo imrworldwide.com, chartbeat.com (una compagnia americana di “content intelligence” per editori), e altri servizi più prettamente tecnici per ottimizzare la navigazione degli utenti. Molto meno ovviamente dei colleghi del Guardian o del New York Times, ma probabilmente le dimensioni, il traffico e il contesto nazionale possono influire sul livello di utilizzo di queste tecnologie.

Come reazione a questa selvaggia raccolta e sfruttamento dei dati personali, molti utenti si sono iniziati a dotare negli ultimi anni di software che potessero bloccare gli intenti malevoli dei circuiti pubblicitari. Dei specifici tool parlerò subito dopo, ma per far capire quanto il business sia importante per il sistema, basta ricordare una dichiarazione di Randall Rothenberg, presidente dell’Interactive Advertising Bureau, la principale organizzazione di categoria di comunicazione e pubblicità in USA e Europa:

”Gli Ad-blocker (estensioni del browser che impediscono il caricamento della pubblicità, n.d.a.) rappresentano […] una potenziale minaccia esistenziale per il nostro settore. […] L’utilizzo di ad-blocker è una rapina, pura e semplice — una estorsione che sfrutta la disaffezione dei consumatori e distorce l’economia del capitalismo democratico.”

Leggerissimo.

Notizia di questi giorni è che Facebook, insieme agli altri accorgimenti e modifiche introdotte a tema privacy, dismetterà il programma “Partner Categories”, correntemente attivo solo negli Stati Uniti, Brasile, Francia, Germania, U.K., Australia e Giappone (qui il comunicato ufficiale). Questo permetteva (e permetterà per circa altri sei mesi) di utilizzare per le campagne pubblicitarie di Facebook anche i dati aggregati da terze parti, ovvero broker esterni. In pratica, per scegliere il destinatario di un proprio messaggio, si hanno a disposizione non solo le informazioni ricavabili dal social network (di per sé già innumerevoli), ma anche tutte quelle “importate” da altre compagnie, che possono comprendere “a puro titolo esemplificativo e non limitatamente acarte e programmi fedeltà dei vostri negozi e supermercati preferiti, acquisti fatti con le carte di credito, tenore di vita, finanziamenti richiesti etc. Questa mossa, nata in reazione allo scandalo Facebook/Cambridge Analytica, dovrebbe apportare miglioramenti alla privacy nell’ambito del social network; in ogni caso, sicuramente creerà un terremoto nell’ambito delle pubblicità digitali, probabilmente accentrando ancora di più il ruolo di Facebook, rendendolo un ecosistema impermeabile rispetto alle altre fonti di dati. (N.B. Facebook pagava i broker per poter utilizzare le loro profilazioni nel suo programma pubblicitario ma non caricava extra costi per chi comprava un annuncio).

 

Chi sono i destinatari

Ho già accennato ad alcuni dei maggiori data broker che operano anche sul mercato italiano, come Nielsen. Questo in particolare è uno dei più attivi e utilizzati a livello mondiale; il gruppo societario Nielsen Holding PLC, quotato in borsa, raggiunge numeri da oltre 6 miliardi di dollari di fatturato annuo ed è specializzato in informazione e ricerche di mercato. Tra i vari servizi offerti, forse quello più conosciuto sono le statistiche su visualizzazioni di siti e audience TV e radio. Ma il 55% circa delle entrate è dovuto alle statistiche sui consumi, ossia sugli acquisti delle persone. L’effettiva propagazione di questo gruppo industriale nella collezione dei dati a fini commerciali è davvero difficile da cogliere. Con molta approssimazione, ma senza paura di sbagliare, si può dire che Nielsen sa tutto di tutti.

Un altro broker onnipresente nelle nostre navigazioni è sicuramente Acxiom, che oltre a un nome impronunciabile può vantare quasi 2 miliardi di dollari di fatturato, accaparrandosi il 12% del mercato di marketing diretto. CNN e NYT gli hanno dedicato particolare attenzione intorno al 2012, ricostruendo le attività societarie e l’interesse della stessa Federal Trade Commission – con toni più interessati che preoccupati. Su Youtube è possibile vedere un breve servizio della CNN dal titolo per nulla allarmante “La data company che sa tutto di voi”.

In tutto ciò, come era possibile aspettarsi, anche Google non è da meno: nella classifica dei tracker più frequenti tra i siti internet più popolari, i primi 6 appartengono al colosso di Mountain View. Google Analytics, Syndication, AdServices, TagServices ma soprattutto, al secondo posto, DoubleClick: quest’ultimo servizio è stato acquisito da Google nel 2008 ed è famoso, oltre per il volume delle sue operazioni (circa 55% dei siti internet), per l’aggressività e opacità delle sue raccolte dati.

Ma la cosa che più dovrebbe spaventare dei data brokers (almeno rispetto alle raccolte dati portate avanti da Facebook), è la capacità di sondare il mondo digitale e allo stesso modo di collezionare informazioni anche da quello offline. Experian per esempio è una società Irlandese quotata in borsa che come business principale effettua verifiche dell’affidabilità creditizia dei consumatori. È una delle grandi tre in questo settore (insieme con Equifax – si, quella dell’enorme hack – e TransUnion) ed è partner del governo del Regno Unito per il sistema di verifica dei documenti e per le poste deli Stati Uniti (USPS) per gli indirizzi. Pensate insomma quanto può essere potenzialmente rischioso aggiungere a tutti i dati personali e di navigazione già collezionati, informazioni sul vostro patrimonio e sulla solvibilità.

Di aziende come queste ce ne sono a centinaia: i casi riportati sono ovviamente i più importanti. In breve, quando vedete il banner pubblicitario (ehi, magari proprio del negozio in cui siete stati ieri) di fianco all’articolo in cui si racconta di come Cambridge Analytica usava il tuo profilo, dovreste riflettere sul fatto che quella stessa pubblicità – e quell’editore – sta inviando i vostri dati a centinaia di altre società, ben più grandi e pervasive di quella coinvolta nello scandalo.

 

Cosa possiamo fare

Ma c’è una soluzione? Il ritiro collettivo in comunità Amish? Spoiler: cancellarvi da Facebook può non servire (quasi) a nulla. Prima di affrontare il magico mondo dei plugin per i vostri browser, è necessario un piccolo viaggio nell’utopia internettiana. Per questo, partiamo da un viaggio nel mondo reale, offline, della pubblicità cartacea nella buca delle lettere. In Olanda si può decidere infatti di non ricevere materiale pubblicitario al proprio indirizzo, utilizzando un vistosissimo adesivo con cui esprimere la propria preferenza riguardo a pubblicità semplice e giornali gratuiti. Scegliendo il vostro adesivo (Nee/Nee, no/no a tutti e due i tipi di comunicazione, Nee/Ja, no/si per ricevere solo i giornali) esprimete una volta sola e valida per tutti la vostra volontà di non ricevere pubblicità indesiderata. Come sarebbe bello se questo meccanismo esistesse per internet, giusto?

La notizia è che esiste, dal 2009. Si chiama “Do Not Track” ed è una tecnologia implementata a oggi in tutti i browser che invia un segnale (al momento della richiesta di una pagina web) esprimendo l’opposizione riguardo alla raccolta di dati della navigazione. I pratica, quando questo segnale viene ricevuto, tutti i tracker presenti sulla pagina dovrebbero smettere di funzionare. Nonostante appunto la vasta implementazione risalente ormai a svariati anni fa, altrettanto vasta è la politica di ignorare questa scelta dell’utente. In primis, Facebook e Google ignorano il segnale; tonnellate di altri siti web decidono di fare lo stesso. Per esempio, scorrendo la privacy policy del New York Times, si legge “non rispondiamo a segnali Do Not Track inviati dal browser”. Alcuni ovviamente lo rispettano, ma sono mosche bianche: per esempio, Medium.com non utilizza cookies per utenti non registrati con DNT attivo.

nyt 1024x416
Dalla privacy policy del New York Time

Non rimane quindi che tutelarsi con strumenti più efficaci: in principio erano gli adblocker, poi vennero i tool per bloccare tutti i tipi di tracker e script. Le prime versioni dei plugin per browser (AdBlock, uBlock, uBlock Origin) si limitavano a rimuovere dalle pagine visitate le pubblicità, migliorando la velocità di navigazione e evitando di caricare soprattutto alcune campagne contenenti pezzi di codice malevolo ed estremamente pericolose (c.d. malvertising). In reazione a ciò, in molti siti internet, soprattutto editoriali, si è diffusa l’adozione di script che rilevano la presenza di adblocker e nascondono il contenuto a chi si rifiuta di vedere anche la pubblicità, adducendo come abbiamo visto la giustificazione della necessità degli introiti pubblicitari. A nulla vale però la spiegazione che quelle parti della pagina, completamente fuori dal controllo del loro proprietario, rappresentano tutt’ora una delle più grandi minacce dal punto di vista della sicurezza - non si tratta, insomma, di nascondere le pubblicità per puri motivi estetici.

Ma questi software comunque non sono in grado di bloccare gli script e i tracker utilizzati per la raccolta dei dati di navigazione di cui avete letto profusamente in questo post. Sono allora divenuti necessari altri tool, che operano in maniera più radicale sulle pagine che visualizzate. Il più invasivo sicuramente è NoScript, un plugin che blocca il caricamento di ogni codice javascript dei siti. Per non dilungarci in noiose spiegazione tecniche, si tratta di un codice largamente utilizzato (leggi sempre) nei siti web moderni che permettono, tra le mille altre cose, abbellimenti grafici, animazioni, interattività etc. La politica di questo software è di blocco preventivo di tutto: sta poi a voi selezionare quali script far caricare perché ritenuti affidabili.

Inutile dire quanto la navigazione su internet diventi una atroce sofferenza, con siti web caricati solo nel loro contenuto testuale, fatta di continui aggiornamenti di pagina e tentativi: se non siete paranoici come me in fatto di privacy e security, probabilmente vorrete stare alla larga da questo plugin. È un po’ come diventare gli Amish del web, per riprendere la metafora precedente. Altri tool invece permetto un buon bilanciamento tra esigenze di una vita serena su internet e un certo livello di sicurezza: tra questi, Privacy Badger sviluppato da Electronic Frontier Foundation, redmorph (offre anche una rappresentazione grafica dei vari tracker, utilizzata per le immagini che trovate in questo post) e Disconnect. La scelta è un fatto di feeling personale più che altro. Se volete leggere un’analisi comparativa dei tre diversi plugin, vi consiglio questo articolo del New York Times che però, durante la lettura, invierà i vostri dati a ben 10 diverse compagnie.

Ora sì che cogliete l’ironia, vero?

N.B.: Valigia Blu non traccia i propri lettori e non ospita pubblicità alcuna. Valigia Blu utilizza soltanto dei plugin sociali, per consentire la condivisione degli articoli sui social network, e il campo commenti di Disqus, al fine di facilitare l’interazione con i nostri lettori. Il modello di business di Valigia Blu non è basato sulla vendita né sullo sfruttamento dei dati, ma sulla fiducia, l’interazione e l’ascolto dei lettori.

Add comment

Submit