<<

LLIGALL 40. REVISTA CATALANA D’ARXIVÍSTICA · 2017

LA VIGILÀNCIA I EL CONTROL DE LA POBLACIÓ A TRAVÉS DE LA GESTIÓ, LA CONSERVACIÓ I L’EXPLOTACIÓ DE DADES MASSIVES1

Eva Mejías Alonso Consultora especialitzada en arxivística i gestió documental d’AGTIC Consulting

Avui dia, quan algú parla de l’Agència de Seguretat dels Estats Units (NSA) la conversa gira entorn de la privacitat, i amb raó. Tot i això, trobem més interes- sant parlar de la NSA com un estudi de cas a l’hora d’analitzar la ingent quantitat de dades que una organització governamental pot arribar a recollir, emmagat- zemar i tractar.

Ens trobem en una època en la qual les principals potències democràtiques del món tenen a la seva disposició diversos i efectius sistemes i mecanismes de control de comunicacions d’abast massiu i planetari, una constant que es va buscar especialment des de l’11-S i la promulgació de la controvertida als Estats Units.

192 TREBALLS DE MÀSTER AAC. Associació d’Arxivers · Gestors de Documents de Catalunya

Empreses !lials d’agències d’intel·ligència com la CIA o la NSA van desenvo- lupar fa pocs anys una nova generació d’eines tecnològiques centrades en la creació de programes de control de comunicacions electròniques i telefòniques basades en tècniques com el data mining o el processament del llenguatge natural. Parlem, com no podia ser d’una altra manera, del big data, tota una revolució també en matèria de govern i intel·ligència i la causant que els serveis d’intel·ligència siguin actualment més omnipresents que mai.

A partir de les !ltracions sobre l’espionatge massiu que el famós exanalista de la CIA, , va fer a la premsa el juny del 2013, hem pogut conèixer aquesta mena de praxis per part dels principals governs democràtics i les seves agències d’intel·ligència. Se’n va fer especial rebombori de programes de vigi- lància massiva nord-americans, com ara el PRISM, però no són, ni de bon tros, l’únic mecanisme de captura de dades existent, ni els Estats Units l’únic país implicat en la vigilància massiva de les dades de la ciutadania global.

DE QUINES AGÈNCIES D’INTEL·LIGÈNCIA PARLEM?

Poc després de les primeres !ltracions d’Edward Snowden, les Nacions Unides i l’Organització dels Estats Americans van manifestar la seva preocupació so- bre aquesta qüestió i van instar immediatament les autoritats corresponents a revisar la seva legislació i modi!car qualsevol pràctica intrusiva contra els drets humans.

Després d’aquesta manifestació,2 el Parlament Europeu (PE) va aprovar una re- solució on encarregava al seu Comitè de Llibertats Civils, Justícia i Assumptes d’Interior (LIBE) una investigació exhaustiva sobre els programes de vigilància massiva que s’havien !ltrat a la premsa. D’aquesta manera, el 21 de febrer de 2014, el LIBE presentava un informe sobre aquest punt conegut com a informe Moraes.3 L’informe Moraes arribava a les conclusions següents: ›Es veri!ca l’existència de programes secrets tecnològicament molt avançats de vigilància massiva. ›Es vulneren els drets fonamentals de tots els ciutadans per mitjà d’ac- cions indiscriminades d’espionatge sense basar-se en sospites, tractant qualsevol ciutadà com a potencial sospitós.

LA VIGILÀNCIA I EL CONTROL DE LA POBLACIÓ A TRAVÉS DE LA GESTIÓ, LA CONSERVACIÓ... 193 LLIGALL 40. REVISTA CATALANA D’ARXIVÍSTICA · 2017

›Les motivacions de la vigilància estan allunyades de la seguretat nacional i de la lluita antiterrorista. ›Hi ha proves sobre la implicació en l’espionatge massiu de les principals empreses d’Internet i de telecomunicacions del món. ›Es veri!ca la implicació d’una gran quantitat d’agències de països mem- bres de la Unió Europea, concretament dels que formen part dels Nou Ulls i dels Catorze Ulls.

Els Nou Ulls i els Catorze Ulls tenen la seva arrel en la formació inicial, coneguda com a Cinc Ulls, un acord de col·laboració que es va acabar d’establir a la dèca- da dels anys cinquanta format pels serveis d’intel·ligència de senyals dels Estats Units, el Regne Unit, Canadà, Austràlia i Nova Zelanda. Els Cinc Ulls tenen una sèrie d’aliats que comparteixen o col·laboren en projectes conjunts, on trobem els Nou Ulls i els Catorze Ulls. › Nou Ulls: membres dels Cinc Ulls més les agències d’intel·ligència de senyals de Dinamarca, França, Països Baixos i Noruega. › Catorze Ulls: membres dels Nou Ulls més les agències d’intel·ligència de senyals d’Alemanya, Bèlgica, Itàlia, Espanya i Suècia.

Per fer-nos una idea de la importància d’aquestes associacions, val a dir que, segons fonts com RT,4 els Cinc Ulls tenen la capacitat de controlar al voltant del 90 % del trà!c de comunicacions d’Internet.

Un cop determinades les agències d’intel·ligència nord-americanes i europees implicades en l’escàndol de la vigilància massiva, cal passar al gruix de la qües- tió: com recopilen totes aquestes dades? Com les tracten? A on les conserven i com ho fan? Com les analitzen?

ENTRADA I RECOPILACIÓ DE DADES ALS SISTEMES

El primer pas a l’hora de respondre a totes aquestes qüestions és determinar quina mena de dades són susceptibles d’interès. Si tenim en compte els posi- cionaments que mostren sobre aquest tema agències com la NSA o l’agència anglesa GCHQ, això és fàcil de determinar: tot. De fet, el lema és recollir-ho tot en tot moment.

194 TREBALLS DE MÀSTER AAC. Associació d’Arxivers · Gestors de Documents de Catalunya

En termes generals, aquest «tot» es podria dividir en dos tipus d’informació: contingut i metadades. És important fer aquesta distinció, ja que quan va sorgir l’escàndol públic a partir de les !ltracions de Snowden, el govern dels Estats Units va insistir vehementment que bona part de les seves pràctiques de vigi- lància se centraven només en la recollida de metadades, no de contingut, i va donar a entendre que era un tipus d’espionatge poc intrusiu. La realitat, però, és que la intercepció de metadades és una pràctica bastant més intrusiva que la de continguts.

Com ja sabem, les metadades són dades nítides i precises i, el més important en aquest cas, són fàcils d’analitzar, molt més que no pas l’anàlisi de continguts. Les metadades no estan subjectes a les restriccions de les dades de contin- guts i poden informar de moltes més coses relatives a costums, associacions, patrons de comportament, rutines, relacions, aptituds... Permeten no tan sols obtenir informació sobre més persones, sinó també assabentar-se de fets i pa- trons nous dels quals no s’hauria conegut res si l’espionatge s’hagués limitat a la recollida de contingut.

Un cop aclarit aquest punt, cal preguntar-se quins mecanismes permeten la recopilació massiva de les nostres dades. En aquest sentit, hem dividit la mane- ra de dur a terme la recopilació de dades en quatre blocs: intercepció, cessió, compra i col·laboració.

INTERCEPCIÓ

La recopilació de dades a través de la intercepció fa referència a l’ús de meca- nismes tecnològics capaços d’interceptar i recol·lectar grans conjunts de dades procedents de qualsevol font, normalment dels centres de dades de les grans empreses d’Internet i dels cables submarins de !bra òptica. Són els anomenats programes de vigilància massiva (PVM), entre els quals destaca especialment el PRISM, molt famós a causa del tracte que va rebre per part de la premsa.

Si tenim en compte tota la informació sobre els PVM que va ser divulgada en mitjans de comunicació de tot el món i el contingut de l’informe Moraes, es pot determinar que els més destacables a l’hora d’interceptar dades privades a es- cala global són els que apareixen a la taula següent:

LA VIGILÀNCIA I EL CONTROL DE LA POBLACIÓ A TRAVÉS DE LA GESTIÓ, LA CONSERVACIÓ... 195 LLIGALL 40. REVISTA CATALANA D’ARXIVÍSTICA · 2017

Figura 1. Principals PVM utilitzats en la recaptació de dades. Font: Eva Mejías, 2016.

CESSIÓ

La recopilació de dades per mitjà de la cessió fa referència a totes aquelles dades que cedeixen a les agències voluntàriament o per obligació les grans empreses d’Internet i de telecomunicacions. En aquest cas, destaca especial- ment l’empresa de telecomunicacions Verizon, que va ser obligada mitjançant una ordre judicial a entregar a la NSA totes les dades relacionades amb els seus clients nord-americans.

Si bé és cert que no se sap amb seguretat si les grans empreses d’Internet, com Google, Apple o Microsoft, van consentir voluntàriament la cessió de les dades dels seus clients a agències d’intel·ligència com la NSA, sí que sembla que és certa una col·laboració més silenciosa en forma de backdoors als seus propis sistemes.5 Un backdoor és un mecanisme que permet inserir vulnerabilitats en un programari d’encriptació per accedir a informació protegida.

De totes maneres, més enllà de les grans empreses de serveis d’Internet, en aquest punt són les empreses de telecomunicacions les que tenen el paper principal. Es té constància de l’existència d’una sèrie de programes de la NSA pensats especialment per recopilar informació a través dels mitjans de les em-

196 TREBALLS DE MÀSTER AAC. Associació d’Arxivers · Gestors de Documents de Catalunya

preses de telecomunicacions. Són programes pertanyents a un grup conegut com a .

Mitjançant els programes d’Upstream, la NSA treu pro!t de l’accés que certes empreses de telecomunicacions tenen a sistemes de comunicacions interna- cionals. L’agència disposa d’un conjunt de contractes amb les empreses en qüestió, per mitjà dels quals desvien les dades dels seus cables de !bra òptica als centres de dades de la NSA. Són programes capaços d’interceptar tant in- formació telefònica (DNR) com informació procedent d’Internet (DNI). No poden emmagatzemar o conservar les dades que intercepten, però sí que poden per- metre l’accés a aquestes dades a temps real.

En aquest cas, l’agència d’intel·ligència que destaca sobre la resta és l’anglesa GCHQ. Tal com va anunciar el diari The Guardian6 l’agost del 2013, les principals empreses de telecomunicacions del món col·laboren amb l’agència i li atorguen accés il·limitat a les seves xarxes de cables submarins. L’article identi!ca con- cretament les empreses de telecomunicacions BT, Verizon, Vodafone, Global Crossing, Level 3, Viatel i Interoute. En conjunt, aquestes set grans empreses operen la major part dels cables de !bra òptica submarins que componen la columna vertebral de l’arquitectura d’Internet. Així mateix, l’article a!rma que el mateix diari va tenir accés a una sèrie de documents que revelaven que algunes d’aquestes empreses de telecomunicacions també van donar accés a cables que no són de la seva propietat o que no operen elles mateixes.

COMPRA

Gran part dels pressupostos de les agències d’intel·ligència van a parar a con- tractistes i empreses de ciberseguretat, un sector econòmic de grans propor- cions. A !nals de l’any 2011, Wikileaks va !ltrar una sèrie de documents sota la col·lecció Spy!les7 sobre els contractistes d’intel·ligència. A partir de tota aquesta documentació, un important grup d’investigadors de la Universitat de Toronto anomenat Citizen Lab8 va desenvolupar diversos estudis sobre aquesta qüestió, igual que Reporters sense Fronteres,9 en els quals s’analitzaven dues grans empreses especialitzades en el desenvolupament de solucions i tecnolo- gies de vigilància: Gamma International i Hacking Team.

Gamma International comercialitza un programari de vigilància i espionatge ano- menat FinFisher, amb presència en més de 35 països, entre els quals destaquen

LA VIGILÀNCIA I EL CONTROL DE LA POBLACIÓ A TRAVÉS DE LA GESTIÓ, LA CONSERVACIÓ... 197 LLIGALL 40. REVISTA CATALANA D’ARXIVÍSTICA · 2017

els Estats Units i un gran nombre de països membres, com ara Àustria, Alema- nya, Bulgària, República Txeca, Estònia, Lituània, Letònia, Hongria, Holanda, Romania i el Regne Unit.

Per la seva banda, els productes d’espionatge de Hacking Team tenen presèn- cia en més de 20 països, on destaquen alguns països membres, com ara Itàlia, Hongria i Polònia.

COL·LABORACIÓ ENTRE AGÈNCIES

Quan van sortir a la llum pública els documents !ltrats per Snowden, la premsa va incidir considerablement en una sèrie de diapositives que parlaven sobre un programa d’anàlisi de la NSA anomenat . En aquestes diapositives sortien diverses grà!ques que indicaven el nombre de metadades telefòniques que la NSA havia recopilat entre el desembre del 2012 i el gener del 2013 de múltiples països membres, com ara França, Espanya, Itàlia i Alemanya.

En un primer moment, la interpretació dels mitjans de comunicació va ser la de pensar que la NSA havia recopilat aquesta informació a través d’algun dels seus PVM. En canvi, mesos després, el llavors director de la NSA, Keith Alexander, va a!rmar que aquelles metadades no van ser recopilades per la NSA o l’agència anglesa, sinó que ho van fer les mateixes agències de cadascun dels països que apareixien a les diapositives i que posteriorment van compartir les dades amb la NSA.10

A banda d’aquest cas, hi ha moltes evidències que con!rmen l’existència de múltiples col·laboracions entre agències europees amb la NSA a l’hora de com- partir dades de ciutadans. A més de l’agència d’intel·ligència anglesa GCHQ, que és el coprotagonista de l’escàndol de la vigilància massiva, les col·laboraci- ons que més destaquen són les de les agències d’intel·ligència d’Alemanya, de França i d’Espanya.

En el cas d’Espanya, la intrusió de la NSA a la vida quotidiana dels espanyols va ser fruit de la cooperació entre la NSA i el Centre Nacional d’Intel·ligència (CNI), atès que el CNI va ajudar la NSA a intervenir més de 60 milions de trucades te- lefòniques només entre el desembre del 2012 i el gener del 2013.11

198 TREBALLS DE MÀSTER AAC. Associació d’Arxivers · Gestors de Documents de Catalunya

Si aprofundim en el tema, en un article12 de la periodista Magda Bandera per a la revista Playboy l’any 2003, s’a!rmava que l’expresident nord-americà George Bush va oferir el 2001 al llavors president d’Espanya José María Aznar compartir la xarxa d’intel·ligència Echelon, un fet con!rmat dos anys abans pel diari .13 Fins a les !ltracions d’Snowden, Echelon era considerada la xarxa més gran d’espionatge massiu de la història. Cal destacar que el PVM PRISM formava part de la xarxa Echelon, de manera que cal tenir en consideració la possibilitat que l’agència espanyola va tenir al PRISM o hi tingui accés.

PROCESSAMENT, EMMAGATZEMATGE I ANÀLISI DE LES DADES

Un cop hem pogut conèixer com es recopilen totes les dades procedents d’In- ternet i de les xarxes telefòniques, cal preguntar-se quin és el procés que se- gueixen aquestes dades !ns a acabar sent conservades i analitzades en una base de dades. Per explicar-ho, ens hem !xat exclusivament en els processos documentats de la NSA, ja que de la resta d’agències no hi ha cap mena d’in- formació relacionada disponible o accessible. Tot i que la NSA és considerada l’agència d’intel·ligència més potent del món, amb un pressupost que sobrepas- sa exageradament el que reben la resta d’agències aquí esmentades, el procés relatiu al processament, l’emmagatzematge i l’anàlisi de les dades serveix per poder fer-nos una idea general de com poden fer tot això la resta d’agències.

DE L’EXTRACCIÓ A L’EMMAGATZEMATGE

El procés des que s’extreuen les dades !ns que s’emmagatzemen en una base de dades de!nitiva és, en essència, el següent: 1. Automatització del trà!c de dades 2. Filtratge i classi!cació de les dades 3. [Només per a metadades] Processament de les metadades 4. [Només per a metadades] Base de dades intermèdia d’encadenament de metadades 5. Emmagatzematge a la base de dades de!nitiva

LA VIGILÀNCIA I EL CONTROL DE LA POBLACIÓ A TRAVÉS DE LA GESTIÓ, LA CONSERVACIÓ... 199 LLIGALL 40. REVISTA CATALANA D’ARXIVÍSTICA · 2017

En cas que la recol·lecció de les dades la faci un tercer, com una empresa de telecomunicacions, el procés és pràcticament el mateix, amb la diferència que abans d’arribar al !ltratge i la classi!cació de les dades és necessari encriptar i transferir la informació a l’agència destinatària.

1. Automatització del trà%c de dades / transferència encriptada

Si la recol·lecció de les dades la fa la mateixa agència, tenim a tall d’exemple en aquest primer pas el sistema Printaura de la NSA, que s’encarrega d’automa- titzar tot el trà!c de dades que prové del PVM PRISM. Concretament, Printaura distribueix el ;ux de dades en funció de si són dades de veu, text, vídeo o me- tadades, i assigna les tasques especí!ques que ha de seguir el sistema al llarg de tot el procés.

Si la recol·lecció la fa un tercer, el primer pas és la transferència de les dades a l’agència destinatària. En aquest cas, tenim a tall d’exemple el programa Mailor- der, encarregat de transferir les dades de manera encriptada.

2. Filtratge i classi%cació

En aquest cas destaquen programes com ara Courierskill i Scissors. El primer és un sistema que actua de !ltre i que selecciona només aquelles dades de tipus contingut que són d’interès per fer-ne l’anàlisi posterior. Les dades que el programa considera rellevants passen a la fase següent, i la resta es rebutgen.

A Scissors, per la seva banda, el trobem en el procés que segueix la informació provinent de PRISM. Després que les dades passin per Printaura, van a parar a Scissors, que els dona un format inicial i les classi!ca segons les seves caracte- rístiques per determinar en quina base de dades s’hauran de conservar.

3. [Només per a metadades] Processament de les metadades

Totes les dades recol·lectades que siguin metadades passen després per dos programes en funció de la seva procedència: Fallout i Fascia. La NSA de!neix Fallout com a ingest processor. No estem segurs del signi!cat del terme, però cercant-ne informació, hem trobat un plug-in d’Apache14 anomenat ingest attac- hment processor que sembla que és molt similar. Tenint en compte aquest plug- in, podríem aventurar-nos a de!nir Fallout com una mena de sistema conversor que proporciona a les metadades un format comú i fàcil de llegir. D’aquesta ma-

200 TREBALLS DE MÀSTER AAC. Associació d’Arxivers · Gestors de Documents de Catalunya

nera, les metadades es poden bolcar a una base de dades de!nitiva en formats llegibles, tant per la màquina com pels analistes.

Fascia és exactament el mateix tipus de programa, amb la diferència que, men- tre que Fallout rep només metadades procedents d’Internet, Fascia rep les pro- cedents de trucades i missatges de text.

4. [Només per a metadades] Base de dades intermèdia

Després d’haver donat a les metadades uns formats llegibles, passen a una base de dades intermèdia, com per exemple Mainway, de!nida per la NSA com a chaining database. Mainway emmagatzema metadades telefòniques i me- tadades de correus electrònics i estableix relacions entre ambdós tipus. Per exemple, relaciona un número de mòbil amb un compte de correu electrònic.

És a dir, Mainway permet a un analista identi!car cadenes de comunicació que ;ueixen per diferents xarxes de telecomunicacions. És un sistema que, bàsica- ment, dona context a dades que per si soles no tenen cap sentit. Un detall curiós sobre això és que, pel que sembla, només s’emmagatzemen aquests vincles, ja que les metadades per si mateixes es conserven en bases de dades de!nitives.

5. Emmagatzematge a la base de dades de%nitiva

La NSA té un centenar de bases de dades dedicades a emmagatzemar i conser- var les dades recopilades en funció de la seva tipologia, característiques o pro- cedència. No hi ha gaire informació sobre aquest punt, de manera que la seva capacitat d’emmagatzematge i el període de conservació de les dades són, en la majoria dels casos, desconeguts. De totes maneres, algunes de les bases de dades més conegudes i destacades gràcies a la seva aparició en els mitjans de comunicació són les següents:

LA VIGILÀNCIA I EL CONTROL DE LA POBLACIÓ A TRAVÉS DE LA GESTIÓ, LA CONSERVACIÓ... 201 LLIGALL 40. REVISTA CATALANA D’ARXIVÍSTICA · 2017

Figura 2. Bases de dades de la NSA. Font: Eva Mejías, 2016.

Tot i no disposar de cap mena d’informació tècnica sobre aquesta qüestió, es pot suposar que aquestes bases de dades són del tipus NoSQL si tenim en compte l’enormitat de dades desestructurades que han de processar.

Una altra qüestió destacable és que, probablement, la majoria d’aquestes bases de dades tenen la capacitat d’interactuar entre si per garantir la recuperació completa dels resultats. Una prova d’això la podem trobar en un dels documents !ltrats per Snowden, on hi ha un manual d’usuari15 sobre les dades recopilades de Skype a través del PVM PRISM. En aquest manual es mostra la interacció que es produeix entre les bases de dades Pinwale i Nucleon. Pinwale té un sis- tema que permet veure associacions, en aquest cas contingut relacionat allotjat a Nucleon, i viceversa. D’aquesta manera, un analista pot veure una conversa de Skype a Pinwale i escoltar l’àudio de la trucada corresponent a Nucleon.

A continuació, per fer-nos una idea més clara de tots els passos descrits ante- riorment, ens !xarem en dos exemples de ;uxos de dades de la NSA documen- tats: el ;ux de les metadades recol·lectades per tercers i el ;ux que segueixen les dades recollides per PRISM.

202 TREBALLS DE MÀSTER AAC. Associació d’Arxivers · Gestors de Documents de Catalunya

Figura 3. Flux de les metadades recol·lectades per tercers. Font: Electrospaces, 2014.

Aquesta !gura ens mostra el ;ux general que segueixen aquelles metadades que han estat recol·lectades per socis i proveïdors de la NSA. El procés és el següent: 1. Les empreses de telecomunicacions associades i els proveïdors del PVM PRISM transfereixen les metadades recol·lectades a Mailorder, el sistema encarregat de transferir la informació de forma encriptada als repositoris de la NSA. 2. Un cop a mans de la NSA, les metadades procedents d’Internet són ab- sorbides per Fallout, i les procedents de sistemes de telefonia, per Fascia, els dos sistemes encarregats de proporcionar-los formats llegibles.

LA VIGILÀNCIA I EL CONTROL DE LA POBLACIÓ A TRAVÉS DE LA GESTIÓ, LA CONSERVACIÓ... 203 LLIGALL 40. REVISTA CATALANA D’ARXIVÍSTICA · 2017

3. Les metadades s’emmagatzemen temporalment a Mainway per poder establir relacions entre si abans que passin a ser emmagatzemades en diferents bases de dades. 4. Finalment, en funció de la seva tipologia, les metadades passaran a em- magatzemar-se en bases de dades de!nitives. Per exemple, si són meta- dades procedents de trucades telefòniques realitzades amb mòbils s’em- magatzemaran a Association, i si són metadades procedents d’Internet s’emmagatzemaran a Marina.

Figura 4. Flux de dades al PVM PRISM. Font: edwardsnowden.com, 2015.

5. La Unitat Tecnològica d’Intercepció de Dades (DITU) de la FBI és l’òr- gan encarregat de recol·lectar les dades procedents dels proveïdors del PRISM (Google, Microsoft, Facebook, Yahoo!, etc.). 6. La DITU transfereix a la NSA aquestes dades interceptades, que passen en primera instància pel sistema Printaura per automatitzar el trà!c de dades, és a dir, per distribuir i assignar tasques automàticament. 7. Totes les dades anomenades selectors forts (números de telèfons, adre- ces IP, direccions de correu electrònic, noms d’usuari...) que són detecta-

204 TREBALLS DE MÀSTER AAC. Associació d’Arxivers · Gestors de Documents de Catalunya

des per Printaura passen automàticament a la base de dades Traf!cthief. La resta van a parar al sistema Scissors. 8. Un cop a Scissors, les dades es classi!quen per establir a quina base de dades s’hauran d’emmagatzemar. 9. Les dades passen llavors a una unitat anomenada Protocol Explotation, de la qual no hi ha cap mena d’informació. Per tant, desconeixem què és el que es fa amb les dades en aquesta fase, tot i que pel que sembla des d’allà es redirigeixen a diferents sistemes depenent de si són dades de contingut, de veu o metadades. 10. Si són metadades, passen a processar-se a Fallout, que els proporciona formats llegibles i les envia a Mainway per establir les relacions existents entre si abans d’enviar-les a la base de dades de!nitiva Marina. 11. Si són dades de veu, es processen a través de Conveyance, l’equivalent a Fallout, que després d’haver-los donat formats llegibles les passa a la base de dades especialitzada en dades de veu Nucleon. 12. En cas que la informació sigui de tipus contingut, torna al sistema Scis- sors, probablement per precisar més la seva classi!cació, i d’allà passa a emmagatzemar-se en bases de dades de!nitives com Pinwale.

ANÀLISI DE LES DADES

A l’hora d’analitzar les dades, la NSA disposa de diversos sistemes integrats a les seves bases de dades que permeten cercar, monitorar, encreuar i acarar diferents tipus de dades allotjades en múltiples bases de dades. També dispo- sa de programes que analitzen grans conjunts de dades d’una manera visual i senzilla, com és el cas dels programes analítics Boundless Informant i Uni!ed Targeting Tool (UTT).

D’una banda, Boundless Informant és un programari analític que permet donar coherència i ordre al monitoratge de metadades. Les divideix en funció d’uns patrons assignats per l’analista per oferir un panorama exacte del que s’està investigant en un país concret. Proporciona informació molt detallada, com ara la quanti!cació de totes les trucades telefòniques i de tots els correus electrò- nics recollits i emmagatzemats cada dia a tot el món. Bàsicament, Boundless Informant proporciona respostes a les qüestions següents:

LA VIGILÀNCIA I EL CONTROL DE LA POBLACIÓ A TRAVÉS DE LA GESTIÓ, LA CONSERVACIÓ... 205 LLIGALL 40. REVISTA CATALANA D’ARXIVÍSTICA · 2017

›Quants registres ha recol·lectat una unitat determinada en un període de temps concret d’un país especí!c? ›Hi ha alguna tendència visible? ›Quins actius es recullen d’un país concret i de quina mena són? ›Quin és el camp de visió d’un lloc en concret i de quin tipus són?

D’altra banda, UTT és un programari analític que selecciona objectius concrets per vigilar-los, majoritàriament persones físiques. El programa és capaç de !ltrar la informació segons la nacionalitat, la localització i l’extensió (per exemple, di- plomàtic). Disposa d’una categoria anomenada «intel·ligència del propòsit de la informació» on l’analista pot especi!car una àrea geopolítica, un tema i un sub- tema. Dona també l’opció de poder establir la freqüència amb la qual es vol que es transmeti nova informació sobre l’objectiu vigilat. Hi ha un camp anomenat «Special Authorization» que serveix per vigilar objectius que requereixin ordres judicials, com ara ciutadans nord-americans o estrangers residents als Estats Units. A més, el programari és capaç d’atendre consultes sense la necessitat que el nom de l’objectiu sigui conegut.

A més d’aquests dos programaris analítics, es coneix l’existència d’un sistema anomenat Elegantchaos que es menciona de passada en algunes diapositives !ltrades de la NSA sobre el PRISM. Suposadament, és un sistema d’anàlisi de dades a gran escala, però per desgràcia no se’n sap res més. Tot i això, la peça clau de l’anàlisi de dades als sistemes de la NSA sembla que és un programa anomenat Accumulo, una enorme base de dades molt similar a la BigTable de Google.

Com la BigTable, Accumulo és una base de dades NoSQL de tipus Key/value i orientada a columnes, però amb més prestacions i amb un nivell de seguretat molt més elevat, !ns al punt de controlar accessos a l’àmbit de cel·la. Pot ca- tegoritzar totes i cadascuna de les dades que rep, a més de trobar connexions entre tota classe de dades aparentment no relacionades. Agrupa conjunts de dades relacionades entre si amb una gran e!ciència i permet descobrir informa- ció útil que d’una altra manera hauria estat pràcticament impossible. A més, el sistema aprèn automàticament (machine learning), disposa d’un potent progra- mari de processament de llenguatge natural i s’allotja en un núvol d’escalabilitat horitzontal.

Què vol dir tot això? Vol dir que Accumulo pot identi!car patrons complexos entre tot el mar de dades que té, preveure comportaments futurs i fer anàlisis de

206 TREBALLS DE MÀSTER AAC. Associació d’Arxivers · Gestors de Documents de Catalunya

sentiments per determinar possibles reaccions, i està allotjat en un sistema que, com més dades té, més augmenta el seu rendiment.

Una de les peces més importants és la seva capacitat d’aprenentatge automàtic i de processament del llenguatge natural. Gràcies a aquestes característiques, el sistema és capaç de readaptar-se constantment, reajustar-se automàticament per millorar el seu rendiment, actualitzar consultes de cerca, interpretar dades o frases ambigües i identi!car objectes en imatges digitals. Ofereix, a més, una interfície amigable per als analistes, interfícies especials per analitzar estadísti- ques i una gran quantitat de sistemes de cerca, entre les quals s’inclouen les cerques i recuperacions de grafs.

És important destacar que Accumulo es pot adquirir a través de Sqrrl Enterprise, un fet que indica una alta probabilitat que altres agències d’intel·ligència utilitzin també aquest sistema adaptat a les seves necessitats, com la NSA.

CONCLUSIONS

La primera conclusió a què es va arribar en !nalitzar el treball de !nal de màs- ter al qual correspon aquest article va ser poder con!rmar una de les hipòtesis inicials: un centre de dades pot ser considerat un arxiu. En aquest article, s’han tractat els diversos processos de gestió que intervenen als centres de dades de les agències d’intel·ligència, prenent com a referència els de la NSA. Com en un arxiu, les dades d’un centre de dades són rebudes i produïdes per persones físiques i jurídiques, públiques o privades, i són fruit de les seves activitats. Així mateix, un centre de dades és al seu torn l’encarregat de gestionar totes aques- tes dades i l’espai on es conserven, igual que l’arxiu.

A més, els processos documentals que segueixen els centres de dades de les agències són perfectament extrapolables als d’un arxiu digital. Si bé l’origen de les dades i les tecnologies emprades són, evidentment, diferents, en ambdós sistemes es produeix una entrada categoritzada de dades, una gestió de dades i un emmagatzematge que disposa de determinades polítiques d’accés, segu- retat i conservació que permeten la recuperació de les dades.

D’altra banda, podem establir que les tecnologies utilitzades als diferents pro- cessos de gestió documental presentats són els màxims exponents tecnològics

LA VIGILÀNCIA I EL CONTROL DE LA POBLACIÓ A TRAVÉS DE LA GESTIÓ, LA CONSERVACIÓ... 207 LLIGALL 40. REVISTA CATALANA D’ARXIVÍSTICA · 2017

del big data. En aquest sentit, destaquen especialment els programes d’extrac- ció, intercepció i recol·lecció de dades de la NSA i de l’agència anglesa GCHQ, que, com s’ha pogut veure, són extremadament complexos i posseeixen un abast mundial. De la mateixa manera, destaquen bases de dades tan impac- tants com Accumulo o el sistema de relacions entre el centenar de bases de dades de la NSA que permeten relacionar i encadenar dades dispars allotjades en diferents sistemes.

Les tecnologies big data, sense cap mena de dubte, aporten múltiples bene!cis a les organitzacions que sàpiguen com gestionar aquestes eines correctament. Les dades actuals parlen, i, avui dia, si una organització no fa ús d’aquests sistemes no pot aspirar a competir amb altres empreses del sector que sí que en fan ús. Sabem que la big data ha signi!cat una revolució en la gestió de les dades i que ha comportat la creació de nous llocs de treball i noves oportunitats per a tota mena de sectors en el mercat. Però no convé oblidar que també sa- bem que la big data pot arribar a ser la tecnologia més intrusiva de la història i la responsable de la desaparició de la privacitat de les dades dels ciutadans de tot el món.

NOTES

1 Aquest article és una part del treball !nal del Màster d’arxivística i gestió de documents de l’ESAGED, codirigit per Joan Soler i defensat el setembre del 2016. El treball original es pot consultar íntegrament a l’enllaç següent: posar [Consulta: 20 d’abril de 2016].

2 ORGANITZACIÓ DELS ESTATS AMERICANS. Declaración conjunta sobre programas de vigilancia y su impacto en la libertad de expresión [en línia]. Washington DC: OEA, 2013 Disponible a: [Consulta: 20 d’abril de 2016].

3 COMISSIÓ DE LLIBERTATS CIVILS, JUSTÍCIA I AFERS D’INTERIOR. Informe so- bre el programa de vigilancia de la Agencia Nacional de Seguridad de los EEUU, los ór- ganos de vigilancia en diversos Estados miembros y su impacto en los derechos fun- damentales de los ciudadanos de la UE y en la cooperación transatlántica en materia de Justicia y Asuntos de Interior [en línia]. Parlament Europeu, 2013. Disponible a: [Consulta: 24 d’abril de 2016].

4 RT. «El objetivo del ‘Club de los Cinco Ojos’ es “la supremacía económica sobre otros países”». RT, 2013 [en línia]. Disponible a: [Consulta: 15 de maig de 2016].

5 GREENWALD, Glenn; BALL, James; BORGER, Julian. «Revealed: how US and UK spy agencies defeat internet privacy and security». The Guardian, 2013 [en línia]. Disponible a: [Consulta: 21 de juny de 2016].

208 TREBALLS DE MÀSTER AAC. Associació d’Arxivers · Gestors de Documents de Catalunya

6 BALL, James; HARDING, Luke; GARSIDE, Juliette. «BT and Vodafone among telecoms compa- nies passin details to GCHQ». The Guardian, 2013 [en línia]. Disponible a:

7 WIKILEAKS. The spy $les [en línia]. WikiLeaks, 2011. Disponible a: [Consulta: 15 de juliol de 2016].

8 THE CITIZEN LAB. For Their Eyes Only: The Commercialization of Digital Spying [en línia]. Toronto: Munk School of Global Affairs, University of Toronto, 2013. Disponible a: [Consulta: 15 de juliol de 2016].

9 REPORTERS SENSE FRONTERES. Enemies of the Internet. 2013 Report [en línea]. Pa- rís: International Secretariat Reporters without Borders, 2013. Disponible a: [Consulta: 16 de juliol de 2016].

10 CAÑO, Antonio. «La NSA a!rma que el espionaje masivo fue realizado por Francia y España». El País, 2015 [en línia]. Disponible a: [Consulta: 4 de juliol de 2016].

11 GREENWALD, Glenn; ARANDA, Germán. «El CNI facilitó el espionaje masivo de EEUU a España». El Mundo, 2013 [en línia]. Disponible a: [Consulta: 8 de juliol de 2016].

12 BANDERA, Magda. «Lo que el sistema sabe sobre ti». Playboy. Núm. 3, època 2, 2003.

13 TREMLETT, Giles. «US offers to spy on ETA for Spain». The Guardian, 2001 [en línia]. Disponible a: [Consulta: 9 de juliol de 2016].

14 ELASTIC. Ingest attachment processor Plugin [en línia]. Elasticsearch, 2016. Disponible a: [Consulta: 15 de juliol de 2016].

15 SNOWDEN DOC SEARCH. User’s Guide for PRISM Skype Collection [en línia]. Journalistic Sour- ce Protection Defence Fund, 2012. Disponible a: [Consulta: 20 de juli- ol de 2016].

BIBLIOGRAFIA I FONTS

› BALL, James. «NSA collects milions of text messages daily in “untargeted” global sweep». The Guardian, 2014 [en línia]. Disponible a: [Consulta: 4 de juliol de 2016]. › CORERA, Gordon. «Escándalo de espionaje: qué es el "Club de los Cinco Ojos"». BBC, 2013 [en línia]. Disponible a: [Consulta: 5 de maig de 2016]. › EDWARDSNOWDEN.COM. Snowden doc search [en línia]. Journalistic Source Protection De- fence Fund, 2013. Disponible a: . › ELECTROSPACES. «Section 215 bulk telephone records and the MAINWAY database». Blog Electrospaces, 15 de febrer de 2016. Disponible a: [Consulta: 17 de juliol de 2016].

LA VIGILÀNCIA I EL CONTROL DE LA POBLACIÓ A TRAVÉS DE LA GESTIÓ, LA CONSERVACIÓ... 209 LLIGALL 40. REVISTA CATALANA D’ARXIVÍSTICA · 2017

› GELLMAN, Barton; SOLTANI, Ashkan. «NSA in!ltrates links to Yahoo, Google data centers world- wide, Snowden documents say». , 2013 [en línia]. Disponible a: [Consulta: 15 de juliol de 2016]. › GREENWALD, Glenn. Sin un lugar donde esconderse. Edward Snowden, la NSA y el Estado de vigilancia de EE.UU. Nova York: Metropolitan Books, 2014. ISBN 978-84-666-5459-3. › GREENWALD, Glenn; BALL, James; BORGER, Julian. «Revealed: how US and UK spy agen- cies defeat Internet privacy and security». The Guardian, 2013 [en línia]. Disponible a: [Consulta: 21 de juny de 2016]. › MACASKILL, Ewen et al. «GCHQ taps !bre-optic cables for secret access to world’s communi- cations». The Guardian, 2013 [en línia]. Disponible a: [Consulta: 6 de juny de 2016]. › MACASKILL, Ewen et al. «Mastering the Internet: how GCHQ set out to spy on the world wide web». The Guardian, 2013 [en línia]. Disponible a: [Consulta: 6 de juny de 2016]. › MARKO, Kurt. «The NSA and big data: what it can learn». Information Week, 2013 [en línia]. Disponible a: [Consulta: 10 d’agost de 2016]. › POITRAS, Laura. Citizenfour [en línia]. 2014, 114 min. Disponible a: [Consulta: 16 de gener de 2016]. › RTVE.es. La NSA tiene capacidad para espiar el 75% del trá$co de Internet de Estados Uni- dos [en línia]. Corporación RTVE, 2013. Disponible a: [Con- sulta: 22 de maig de 2016]. › SOMERVILLE, David. NSA intelligence platforms [en línia]. Mindmeister, 2014. Disponible a: [Consulta: 31 de maig de 2016].

210 TREBALLS DE MÀSTER AAC. Associació d’Arxivers · Gestors de Documents de Catalunya

RESUM

En el context de la vigilància massiva, l’article analitza com es duu a terme la gestió documental en un centre de da- des des d’una òptica arxivística, tenint en compte els sistemes i les tecnolo- gies que hi intervenen a l’hora de re- copilar, gestionar, conservar i analitzar dades massives. Per portar-ho a ter- me, l’autora pren com a estudi de cas els centres de dades d’algunes de les agències d’intel•ligència dels Estats Units i de la Unió Europea, concreta- ment el de la (NSA).

Paraules clau: big data, vigilància massiva, data center, centre de dades, gestió documental, agències d’intel•li- gència, NSA, dades massives, bases de dades, metadades

RESUMEN

En el contexto de la vigilancia masi- va, el artículo analiza cómo se lleva a cabo la gestión documental en un centro de datos desde una óptica ar- chivística, teniendo en cuenta los sis- temas y las tecnologías que intervie- nen a la hora de recopilar, gestionar, conservar y analizar datos masivos. Para ello, la autora toma como estudio de caso los centros de datos de algu- nas de las agencias de inteligencia de Estados Unidos y de la Unión Euro- pea, concretamente el de la Agencia de Seguridad Nacional (NSA) de Esta- dos Unidos.

LA VIGILÀNCIA I EL CONTROL DE LA POBLACIÓ A TRAVÉS DE LA GESTIÓ, LA CONSERVACIÓ... 211 LLIGALL 40. REVISTA CATALANA D’ARXIVÍSTICA · 2017

ABSTRACT

In the context of mass , the article discusses how to carry out records management in a data centre from an archival perspective, taking into account the systems and technologies involved in the compilation, management, preservation and analysis of big data. To do so, the author takes as a case study the data centres of intelligence agencies in the United States and the European Union, specifically the National Security Agency (NSA).

RÉSUMÉ

Dans le contexte de la surveillance de masse, l’article analyse comment la gestion documentaire est menée dans un centre de donnée d’un point de vue archivistique, en tenant compte des systèmes et des technologies qui interviennent pour collecter, gérer, conserver et analyser les mégadonnées. Pour ce faire, l’auteure prend comme étude de cas les centres de données de certaines agences d’intelligence des États-Unis et de l’Union européenne, notamment celle de l’Agence nationale de sécurité américaine, la NSA.

212 TREBALLS DE MÀSTER