Les xarxes sintètiques poden augmentar la disponibilitat d'algunes dades tot i protegir la privadesa individual o institucional, d'acord amb un estadista Penn State.
"El meu interès principal és desenvolupar una metodologia que permeti compartir de forma més àmplia dades confidencials d'una manera que pugui ajudar en el descobriment científic", va dir Aleksandra Slavkovic, professora d'estadística i degana associada per a l'educació de postgrau, Eberly College of Science, Penn State. "Poder compartir dades confidencials amb un risc mínim quantificable per descobrir informació sensible i garantir la precisió i la integritat estadístiques és l'objectiu".
Slavkovic ha trobat solucions a aquest problema de privadesa de dades a través de col·laboracions interdisciplinàries, especialment amb informàtics i científics socials. La seva recerca se centra en diverses dades, incloses les dades de xarxa que capturen informació de relació entre entitats com individus o institucions. Va informar els seus enfocaments per proporcionar xarxes sintètiques que satisfan avui una noció de privadesa diferencial (16 de febrer) durant la reunió anual de 2019 de l'Associació Americana per al Progrés de la Ciència a Washington, DC
La privadesa diferencial proporciona una garantia matemàticament demostrable del nivell de pèrdua de privadesa per als individus.
Els científics volen accedir a dades recopilades per altres per a la seva investigació, però aquest accés també podria comprometre la privadesa personal, fins i tot després de l'eliminació de les anomenades dades d'identificació personal.
"Una gran quantitat de dades auxiliars és el principal culpable", va dir Slavkovic. "Amb els avenços metodològics i tecnològics en la recopilació de dades i el registre de vincles, es facilita l'accés a la varietat d'orígens de dades que es poden enllaçar amb un conjunt de dades a la mà, i els requisits d'agències de finançament per compartir dades, els riscos per a la privadesa de dades augmenten. les solucions per gestionar la pèrdua de privadesa són essencials per permetre un descobriment científic sòlid ".
La informació disponible públicament d'una prova de fàrmacs sobre un medicament contra el VIH, per exemple, indicaria qui estava en el grup de tractament i que estava al grup de control. El grup de tractament només contindria persones diagnosticades de VIH i, tot i que els propietaris de dades no tenien dades personals d'aquest conjunt de dades, es mantindria certa informació d'identificació. Atès que tanta informació està disponible en línia en els mitjans de comunicació social i en altres conjunts de dades, és possible connectar els punts i identificar persones, que poden revelar el seu estat de VIH.
"Les tècniques per enllaçar dos conjunts de dades, per exemple registres de votants i dades d'assegurances de salut, han millorat", va dir Slavkovic. "En una de les primeres troballes, Latanya Sweeny (ara a Harvard) va demostrar que al vincular aquest tipus de dades, es pot identificar el 87% de les persones del Cens dels Estats Units des de 1990 en funció de la seva data de naixement, sexe i 5 dígits codi postal. Més recentment, els investigadors han utilitzat tweets i metadades de Twitter associades per mostrar que poden identificar usuaris amb una precisió del 96,7% ".
Slavkovic assenyala que no es tracta només de persones o institucions les dades estan contingudes a les bases de dades, sinó que les persones fora de la base de dades també poden patir una invasió de la privadesa, directament o per associació. Els vincles entre la informació d'un conjunt de dades i la informació de les xarxes socials poden generar un greu recorregut per a la privacitat, com ara l'estat del VIH o l'orientació sexual, si es revelés una repercussió greu.
Tot i que la privadesa és important, els conjunts de dades recopilats constitueixen una font essencial d'informació per als investigadors. Actualment, en alguns casos quan les dades són excepcionalment sensibles, els investigadors han d'anar físicament als dipòsits de dades per fer la seva recerca, fent que la investigació sigui més difícil i costosa.
Slavkovic està interessat en les dades de la xarxa. Informació que mostra la interconnexió de persones o institucions - els nodes - i les connexions entre nodes. El seu enfocament és crear conjunts de dades de xarxa lleugerament alterats i reflectits amb alguns dels nodes moguts, connexions desplaçades o vores alterades.
"L'objectiu és crear noves xarxes que satisfacin els rigorosos requisits de privadesa diferencial i, al mateix temps, capturin la majoria de les característiques estadístiques de la xarxa original", va dir Slavkovic.
Aquests conjunts de dades sintètics poden ser suficients perquè alguns investigadors satisfan les seves necessitats d'investigació. Per a altres, seria suficient provar els seus enfocaments i hipòtesis abans d'haver d'anar al lloc d'emmagatzematge de dades. Els investigadors podrien provar el codi, fer una investigació exploratòria i potser una anàlisi bàsica mentre esperava el permís per utilitzar les dades originals al seu lloc de dipòsit.
"No podem satisfer les demandes de totes les anàlisis estadístiques amb el mateix tipus de dades alterades", va dir Slavkovic. "Algunes persones necessitaran les dades originals, però altres podrien recórrer un llarg camí amb dades sintètiques com ara xarxes sintètiques".