Un nou mètode de xifrat dissenyat pels investigadors del MIT assegura les dades utilitzades en les xarxes neuronals
online, sense que es redueixi dràsticament el temps d'execució.
La subcontractació de
deep-learning machine és una tendència creixent en aquesta indústria. Les principals empreses tecnològiques han llançat plataformes en el núvol que realitzen tasques de computació, com per exemple, l'execució de dades a través d'una xarxa neuronal convolucional (CNN) per a la classificació d'imatges. Les PIMES i també, altres usuaris, poden carregar dades a aquests serveis amb un
fee i obtenir els resultats en poques hores.
Però, què passa si hi ha filtracions de dades privades? En els últims anys, els investigadors han explorat diverses tècniques de còmput segur per protegir aquestes dades sensibles. Però aquests mètodes tenen desavantatges en el rendiment que fan que l'avaluació de la xarxa neuronal (proves i validacions) sigui lenta, a vegades fins a milions de vegades més lenta.
En un document presentat a la conferència de seguretat USENIX, s’ha descrit un sistema que combina dues tècniques convencionals: xifrat homomòrfic i circuits desiguals, de manera que permet ajudar a les xarxes per executar ordres de magnitud més ràpidament que a les aproximacions convencionals.
Els investigadors van provar el sistema, anomenat GAZELLE, en tasques de classificació d'imatges de dos membres. Un usuari envia dades d'imatges xifrades a un servidor
online que avalua una CNN i s'executa a GAZELLE. Després d'això, ambdues parts comparteixen informació xifrada d'anada i tornada per tal de classificar la imatge de l'usuari. Al llarg del procés, el sistema assegura que el servidor mai no sap de cap dada carregada, mentre que l'usuari mai no sap res sobre els paràmetres de la xarxa. En comparació amb els sistemes tradicionals, però, GAZELLE va funcionar de 20 a 30 vegades més ràpid que els models d'última generació, tot reduint l'ample de banda de la xarxa requerit.
Una aplicació prometedora per al sistema és la formació de CNN per diagnosticar malalties. Els hospitals podrien, per exemple, formar una CNN per conèixer les característiques de certes condicions mèdiques a partir de les imatges de ressonància magnètica (MRI) i identificar aquestes característiques en les ressonàncies magnètiques carregades. L'hospital podria fer que el model estigui disponible al núvol per a altres hospitals. Però el model format es basa més en les dades del pacient privat. Com que no hi ha models de xifratge eficients, aquesta aplicació encara no està prou preparada.
En aquest treball, s’ha mostrat com fer de manera eficient aquest tipus de comunicació bidireccional segura mitjançant la combinació d'aquestes dues tècniques d'una manera intel·ligent. El següent pas és prendre dades mèdiques reals i mostrar que, encara que s’escalin per a les aplicacions que els usuaris reals es preocupen, encara proporcionen un rendiment acceptable.
Els coautors del document són Vinod Vaikuntanathan, professor associat de EECS i membre del Laboratori d'Intel·ligència Artificial i Informàtica, i Anantha Chandrakasan, degana de l'Escola Tècnica Superior d'Enginyeria i el professora de l'Enginyeria Elèctrica i Informàtica de Vannevar Bush.
El CNN processa les dades d'imatges a través de múltiples capes lineals i no lineals de computació. Les capes lineals fan la matemàtica complexa, anomenada àlgebra lineal, i assignen alguns valors a les dades. En un determinat llindar, les dades es donen a les capes no lineals que fan una computació més senzilla, prenen decisions (com ara la identificació de les funcions d'imatge) i envien les dades a la següent capa lineal. El resultat final és una imatge amb una classe assignada, com ara un vehicle, un animal, una persona o una característica anatòmica.
Els enfocaments recents per assegurar les CNN han implicat l'aplicació de xifres homomòrfiques o circuits descarnats per processar dades a tota una xarxa. Aquestes tècniques són efectives per assegurar dades. Pel que fa a paper, sembla que soluciona el problema, però fan que les xarxes neuronals complexes siguin ineficients, de manera que no serien usades per a cap aplicació del món real.
El xifratge homomòrfic, utilitzat en la computació en núvol, rep i executa la computació tot en dades xifrades, anomenades xifres xifrades, i genera un resultat xifrat que pot ser desxifrat per un usuari. Quan s'aplica a les xarxes neuronals, aquesta tècnica és particularment ràpida i eficaç en la computació de l'àlgebra lineal. Tanmateix, cal introduir una mica de soroll en les dades de cada capa. A través de diverses capes, el soroll s'acumula i la computació necessària per filtrar que el soroll creix cada cop més, reduint la velocitat de computació.
Els circuits Garbled són una forma de computació segura de dues parts. La tècnica pren una entrada d'ambdues parts, fa una computació i envia dues entrades separades a cada part. D'aquesta manera, les parts envien dades als altres, però mai no veuen les dades de la resta, només el resultat rellevant de la seva part implicada. En una xarxa neuronal
online, aquesta tècnica funciona bé en les capes no lineals, on la computació és mínima, però l'ample de banda necessita d’una gestió en capes lineals on es treballen a nivell de
math-heavy.
Finalment es va assegurar que tant les capes de circuit homomòrfiques com les capes desiguals mantenien un esquema d'aleatorització comú, anomenat "compartiment secret". En aquest esquema, les dades es divideixen en parts separades. Totes les parts sincronitzen les seves peces per reconstruir les dades completes.
A GAZELLE, quan un usuari envia dades xifrades al servei basat en el núvol, es divideix entre ambdues parts. Afegint a cada acció una clau secreta (números aleatoris) que només sap la part. Durant el procés de computació, cada part sempre tindrà una part de les dades, a més dels nombres aleatoris, pel que sembla ser totalment aleatori. Al final de la computació, les dues parts sincronitzen les seves dades. Només llavors l'usuari demana al servei basat en núvol la seva clau secreta. L'usuari pot usar la clau secreta de totes les dades per obtenir el resultat.
Font: Massachusetts Institute of Technology