16/02/2018

Un enfocament imparcial per filtrar ‘Big data’

Els investigadors han desenvolupat un model de sistema complex per avaluar la salut de les poblacions d'algunes ciutats dels Estats Units basant-se només en les variables més significatives expressades en les dades disponibles. El seu enfocament probabilístic està basat en la xarxa sobre Big data (dades massives) i podria utilitzar-se per avaluar altres sistemes complexos, com ara classificar universitats o avaluar la sostenibilitat oceànica.

Un enfocament imparcial per filtrar 'Big data'

Recarregar grans quantitats de dades per determinar quines variables utilitzar per avaluar coses com la salut de la població d'una ciutat és un repte. Els investigadors solen triar aquestes variables en funció de la seva experiència personal. Podrien decidir que les taxes d'obesitat, les taxes de mortalitat i l'esperança de vida són variables importants per calcular una mètrica generalitzada de la salut general dels residents. Però són aquestes les millors variables a utilitzar? N'hi ha d'altres de més importants que cal considerar?
Matteo Convertino de la Universitat de Hokkaido, al Japó i Joseph Servadio, de la Universitat de Minnesota, als Estats Units han introduït un nou mètode probabilístic que permet visualitzar les relacions entre variables en grans dades per a sistemes complexos. L'enfocament es basa en la "entropia de transferència màxima", que mesura probabilísticament la força de les relacions entre múltiples variables al llarg del temps.
Mitjançant aquest mètode, Convertino i Servadio van minar una gran quantitat de dades de salut als Estats Units per construir una "xarxa d'entropia màxima" (MENet): un model format per nodes que representen variables relacionades amb la salut i línies que connecten les variables. Les línies són més fosques, la interdependència entre dues variables és més forta. Això va permetre als investigadors crear una xarxa d'informació òptima (OIN) escollint les variables que van tenir la rellevància més pràctica per avaluar l'estat de salut de les poblacions en 26 ciutats dels EUA del 2011 al 2014. Combinant les dades de cada variable seleccionada, els investigadors van ser capaços de calcular un valor integrat de salut per a cada ciutat.

Un enfocament imparcial per filtrar 'Big data'

Van descobrir que algunes ciutats, com ara Detroit, tenien valors elevats que indicaven una pobra salut general durant aquest període de temps. Altres, com San Francisco, van tenir uns valors baixos, que van indicar resultats de salut més favorables. Algunes ciutats, com Filadèlfia, van mostrar una gran variabilitat al llarg de quatre anys. Les comparacions transversals van mostrar tendències per a que les ciutats de Califòrnia anessin millorant com altres parts del país. A més, les ciutats del centre-oest, incloent Denver, Minneapolis i Chicago, semblaven presentar-se malament en comparació amb altres regions, contràriament al rànquing nacional de la ciutat.
Convertino creu que mètodes com aquest, alimentats per grans conjunts de dades i analitzats mitjançant models automatitzats d'ordinador estocàstic, es podrien utilitzar per optimitzar la recerca i la pràctica; per exemple, per guiar decisions òptimes sobre salut. "Aquestes eines poden ser utilitzades per qualsevol país, en qualsevol nivell administratiu, per processar dades en temps real i ajudar a personalitzar els esforços mèdics", diu Convertino.

Un enfocament imparcial per filtrar 'Big data'

Però no es tracta només de dades de salut. "El model es pot aplicar a qualsevol sistema complex per determinar la seva xarxa òptima d'informació, en camps d'ecologia i biologia per finançar i tecnologia. Desentendre les seves complexitats i desenvolupar indicadors sistèmics imparcials pot ajudar a millorar els processos de presa de decisions", va afegir Convertino.

Font: Universitat de Hokkaido