19/10/2016

La misteriosa llei de Zipf

Les matemàtiques tenen moltes aplicacions en altres camps: en la biologia, la medicina, en les finances i, molt especialment, en la física.

La misteriosa llei de Zipf

En la biologia, per exemple, les matemàtiques han desenvolupat models de l'equilibri i supervivència de les espècies. Són els anomenats models de Lotka-Volterra, en els quals es prediu la coexistència de dues poblacions: la de preses i depredadors, o la invasió parasitària sobre un altre organisme. El model consisteix en dues equacions diferencials acoblades, regides per certes condicions inicials i paràmetres que donen compte de les condicions ecològiques de l'entorn.
En la medicina, les aplicacions són molt nombroses: des del càlcul de les dosis de fàrmac pertinents, a l'explicació d'un diagnòstic radiològic. Especialment, s'estan desenvolupat grans models matemàtics (la Teoria de Grafs, per exemple) per a l'explicació dels processos neuronals.
En finances, existeixen models predictius del mercat (encara molt poc refinats. En cas contrari, la inversió en valors estaria més concorreguda que la dels avis dirigits per brokers del mateix banc, al qual han confiat tots els estalvis de la seva vida laboral, com hem vist en l'última crisi econòmica). Per exemple, els models de Black-Scholes tempten la pujada de preu d'un actiu. No obstant això, les seves redefinicions són contínues, i el seu rang d'aplicació va a opcions europees o inversions amb dividends.

La misteriosa llei de Zipf

En física, és impossible triar un exemple característic d'aplicació entre els centenars de models teòrics basats en les matemàtiques més formals (convidem a seguir els que apareixen al arXiv diàriament). Les aplicacions a la física poden dividir-se en branques de les matemàtiques en relació amb la seva branca física corresponent. Per exemple, la geometria diferencial és el punt de partida de la relativitat general, però també en la termodinàmica. L'anàlisi matemàtica té un gran pes en la teoria de fluids, i l'àlgebra lineal i l'anàlisi funcional són primordials en mecànica quàntica i els seus operadors matricials.
No obstant això, les matemàtiques semblen no haver arribat a calar tan intensament en altres camps no científics, com la biblioteconomia o la lingüística. Per desmentir la seva manca d'aplicació en el camp de les lletres, avui volem descriure l'anomenada llei de Zipf .
En els anys quaranta, el lingüista George Zipf es va adonar que les paraules i el seu nombre d'aparicions en textos, seguien alguna llei especial. La paraula més utilitzada ocuparia el número u en el rànquing. El número dos es correspon amb la segona paraula més vegades repetida, etc. Així, es guardava una estreta relació entre el nombre d'aparicions de les paraules més populars. La primera paraula més utilitzada apareixia el doble de vegades que la segona, i tres vegades més que la tercera, i segueix el patró segons aquesta norma. Per exemple, en El Mag d'Oz, de Franz L. Baum, publicat el 1908, la paraula més freqüent va ser the amb 3.137 aparicions, la segona és and amb 1.544 aparicions, i la tercera to apareix 1.107 vegades.

La llei diu que
P n ≈ 1/n a
on P n és la freqüència d'una paraula en l'ordre n l'exponent a és aproximadament 1.

La misteriosa llei de Zipf
Gràfic mostrant el rang versus la freqüència per als primers deu milions de paraules en 30 Wikipedies en una escala log-log (extret de Wikipedia)

George Kingsley Zipf (1902-1950) va ser un lingüista americà, nascut a Freeport, Illinois, que es va trobar amb aquest fenomen en els seus estudis estadístics de filologia comparada. Va estudiar a Harvard, Bonn i Berlin, sent després professor a Harvard. Diguem com a curiositat que va ser Zipf qui va popularitzar aquesta llei, la mateixa sembla haver estat descoberta prèviament per l'estenògraf francès Jean-Baptiste Estoup i també pel físic alemany Felix Auerbach al 1913.

La misteriosa llei de Zipf

Aquesta es va convertir en una llei curiosa que no només descriu el comportament de la redacció i l'ús de les paraules, sinó que també distribuïa, per exemple, el salari dels homes més adinerats del planeta; en efecte, en un mateix país, la persona amb més sou rebia el doble que el següent en ordre descendent.
Un altre ús d'aquesta llei va ser per al càlcul d'habitants a les ciutats més poblades d'un mateix país. També es va corroborar que, aproximadament, el nombre de persones a la capital més poblada és el doble que a la segona capital més poblada i el triple que a la tercera, etc. Per exemple, els números concorden amb les capitals nord-americans: Segons el cens del 2010, Nova York tenia una població total de 8.175.133 persones, sent la següent capital més poblada Los Angeles, amb 3.792.621 habitants i les següents capitals en el rànquing: Chicago, Houston i Filadèlfia amb 2.695.598, 2.100.263 i 1.526.006 habitants respectivament. Efectivament, sembla que la llei es compleix. En aquest citadíssim article de 1999 l'economista Xavier Gabaix va descriure aquesta llei per a les ciutats com una llei de potències, i el gràfic seria una cosa així:

La misteriosa llei de Zipf

La llei sembla complir-se fins en el cas de ciutats amb creixement caòtic. Sembla, però, que els números no se segueixen per a ciutats de mida petita. Es possible que la llei de Zipf sigui un reflex del creixement de ciutats amb condicions econòmiques similars, com poden ser les integrades a la Unió Europea.
Una altra de les lleis matemàtiques aplicades a la sociologia i les poblacions és la regla dels tres quarts. Aquesta regla és aplicable al càlcul de la quantitat de recursos necessaris depenent del creixement de la ciutat. A primera vista, diríem que si el nombre d'habitants d'una ciutat és el doble que l'altra, el nombre de gasolineres necessàries seria el doble. No obstant això, el nombre de recursos es correspon amb els esmentats ¾, i l'eficiència de la ciutat serà la mateixa amb només un 77% més de gasolineres.
Existeixen variacions de la llei de Zipf i investigacions recents que fan referència a aquesta llei. Els investigadors Álvaro Corral, Isabel Moreno García i Francesc Font Clos, del Centre de Recerca Matemàtica (CRM) de Barcelona, ​​vinculat a la Universitat Autònoma de Barcelona, ​​han completat una anàlisi a gran escala de milers de textos digitalitzats per al primer tractament empíric de la llei de Zipf. El seu treball es basava en l'estudi de més de 30.000 volums en anglès per a la formulació clara de la llei des del punt de vista probabilístic: una que no associï probabilitat a les paraules, sinó variables numèriques.
Es va obtenir una llei equivalent de comptar el nombre d'aparicions d'una paraula, i una segona estadística que compta el nombre de paraules diferents que apareixen un determinat número de vegades. Així, el nombre de paraules que apareixen una única vegada és el quàdruple del nombre de paraules que apareixen dues vegades, el nònuple del nombre que apareixen tres vegades, i successivament. Les dues lleis de les freqüències s'han considerat fins ara quasi equivalents, excepte perquè la freqüència de les paraules no és una variable contínua.
La manca de empiricitat havia derrotat moltes d'aquestes teories. No obstant això, els nous mètodes computacionals poden simplificar molt la seva corroboració. Com hem vist, l'estudi relatat anteriorment és molt recent, del 2015, i s'ha dut a terme gràcies al programari accessible del segle XXI.
No obstant això, encara no està molt clara l'explicació de la llei de Zipf, una llei empírica. A part de les explicacions estadístiques, es parla per exemple d'una llei del mínim esforç per part dels que parlen, escriuen o escolten que, per simplificar les seves frases, trien les paraules mes corrents, o el principi que l'èxit atreu l'èxit. El tema és intrigant i requerirà més i més interès en el futur immediat.

La misteriosa llei de Zipf

Gràcies a la revolució informàtica i el seu creixement exponencial, amb la creació diària de noves apps, estem vivint l'era del Big Data. Aquesta ciència es dedica a la classificació i emmagatzematge de volums de dades que no poden ser tractats normalment, degut la seva ingent quantitat. Per a això, s'estan desenvolupant noves eines en programari i noves modes estadístiques. El concepte engloba infraestructures, tecnologies i serveis creats per al processament d'aquests conjunts de dades estructurades, no estructurades o semi-estructurades (missatges en xarxes socials, senyals de mòbil, arxius d'àudio, sensors, imatges digitals, dades de formularis, correus electrònics, dades d'enquestes, logs etc,) que poden provenir de sensors, micròfons, càmeres, escàners mèdics, etc.
Al Instituto de Ciencias Matemáticas (ICMAT) s'ha posat en marxa el Laboratori Robert Grossman, en què aquest expert mundial que treballa a la Universitat de Chicago col·laborarà amb investigadors de l'institut en aquests temes. Alhora, la recentment llançada Fundació Corbí (Corunya Biomedical Institute) té entre els seus objectius el desenvolupament de projectes relacionats amb Big Data i està tancant importants col·laboracions als Estats Units.



Font: Matemàtiques i les seves fronteres