16 sept 2017

Los hombres que contaban demasiado

Bill James se aburría como vigilante nocturno en una fábrica de judías enlatadas. Mataba el tiempo elaborando las que serían las estadísticas de béisbol más útiles de la historia, convirtiéndose en una de las 100 personas más influyentes según Time. Pero no fue pionero en someter la actividad humana al frío análisis de la estadística, Francis Galton le ganó por goleada. Midió todo lo que pudo: rasgos psicológicos, huellas dactilares e incluso colores del iris. Llegó a conclusiones polémicas, siendo fundador de la bioestadística y la eugenesia.

Galton debía ser experto en marketing, pues consiguió que las masas (más de nueve mil personas) se sometieran a sus mediciones psicológicas, anatómicas y oftalmológicas ¡y además pagaran por ello, a cambio de una copia de las medidas! Hay que reconocer que su chiringuito tenía una buena localización: la Exposición Internacional de la Salud de Londres, 1884.  Me lo imagino repleto de variopintos instrumentos diseñados por él mismo, como su set de iris y este curioso aparato para evaluar... ¿la agudeza visual? ¿el campo ocular?


Expuestas en el Science Museum londinense

Sacado de http://galton.org/anthropologist.htm (ni ellos saben para qué sirve el aparato)

Estaría retratando erróneamente a Sir Francis Galton si no mencionara que apuntaló conceptos estadísticos fundamentales como la regresión a la media y la correlación, aportando además un gran invento divulgativo: la máquina que lleva su nombre.

La popular máquina de Galton, que ilustra el teorema central del límite (se acaba formando una gaussiana).
Está presente en muchos museos. Este GIF sale de aquí.

Fue pionero en medir facultades mentales (lo que hoy llamamos psicometría) y contribuyó a la meteorología, introduciendo la noción de anticiclón. Francis Galton era un verdadero genio y fan de la estadística que la aplicó, como leemos en Scientia, en investigaciones tan variopintas como el efecto de las oraciones religiosas en la esperanza de vida (nula), la distribución geográfica de la belleza, el índice de aburrimiento en actos públicos y... la longitud de una soga para que rompa el cuello de un ahorcado sin decapitarlo (lo publicó en Nature, olé).

Feel like a Sir

Cortando la maleza

"Los periodistas deportivos no utilizan las estadísticas para entender el juego, sino para decorar sus artículos, para explicar lo que ellos consideran cierto, usando los números sesgada y parcialmente. Deberíamos usar la estadística como una espada para cortar la maleza hacia la verdad."
Bill James

Bill James, como veis, estaba harto de que los analistas deportivos no se tomaran la estadística en serio, de que cuantificaran el rendimiento con conceptos potencialmente engañosos como la proporción de errores (un buen jugador que intenta llegar a todas las bolas fallará más a menudo). En la Baseball Analyst, una revista de la Society for American Baseball Research (SABR), James y sus correligionarios publicaban sus hallazgos sabermétricos (término acuñado por él mismo en referencia a dicha asociación). No tenía nada que ver con las revistas deportivas que te imaginarás, llenas de polémicas amarillistas entre jugadores. Abundaban, en cambio, elementos inesperados como gráficas, tablas de datos, fórmulas e incluso instrucciones para escribir programas estadísticos.


Nota final de Bill James en el número de octubre del 82.
Es una interesante reflexión sobre por qué no cabe esperar distribuciones normales en una liga profesional.
El término "Mendoza line" deriva de un jugador que bateaba muy mal, usándose su índice como caso crítico (pobre Mendoza).



Extractos de otros números del Baseball Analyst.
¿No os enternece lo amateur que parece la revista?
Mola pensar en todos esos fans del béisbol exprimiendo estadísticas para poder comprender mejor ese aspecto del universo que tanto les apasiona...

El impacto de Bill James en la sociedad estadounidense es inapelable: aparece varias veces en Los Simpson y una de sus fórmulas para predecir el éxito de un equipo en función de sus runs (la esperanza pitagórica) ha sido analizada por importantes matemáticos como Hundal y Miller. El mundillo sabermétrico cobró aún más fama cuando Billy Beane, siguiendo la estela de James, contrató a estadísticos expertos para analizar qué jugadores estaban más infravalorados y ficharlos, consiguiendo un ascenso meteórico del equipo que dirigía y ser interpretado por Brad Pitt en la peli Moneyball, que narra esa estrategia de los Oakland Athletics. 


Un gran poder...


En una época de encuestas que no paran de fallar (Brexit, Trump,...) la pérdida de confianza en la estadística es comprensible, pero no justificada. El problema no es de la estadística, sino del método de obtención de datos (la gente miente porque se avergüenza de votar a partidos corruptos o xenófobos). Hoy día, hay formas muchísimo más eficaces de sacar información sociológica: exprimiendo nuestro uso de las nuevas tecnologías, en especial de las redes sociales. Lo cual es una buena noticia para la estadística y para Silicon Valley, pero un verdadero drama para nuestra privacidad, del que aún no somos muy conscientes.

La estadistica (combinada con conocimientos de programación y ecuaciones diferenciales) puede hacerte rico mucho más allá del baseball y las redes sociales. Los "quants" están arrasando en el mercado bursátil, un mundo de locos en el que el importe de una acción tiene cada vez menos que ver con el valor real de la empresa, donde lo que verdaderamente importa es anticipar el movimiento de los capitales y apostar tempranamente al caballo ganador. Este fenómeno lleva décadas perjudicando a la economía real (la que produce bienes no ficticios que nos hacen progresar como sociedad) pero con el avance tecnológico el peligro aumenta exponencialmente. Cada día que pasa, mayor es la automatización de las operaciones financieras. El destino de tus judías enlatadas preferidas y del próximo gran avance en quimioterapia son cada vez más dependientes de algoritmos que sólo entienden de estadística, probabilidad y teoría de juegos.

No quiero decir que no sean algoritmos interesantes, son piezas de código profundas que mezclan diversas ramas de las matemáticas con la computación. De hecho, hay hasta un concurso de trading algorítmico organizado por la Universidad Politécnica de Madrid: Robotrader. Pero, igual que la inteligencia artificial aplicada a procesos militares, es un gran peligro para nuestra civilización.




Si los hombres grises de Wall Street contaban demasiado el dinero y poco con las personas, los algoritmos grises sólo se preocupan de lo primero. Y cuentan mucho más rápido.







8 sept 2017

Historia de tres fractales: Sierpinski, Cantor y Koch

Hace unos meses, os presenté al triángulo de Sierpiński, uno de los fractales más famosos por su omnipresencia y simplicidad. De su mano, podemos seguir embarcándonos en el sorprendente universo fractal, ya que el triángulo nos conduce de manera natural a la alfombra de Sierpiński, el conjunto de Cantor y el copo de nieve de Koch.

¿Recordáis que uno de los métodos que utilizamos para obtener el triángulo de Sierpiński consistía en tomar una figura, triplicarla y colocar los tres clones triangularmente?


Cabe preguntarse qué pasaría si, en lugar de tres, hacemos ocho clones (ocho, porque queremos conseguir un cuadrado 3x3 con un hueco en el medio) y los disponemos cuadrangularmente. Como el producto es la figura más fea de la entrada, no me he molestado en animar su proceso de formación, así que aprovechadlo como un entrenamiento de la imaginación:

Respira hondo. Visualiza un cuadrado. Es tu cuadrado. El cuadrado puede ser del color que tú quieras. Contempla el cuadrado. 

Inspira. Ahora imagina ocho copias de tu cuadrado. Están colocadas formando un cuadrado más grande, con el triple de lado que tu cuadrado, y con un hueco en el medio (necesitarías nueve cuadrados pequeños para formar el grande, y sólo tienes ocho).

Espira. Concéntrate y visualiza ocho copias de ese cuadrado hueco. Disponlas formando otro cuadrado hueco mayor. Observa que cada vez hay más agujeros.

Inspira y repite estos dos últimos pasos hasta alcanzar la iluminación. 



El resultado final de nuestra meditación guiada: el cuadrado de Sierpiński, también conocido con el apasionante nombre de alfombra de Sierpiński.

 El lector preguntará (con razón, como siempre) por qué presento una figura que considero "fea" en la entrada: es una excusa genial para hablar de un fractal casi irrepresentable pero precioso, el conjunto de Cantor. Si tomamos un segmento que una los puntos medios de dos lados paralelos del cuadrado de Sierpiński, obtendremos un segmento fractal, idéntico al que conseguiríamos si quitáramos el tercio central de un segmento, luego el tercio central de los dos segmentitos resultantes,...

Dicho de palabra suena más chungo, este es el segmento que estamos seleccionando.
He aquí el proceso (iteración) de ir quitando el tercio central. También se ve más claro visualmente.
El contexto histórico en el que Cantor describió su fractal es muy interesante, pero hoy los fractales monopolizan la entrada. Contempladlo en todo su esplendor:

El fractal que emocionó a Benoît Mandelbrot.

No, no hace falta que subas el brillo.
Está formado por puntos disconexos, es normal que no veas nada porque, con cada iteración, el fractal desaparece más y más. Sin embargo, está compuesto por infinitos puntos y podemos expresarlos todos con una sencilla regla: si consideramos (por simplicidad, tal y como hizo originalmente Cantor) que está colocado en el intervalo [0,1] de la recta real (el extremo izquierdo sería el 0 y el derecho, el 1); pertenecen al conjunto todos lo puntos que tengan una representación en base 3 en la que no aparezca el número 1. Si lo piensas, ésto capta perfectamente su esencia: tiene sentido usar base 3 porque cada iteración divide a cada segmentito en tres partes; y tiene sentido que no aparezca el número 1 porque es el correspondiente al tercio central, que eliminamos.

Otra característica brutal del conjunto es que no es numerable: aunque tuvieras todo el tiempo del mundo, nunca acabarías una lista de sus miembros. La demostración (una de las más sencillas y elegantes que conozco) la tenéis en la completísima entrada de Wikipedia en inglés.

Y hasta aquí lo complicado.
Tengo el remordimiento de haber condensado demasiada información. Mis metas, ser escueto y a la vez profundo, son difíciles de conciliar. Como disculpa, voy a dejaros disfrutar con tranquilidad del último hermano del triángulo de Sierpiński: el copo de nieve de Koch. Hemos juntado cuadrados dejando un hueco en medio para conseguir un cuadrado sierpinskiano; ahora haremos lo mismo con hexágonos. Llegaremos (de una manera mucho menos conocida que ésta) a los maravillosos copos de nieve fractales. Y lo digo en plural, porque al representarlo de esta forma obtenemos infinitos copos a distintas escalas.




Fascinante, ¿verdad?

Sólo comentaré que con dos tamaños de estas maravillas podemos teselar el plano (serían unas baldosas muy guays), lo cual es consecuencia directa de la naturaleza hexagonal de la criatura.

Esta imagen no la he hecho yo, la he sacado de Wolfram MathWorld