Al hacer una comparación entre el uso de PC y smartphones para acceder a internet usando el servicio Public Data de Google, se percibe un incremento en el uso de smartphones con patrones de crecimiento curiosos. Países como Singapur, Corea y Tailandia son de los que muestran el comportamiento más interesante y un crecimiento notable.
Correlación no implica causalidad, hay que decirlo más (si queréis, con la entonación que Ernesto Sevilla le daba a cierto insulto muy español en cierto vídeo que fue un fenómeno de internet hace un tiempo…). Y hay que decirlo más porque en general no llegamos a comprender qué significa esta frase. Bueno, o eso o que aun comprendiéndola intentamos confundir a quien no la entiende haciéndole creer que una cosa sí que implica a la otra.
Prácticamente a diario nos encontramos en (principalmente) medios de comunicación noticias cuyo titular tiene una estructura parecida a algunos de los siguientes:
Un estudio afirma que cuanto más A más B.
Un estudio afirma que quienes son A tienen menos B.
Un estudio afirma que dado que A es así entonces B es de esta otra forma.
…
En principio, todos esos titulares indican básicamente que lo que dice A es lo que provoca que ocurra B, o, lo que es lo mismo, que B es consecuencia de A. Normalmente, cuando uno se lee esas noticias, acaba dándose cuenta de que lo que hay es una correlación entre A y B (vamos, una relación entre esos dos sucesos), pero, en principio, sin ningún indicio de que sea uno de ellos, A en este caso, el que provoca el otro, B.
El estudio de la correlación entre dos variables es uno de los temas que se trata en Estadística. Resumiendo un poco, la cuestión sería algo como lo siguiente:
– A partir de ciertos datos obtenidos de cada una de esas variables uno estima si hay alguna relación entre ellas. La que se estudia con mayor frecuencia es la llamada regresión lineal (mediante la que buscamos si hay relación lineal hay entre las variables), pero hay muchos más tipos posibles: cuadrática, exponencial, logarítmica…
– Con esos datos se calcula una función (que, por ejemplo, en regresión lineal es una recta) que nos determina exactamente qué relación hay entre esas variables.
– Se estudia la correlación real entre ellas (es decir, cómo de fuerte es la relación que habíamos estimado a partir de los datos iniciales) mediante un coeficiente de correlación.
Este coeficiente suele tomar valores entre -1 y 1, y se interpreta de la siguiente forma:
Ahora, que la relación entre las variables sea muy fuerte (esto es, que sea casi 1 o casi -1) no significa que una de ellas sea la causa de la otra. En ningún sitio esta teoría nos deja asegurar con tanta ligereza que el hecho de que haya una correlación muy fuerte entre A y B significa que la variable A es la que está provocado que se presente la variable B. La teoría habla de relación entre las variables, no de que una sea la causa de la otra.
Todo esto de la mala interpretación de la correlación también se encuentra, y en demasiadas ocasiones, en estudios científicos supuestamente serios. No son pocos los estudios que al encontrar una cierta relación entre dos variables presentes en los sujetos estudiados se tiran a la piscina afirmando que por tanto una de ellas es la causa de la otra, cuando en realidad en dichos estudios no hay ninguna evidencia de que esto sea verdad (simplemente hay correlación).
Supongo que más de uno se estará preguntando lo siguiente: ¿entonces es mentira que correlación implique causalidad? Pues no, no es mentira, y verdad tampoco. Me explico:
Cuando se dice que la frase correlación no implica causalidad (en latín, Cum hoc ergo procter hoc) es cierta lo que se quiere decir es que el hecho de que haya correlación entre dos variables no significa que una provoque a la otra, pero eso no significa que si encontramos correlación entre dos variables automáticamente podamos descartar que una sea causa de la otra. Hay casos en los que A es la causa de que ocurra B, en otros es al revés, en otros hay alguna variable adicional la que hace que se produzca esa correlación…y a veces todo es fruto de la casualidad (sí, casualidad, no “causalidad”).
El problema de creerse que una fuerte correlación implica una cierta relación causal entre las variables es que esa creencia se puede usar (malintencionadamente o no) para engañarnos, ya que no es demasiado difícil encontrar correlación entre dos variables que en principio ni están relacionadas a poco que queramos “forzarla”.
Por ejemplo, si os digo que el descenso de piratas en el mundo está provocando una subida de la temperatura media global de nuestro planeta, ¿qué pensaríais? Posiblemente que estoy muy mal de la cabeza, ¿no?
Artículo completo en: Gaussianos
La ley de los pequeños números, entonces, se puede definir así:
[L]os resultados extremos (altos y bajos) son más probables en muestras pequeñas que en muestras grandes.
De ahí la importancia de que cualquier muestra sea estadísticamente relevante y representativa.
Inferir una relación a partir de una pequeña muestra (que perfectamente puede ser azarosa) puede costarle muy caro a alguien, como explica Kahneman al final del capítulo, cuando explica un divertido artículo de Howard Wainer y Harris Zwerling:
Su ensayo se centraba en el caso de una gran inversión, de 1.700 millones de dólares, que la Fundación Gates hizo para seguir indagando en las características de los colegios que ofrecen mejor educación. Muchos investigadores han buscado el secreto del éxito en la educación identificando los mejores colegios con la esperanza de descubrir lo que los distingue de los demás. Una de las conclusiones del estudio era que la mayoría de estos colegios son, de promedio, pequeños. En un estudio de 1.662 colegios de Pensilvania, por ejemplo, 6 de los 50 mejores eran pequeños, lo que supone una sobrerrepresentación en factor de 4. Estos datos animaron a la Fundación Gates a hacer sustanciales inversiones en la creación de pequeños colegios, en ocasiones dividiendo colegios grandes en unidades más pequeñas. Al menos la mitad de una docena de otras instituciones destacadas, como la Fundación Annenberg y la Pew Charitable Trust, se unieron al esfuerzo, al igual que el programa de pequeñas comunidades educativas del Departamento de Educación de Estados Unidos.
Esto seguramente tendrá para muchos su sentido intuitivo. Es fácil construir una historia causal que explique por qué los colegios pequeños son capaces de proporcionar una educación mejor y formar colegiales de alto rendimiento, dándoles más atención personal y estímulo del que recibirían en los colegios grandes. Desafortunadamente, el análisis causal es inútil porque los hechos son falsos. Si los estadísticos que informaron a la Fundación Gates se hubieran preguntado por las características de los peores colegios, habrían encontrado que los malos colegios también tienden a ser más pequeños que la media. La verdad es que los colegios pequeños no son mejores por término medio; son simplemente más variables. Los colegios grandes, dicen Wainer y Zwerling, tienden a arrojar mejores resultados, especialmente en los grados superiores, donde se da una notable variedad de opciones curriculares.
Kahneman saca dos conclusiones pertinentes:
• Prestamos más atención al contenido de los mensajes que a la información sobre su fiabilidad, y como resultado terminamos adoptando una visión más simple del mundo (y que hallamos más coherente), de lo que justifican los datos.
• La estadística arroja muchas observaciones que parecen pedir explicaciones causales, pero que ellas mismas no nos guían hacia tales explicaciones.
Fuente: DE AVANZADA
Fuente: MUNDO GEEK
_________________
Enlaces de interés:
De acuerdo al primer informe mundial de qSearch 2.0 los latinoamericanos fueron los que más búsquedas realizaron en los motores de búsqueda (Google, Yahoo, etc) en agosto del 2007. Para llegar a esta afirmación se tienen en cuenta la cantidad de búsquedas que realizó cada usuario, que en esta parte del continente se situó en 95 búsquedas por usuario. Sin embargo, el informe contiene muchos datos más valiosos. A saber:
– En agosto 2007 se realizaron 61 mil millones de búsquedas en el mundo.
– La región del pacífico de Asia (China, Japón, India) lideró este rubro con 258 millones de buscadores (personas que utilizaron esa herramienta) que realizaron más de 20 mil millones de búsquedas. Europa estuvo segundo con 210 millones de buscadores y 18 mil millones de búsquedas; Estados Unidos 206 millones/16mil millones y Ãfrica 30 millones/2 mil millones.
-Discriminando por sitio, Google tuvo 37 mil millones de búsquedas (31 mil en Google y 5 mil en Youtube), le siguió Yahoo con 8.5 mil millones, el sitio chino Baidu con 3.2 mil millones. Los sitios de Microsoft se ubicaron cuartos, mientras que la corporación coreana que posee Naver.com quedó³ quinto con 2 mil millones de búsquedas.
-El informe señala que los números muestran que sigue siendo una gran oportunidad para el marketing y la publicidad aprovechar los incesantes crecimientos en el número de usuarios de Internet y de la actividad que cada uno de ellos tiene en la red.
Fuente: MZBlog