admin

Categorías

Coobis

estadísticas

Infografía animada sobre el crecimiento del uso de smartphones

Al hacer una comparación entre el uso de PC y smartphones para acceder a internet usando el servicio Public Data de Google, se percibe un incremento en el uso de smartphones con patrones de crecimiento curiosos. Países como Singapur, Corea y Tailandia son de los que muestran el comportamiento más interesante y un crecimiento notable.

Correlación no implica causalidad

Actualidad Informática. Correlación no implica causalidad. Rafael Barzanallana. UMU

Correlación no implica causalidad, hay que decirlo más (si queréis, con la entonación que Ernesto Sevilla le daba a cierto insulto muy español en cierto vídeo que fue un fenómeno de internet hace un tiempo…). Y hay que decirlo más porque en general no llegamos a comprender qué significa esta frase. Bueno, o eso o que aun comprendiéndola intentamos confundir a quien no la entiende haciéndole creer que una cosa sí que implica a la otra.

Prácticamente a diario nos encontramos en (principalmente) medios de comunicación noticias cuyo titular tiene una estructura parecida a algunos de los siguientes:

Un estudio afirma que cuanto más A más B.
Un estudio afirma que quienes son A tienen menos B.
Un estudio afirma que dado que A es así entonces B es de esta otra forma.

En principio, todos esos titulares indican básicamente que lo que dice A es lo que provoca que ocurra B, o, lo que es lo mismo, que B es consecuencia de A. Normalmente, cuando uno se lee esas noticias, acaba dándose cuenta de que lo que hay es una correlación entre A y B (vamos, una relación entre esos dos sucesos), pero, en principio, sin ningún indicio de que sea uno de ellos, A en este caso, el que provoca el otro, B.

El estudio de la correlación entre dos variables es uno de los temas que se trata en Estadística. Resumiendo un poco, la cuestión sería algo como lo siguiente:

– A partir de ciertos datos obtenidos de cada una de esas variables uno estima si hay alguna relación entre ellas. La que se estudia con mayor frecuencia es la llamada regresión lineal (mediante la que buscamos si hay relación lineal hay entre las variables), pero hay muchos más tipos posibles: cuadrática, exponencial, logarítmica…

– Con esos datos se calcula una función (que, por ejemplo, en regresión lineal es una recta) que nos determina exactamente qué relación hay entre esas variables.

– Se estudia la correlación real entre ellas (es decir, cómo de fuerte es la relación que habíamos estimado a partir de los datos iniciales) mediante un coeficiente de correlación.

Este coeficiente suele tomar valores entre -1 y 1, y se interpreta de la siguiente forma:

    • Cuanto más cerca de 1 esté, mayor correlación positiva (es decir, que cuando aumenta una también lo hace la otra) hay entre las variables.

 

    • Cuanto más cerca de -1 esté, mayor correlación negativa (es decir, que cuando aumenta una disminuye la otra) hay entre las variables.

 

  • Cuanto más cerca de 0 esté, menor correlación hay entre las variables.

Ahora, que la relación entre las variables sea muy fuerte (esto es, que sea casi 1 o casi -1) no significa que una de ellas sea la causa de la otra. En ningún sitio esta teoría nos deja asegurar con tanta ligereza que el hecho de que haya una correlación muy fuerte entre A y B significa que la variable A es la que está provocado que se presente la variable B. La teoría habla de relación entre las variables, no de que una sea la causa de la otra.

Todo esto de la mala interpretación de la correlación también se encuentra, y en demasiadas ocasiones, en estudios científicos supuestamente serios. No son pocos los estudios que al encontrar una cierta relación entre dos variables presentes en los sujetos estudiados se tiran a la piscina afirmando que por tanto una de ellas es la causa de la otra, cuando en realidad en dichos estudios no hay ninguna evidencia de que esto sea verdad (simplemente hay correlación).

Supongo que más de uno se estará preguntando lo siguiente: ¿entonces es mentira que correlación implique causalidad? Pues no, no es mentira, y verdad tampoco. Me explico:

Cuando se dice que la frase correlación no implica causalidad (en latín, Cum hoc ergo procter hoc) es cierta lo que se quiere decir es que el hecho de que haya correlación entre dos variables no significa que una provoque a la otra, pero eso no significa que si encontramos correlación entre dos variables automáticamente podamos descartar que una sea causa de la otra. Hay casos en los que A es la causa de que ocurra B, en otros es al revés, en otros hay alguna variable adicional la que hace que se produzca esa correlación…y a veces todo es fruto de la casualidad (sí, casualidad, no “causalidad”).

El problema de creerse que una fuerte correlación implica una cierta relación causal entre las variables es que esa creencia se puede usar (malintencionadamente o no) para engañarnos, ya que no es demasiado difícil encontrar correlación entre dos variables que en principio ni están relacionadas a poco que queramos “forzarla”.

Por ejemplo, si os digo que el descenso de piratas en el mundo está provocando una subida de la temperatura media global de nuestro planeta, ¿qué pensaríais? Posiblemente que estoy muy mal de la cabeza, ¿no?

Artículo completo en:  Gaussianos

La ley de los pequeños números

Actualidad Informática. La ley de los pequeños números. Rafael Barzanallana. UMU
La ley de los pequeños números, entonces, se puede definir así:

[L]os resultados extremos (altos y bajos) son más probables en muestras pequeñas que en muestras grandes.

De ahí la importancia de que cualquier muestra sea estadísticamente relevante y representativa.

Inferir una relación a partir de una pequeña muestra (que perfectamente puede ser azarosa) puede costarle muy caro a alguien, como explica Kahneman al final del capítulo, cuando explica un divertido artículo de Howard Wainer y Harris Zwerling:

Su ensayo se centraba en el caso de una gran inversión, de 1.700 millones de dólares, que la Fundación Gates hizo para seguir indagando en las características de los colegios que ofrecen mejor educación. Muchos investigadores han buscado el secreto del éxito en la educación identificando los mejores colegios con la esperanza de descubrir lo que los distingue de los demás. Una de las conclusiones del estudio era que la mayoría de estos colegios son, de promedio, pequeños. En un estudio de 1.662 colegios de Pensilvania, por ejemplo, 6 de los 50 mejores eran pequeños, lo que supone una sobrerrepresentación en factor de 4. Estos datos animaron a la Fundación Gates a hacer sustanciales inversiones en la creación de pequeños colegios, en ocasiones dividiendo colegios grandes en unidades más pequeñas. Al menos la mitad de una docena de otras instituciones destacadas, como la Fundación Annenberg y la Pew Charitable Trust, se unieron al esfuerzo, al igual que el programa de pequeñas comunidades educativas del Departamento de Educación de Estados Unidos.

Esto seguramente tendrá para muchos su sentido intuitivo. Es fácil construir una historia causal que explique por qué los colegios pequeños son capaces de proporcionar una educación mejor y formar colegiales de alto rendimiento, dándoles más atención personal y estímulo del que recibirían en los colegios grandes. Desafortunadamente, el análisis causal es inútil porque los hechos son falsos. Si los estadísticos que informaron a la Fundación Gates se hubieran preguntado por las características de los peores colegios, habrían encontrado que los malos colegios también tienden a ser más pequeños que la media. La verdad es que los colegios pequeños no son mejores por término medio; son simplemente más variables. Los colegios grandes, dicen Wainer y Zwerling, tienden a arrojar mejores resultados, especialmente en los grados superiores, donde se da una notable variedad de opciones curriculares.

Kahneman saca dos conclusiones pertinentes:

• Prestamos más atención al contenido de los mensajes que a la información sobre su fiabilidad, y como resultado terminamos adoptando una visión más simple del mundo (y que hallamos más coherente), de lo que justifican los datos.

• La estadística arroja muchas observaciones que parecen pedir explicaciones causales, pero que ellas mismas no nos guían hacia tales explicaciones.

Fuente: DE AVANZADA

Infografía: un día en internet

Actualidad Informática. Infografía: un día en internet. Rafael Barzanallana

Estadísticas sobre uso de internet en 2009

Correo electrónico

  • 90 billones – El número de correos electrónicos enviados en 2009.
  • 247000 millones – El número medio de correos electrónicos enviados por día.
  • 1400 millones – El número de usuarios del correo electrónico en el mundo.
  • 100 millones – Nuevos usuarios del correo electrónico desde el año pasado.
  • 81% – El porcentaje de correos de spam.
  • 92% – El pico de correos de spam este año.
  • 24% – Incremento del spam desde el año pasado.
  • 200000 millones – El número de correos de spam enviados cada día.

Páginas web

  • 234 millones – El número de páginas web existentes en Diciembre de 2009.
  • 47 millones – Nuevas páginas web en 2009.

Servidores web

  • 13.9% – El crecimiento de Apache en 2009.
  • -22.1% – La caída de IIS en 2009.
  • 35.0% – El crecimiento de Google GFE en 2009.
  • 384.4% – El crecimiento de Nginx en 2009.
  • -72.4% – La caída de Lighttpd en 2009.

Nombres de dominio

  • 81,8 millones – Dominios .com a finales de 2009.
  • 12,3 millones – Dominios .net a finales de 2009.
  • 7,8 millones – Dominios .org a finales de 2009.
  • 76,3 millones – El número de dominios de nivel superior geográfico (.cn, .uk, .de, etc.).
  • 187 millones – El número de nombres de dominios nivel superior (Octubre de 2009).
  • 8% – El incremento en el nombre de dominios desde el pasado año.

Usuarios de Internet

  • 1730 millones – Usuarios de internet en el mundo (Septiembre de 2009).
  • 18% – Aumento en el número de usuarios desde el año pasado.
  • 738257230 – Usuarios de Internet en Asia.
  • 418029796 – Usuarios de Internet en Europa.
  • 252908000 – Usuarios de Internet en Norte América.
  • 179031479 – Usuarios de Internet en Latino América / El Caribe.
  • 67371700 – Usuarios de Internet en África.
  • 57425046 – Usuarios de Internet en el Oriente Medio.
  • 20970490 – Usuarios de Internet en Oceania / Australia.

Medios sociales

  • 126 millones – El número de bitácoras en Internet.
  • 84% – Porcentaje de sitios de redes sociales con mayor número de mujeres que hombres.
  • 27,3 millones – Número de tweets en Twitter por día (Noviembre, 2009)
  • 57% – Porcentaje de usuarios de Twitter que viven en Estados Unidos.
  • 4,25 millones – Personas que siguen a @aplusk (Ashton Kutcher, el usuario de Twitter más seguido).
  • 350 millones – Personas en Facebook.
  • 50% – Porcentaje de usuarios de Facebook que conectan a la página todos los días.
  • 500000 – Número de aplicaciones para Facebook.

Imágenes

  • 4000 millones – Fotografías alojadas en Flickr (Octubre 2009).
  • 2500 millones – Fotografías subidas cada mes a Facebook.
  • 30000 millones – Número de fotografías subidas a Facebook por año.

Vídeos

  • 1000 millones – El número de vídeos que se ven en YouTube cada día.
  • 12200 millones – Vídeos vistos por mes en YouTube en Estados Unidos (Noviembre 2009).
  • 924 millones – Vídeos vistos por mes en Hulu en Estados Unidos (Noviembre 2009).
  • 182 – Número medio de vídeos online que ve cada usuario de Internet por mes (EEUU).
  • 82% – Porcentaje de usuarios de Internet que ven vídeos online (EEUU).
  • 39.4% – Cuota de mercado de YouTube (EEUU).
  • 81.9% – Porcentaje de vídeos embebidos en las bitácoras que pertenecen a YouTube.

Navegadores web

  • 62,7% – Porcentaje de usuarios que utilizan Internet Explorer.
  • 24,6% – Porcentaje de usuarios que utilizan Firefox.
  • 4,6% – Porcentaje de usuarios que utilizan Chrome.
  • 4,5% – Porcentaje de usuarios que utilizan Safari.
  • 2,4% – Porcentaje de usuarios que utilizan Opera.
  • 1,2% – Porcentaje de usuarios que utilizan otros navegadores.

Software malicioso

  • 148000 – Nuevas computadoras zombie creadas por día (utilizadas en redes in botnets para enviar spam, etc.)
  • 2.6 millones – Número de programas maliciosos al principio de 2009 (virus, troyanos, etc.)
  • 921143 – Número de programas maliciosos añadidos por Symantec en el último cuarto de 2009.

Fuente: MUNDO GEEK

_________________

Enlaces de interés:

Estadísticas de uso de buscadores

De acuerdo al primer informe mundial de qSearch 2.0 los latinoamericanos fueron los que más búsquedas realizaron en los motores de búsqueda (Google, Yahoo, etc) en agosto del 2007. Para llegar a esta afirmación se tienen en cuenta la cantidad de búsquedas que realizó cada usuario, que en esta parte del continente se situó en 95 búsquedas por usuario. Sin embargo, el informe contiene muchos datos más valiosos. A saber:

– En agosto 2007 se realizaron 61 mil millones de búsquedas en el mundo.

– La región del pací­fico de Asia (China, Japón, India) lideró este rubro con 258 millones de buscadores (personas que utilizaron esa herramienta) que realizaron más de 20 mil millones de búsquedas. Europa estuvo segundo con 210 millones de buscadores y 18 mil millones de búsquedas; Estados Unidos 206 millones/16mil millones y Ãfrica 30 millones/2 mil millones.

-Discriminando por sitio, Google tuvo 37 mil millones de búsquedas (31 mil en Google y 5 mil en Youtube), le siguió Yahoo con 8.5 mil millones, el sitio chino Baidu con 3.2 mil millones. Los sitios de Microsoft se ubicaron cuartos, mientras que la corporación coreana que posee Naver.com quedó³ quinto con 2 mil millones de búsquedas.

-El informe señala que los números muestran que sigue siendo una gran oportunidad para el marketing y la publicidad aprovechar los incesantes crecimientos en el número de usuarios de Internet y de la actividad que cada uno de ellos tiene en la red.

Fuente: MZBlog

Related Posts with Thumbnails

Calendario

abril 2024
L M X J V S D
« Nov    
1234567
891011121314
15161718192021
22232425262728
2930  

Spam

Otros enlaces

  • Enlaces

    Este blog no tiene ninguna relación con ellos, ni los recomienda.


  • Paperblog

    autobus las palmas aeropuerto cetona de frambuesa