viernes, 28 de diciembre de 2012

Pentaho Marketplace: Un gran avance para la comunidad

Hace poco ha sido publicada la versión 4.8 de Pentaho que se puede descargar, cómo siempre desde Sourceforge    (bi-server) y demás .

De esta nueva versión quiero destacar lo que para mi  es su avance más importante: Pentaho Marketplace . Sobre el que han hablado ya Will Gorman  y Pedro Alves.

viernes, 7 de septiembre de 2012

Caso de Estudio: Bicing IV parte



Hasta ahora hemos estado analizando el Bicing  desde el punto de vista de un gestor. Viendo las estaciones y comparándolas. Esta vez quiero hacer algo útil.  Así que... Qué nos puede interesar a nosotros, usuarios del Bicing?

Evidentemente saber o preveer el estado de las estaciones que acostumbro a usar. Esto se puede hacer mediante el primer cuadro que hicimos:

jueves, 6 de septiembre de 2012

Caso de Estudio: Bicing III parte

En la anterior entrada  hemos visto algunas de las ventajas de pintar los datos en un mapa. Permite visualizar la información y extraer patrones visuales que CONTEXTUALIZAN mucho mas los datos permitiendo comparar mucho mejor y analizar mucha información ágilmente.

Siguiendo con la idea de pintar los datos en el mapa y contextualizar la información, si la gente usa el bicing para ir a trabajar, en agosto debería haber muchas menos estaciones con pocas bicicletas...   Estais pensando lo mismo que yo?  Y si hacemos un time lapse  para ver cómo evolucionan las estaciones?



Podéis ver cómo  las "estaciones malas" , aquellas que tiene 3 o menos bicicletas disponibles baja considerablemente durante el mes de agosto. Y en septiembre todos vuelve a la normalidad. Si os fijais, la situación del 06 / 09 / 2012 se empieza a parecer 27 / 07 / 2012



viernes, 6 de julio de 2012

Caso de Estudio: Bicing II parte

En la anterior entrada hemos hecho un pequeño caso de estudio sobre los datos del Bicing de Barcelona. Y hemos visto cómo el principal uso que se le da al servicio de Bicing, a tenor de los datos, es para ir a trabajar.

Si nos fijamos, hay dos patrones, las estaciones que son usadas "para ir a trabajar" y las que son usadas para "venir a trabajar". Esto se puede ilustrar fácilmente con las siguientes 2 estaciones:

La estación 127 - Aragó 661  Si nos fijamos empiezan a bajar las bicicletas disponibles  desde las 7:30 hasta las 8:30 que es el intervalo horario donde la gente suele ir a trabajar:



martes, 19 de junio de 2012

Caso de Estudio: Bicing

Estamos realizando un pequeño caso de estudio. El objetivo es explorar y comparar diferentes opciones de visualización y cómo, visualizando un mismo set de datos se puede aportar más o menos información más o menos relevante.

Para ello me voy a basar en los datos de diferentes servicios de bicicletas públicas  que proporciona http://www.citybik.es/ y que mi compañero Xavi @xgumara ha recoplidato.  De hecho Xavi recoge datos de diferentes ciudades pero para un primer estudio nos centraremos en el servicio del Bicing de Barcelona.

Tenemos un proceso ETL que carga los datos y que compone un datamart con las siguientes perspectivas de análisis y métricas a analizar:

  • Estación: Ubicación  de la estación 
  • Tiempo : El estado de las estaciones en los distintos momentos de tiempo
  • Anclajes disponibles: Número de anclajes libres para que los usuarios depositen su bicicleta
  • Bicicletas disponibles: Número de anclajes ocupados o bicicletas disponibles para que los usuarios las utilicen.

Ciertamente es un set de datos reducido y en parte esa es la gracia de este ejercicio.  Extraerle el máximo de información a este set de datos reducido.


Cual va a ser el primer enfoque? Pues el claro y evidente:

Evolución de las bicicletas disponibles a lo largo del tiempo. 


Pero al lo largo del tiempo ¿Que quiere decir?, la comparación de la media de bicicletas disponibles en diferentes días o la evolución durante un día? Cómo siempre: Lo quiero todo




jueves, 31 de mayo de 2012

Visualizando datos I

Estoy haciendo un estudio sobre alternativas de visualización de datos. El objetivo que persigo es dar con una librería que me permita pintar datos de forma rápida, sencilla y flexible.

Para ello parto de la pre-selección que han hecho en http://selection.datavisualization.ch.

A esta selección le aplico mis filtros: Que sea Open Source y que sea JavaScript / Html / Java.

Por lo que me quedo con los siguientes candidatos:

  • d3js : A priori el mejor posicionado. Con mucha documentación y referencias. El primero de la lista
  • data-js :  Se me ha hecho poco claro y no he encontrado suficiente documentación.
  • Google Chart Tools : Esta muy bien, es muy fácil de usar y parece un sólido candidato... pero ... los términos del servicio de Google no me acaban de convencer.
  • InfoVis: Un framework del que no había oído hablar pero que promete mucho. Además si miras en la wikipedia dan muy buenas referencias.

¿Me dejo alguna digna de mención? Si alguien considera que si que por favor lo diga.

Así pues, La primera opción es d3js. Es una librería estupenda que permite  pintar cualquier cosa. Y quizás si principal problema sea ese... que tienes que pintarlo todo. Quiero decir, puedes hacer este gráfico :




domingo, 6 de mayo de 2012

Contextualizar, Contextualizar y punto de vista


Ya había hablado antes sobre la importancia de contextualizar la información que se muestra y la importancia de buscar una visualización adecuada para la información que se quiere mostrar.  Y para muestra un botón. Fijaos en la gráfica que se muestra a continuación:
Si... está sacada de google public data

El caso es que esta gráfica me ha hecho pensar... y mis pensamientos han ido más o menos por este orden:
  1. Wow! Alemania es la que tiene una mayor deuda.
  2. Reino Unido también lleva una escalada importante
  3. Alemania, Italia, Francia, Reino Unido, España, Bélgica... Ese no es el orden en el que estoy acostumbrado a ver las primas de riesgo...  Aquí pasa algo raro....  
Por lo que me he puesto a mirar las métricas disponibles y he encontrado que hay otra métrica más interesante que la que estamos visualizando "Deuda del gobierno general euros". La deuda relativa al PIB. Alemania es un país con grandes recursos por lo que la deuda que puede soportar sin problemas es mucho mayor de lo que puede soportar Grecia o España.

Volvamos a ver la gráfica, pero esta vez relativizada al PIB

También de google public data

Ahora el gráfico tiene mucho más sentido teniendo en cuenta las noticias económicas que me llega por todas partes. 

  • La deuda de Grecia, relativa a su PIB, es la más elevada. Concuerda con las noticias económicas.
  • La deuda de Irlanda también también tiene una tendencia parecida.
  • Y la deuda de España también tiene la misma forma... aunque los valores son bastante más bajos. En realidad en este gráfico estamos bastante cerca de Alemania.


Conclusión: Sigo sin entender de economía pero los datos contextualizados tienen algo más de sentido.