Big Data … Big CHALLENGE

Algunas de las tendencias tecnológicas y sociales más extendidas, son un auténtico reto para la gestión de datos más tradicional o para las platformas y herramientas de  Business Intelligence. Es decir,

  • El aumento inmenso del volumen de datos de todo tipo en formato digital no es una broma… y a un ritmo de aumento del 59% anual !! Son datos producidos por las fuentes más tradicionales, y otras no tanto: sensores, dispositivos, bots, crawlers, imágenes médicas, logs, videos, pdf, imágenes, datos georeferenciados etc.. IDC pronostica que el volumen de información digital este año será de 1.2MZetabytes. Es decir, algo así como 1021 bytes que se multiplicaran por 44 en la próxima década. clip_image001
  • Pero además nos encontramos que cada vez tiene más valor la información no estructurada, es decir, aquella que no se encuentra perfectamente recogida e indexada en su flamante Base de Datos. A modo de ejemplo pensad en p.e. en la información intercambiada en Redes Sociales. Un valor enorme, demandado e imprescindible… pero de análisis no trivial.
  • Pero además todo esto coincide con que, por primera vez, nos encontramos con un conjunto de tecnologías “factibles” que permiten enfrentar el manejo masivo de este tipo y volúmenes de datos. El Cloud Computing (Windows Azure) y la potencia del hardware de las tecnologías más cotidianas y accesibbles, han reducido drásticamente el coste de adquisición de la capacidad de computación y almacenamiento, y está cambiando fundamentalmente la economía de procesamiento de datos. Si añadimos los nuevos marcos de procesamiento distribuido en paralelo, como Hadoop, al combinarse con un ecosistema rico de herramientas proporciona una plataforma para hacer frente a las tareas de procesamiento de datos masivos.

Pues bien, el término BigData, se refiere precisamente a toda esta casuística de tendencias, tecnologías y perspectivas de negocio en torno a la posibilidad de obtener información de mucho valor de estos volúmenes masivos de datos p.e.:

  • Entender el comportamiento del usuario o ciudadanos y sus interacciones en línea
  • Gobierno abierto y Transparencia son dos aspiraciones que se podrán ver favorecidas
  • Identificar las tendencias y los temas populares en los medios de comunicación social, análisis de los sentimientos
  • Optimización de las campañas de publicidad y la focalización
  • Descubrir las tendencias epidemiológicas médica (por ejemplo, identificar el siguiente brote de gripe)
  • La identificación de fraudes financieros en las transacciones del sector público
  • Un etc.. tan enorme solo limitado por la imaginación

¿Y qué tiene que decir Microsoft sobre todo esto?

Microsoft no es un recién llegado a este mundo, fundamentalmente porque muchos de nuestros negocios han necesitado de una gestión masiva de datos e información para su propio funcionamiento: Bing (más de 100 petabytes analizados), XBOX Kinect, MSN así como por el conocimiento proporcionado por nuestras tecnologías más centradas en la gestión de información (soluciones en torno a data warehouse de Microsoft® SQL Server® 2008 R2, SQL Server® Fast Track Data Warehouse, Business Data Warehouse y SQL Server® 2008 R2 Parallel Data Warehouse, LINQ para HPC (High Performance Computing) etc..

Es muy relevante en este escenario la adopción en el roadmap por parte de Microsoft de la tecnología Hadoop (proyecto OSS liderado por la Fundación Apache), en concreto el lanzamiento de un Apache Haddop para Windows Server y Windows Azure para acelerar su adopción en la Empresa. Y qué trae Haddop al mundo Enterprise?

  • Acceso más extendido a Hadoop por parte de usuarios finales,  profesionales de TI y desarrolladores, a través de una fácil instalación y configuración y programación simplificada con JavaScript.
  • Distribución de Hadoop Enterprise ready con mayor seguridad, rendimiento, facilidad de uso.
  • Capacidad de explotar la información a través de la utilización de herramientas familiares como Excel, PowerPivot, SQL Server Analysis Services y Reporting Services.
  • El CTP de servicio Hadoop base de Microsoft para Windows Azure ya está disponible. Microsoft emitirá un código que será utilizado por clientes seleccionados para acceder a los servicios basados ??en Hadoop.

Pero no todo es estupendo respecto al Big Data, y surgen cuestiones e importantes challenges para reflexión:… pero eso lo dejaremos para otra ocasión.