El paradigma de Big Data ha emergido recientemente permitiendo procesar cantidades ingentes de información más allá de las capacidades de la tecnologÃa de bases de datos tradicionales. El paradigma Big Data ejercita la computación en nube para disponer de una infraestructura ultraescalable de computación y almacenamiento. En Cloud4BigData mejoraremos las tecnologÃas Big Data y la infraestructura cloud subyacente para obtener altos niveles de eficiencia, flexibilidad, escalabilidad, alta disponibilidad, QoS, facilidad de uso y seguridad y privacidad.
El paradigma Big Data está obteniendo muy buenos resultados en procesado analÃtico offline con tecnologÃas mapreduce, pero todavÃa tienen importantes carencias. La carencia más importante es la falta de soporte para otras necesidades de gestión de datos, más concretamente, el procesamiento transaccional en lÃnea (OLTP), procesamiento analÃtico en lÃnea (OLAP) y el procesamiento complejo de eventos (CEP). En Cloud4BigData proporcionaremos soporte Big Data para cargas de trabajo y aplicaciones OLTP, OLAP y CEP. Este objetivo implica superar retos muy duros, tales como escalar el procesamiento transaccional, el procesado de consultas analÃticas y la gestión de eventos masivos, asà como la integración de estas tecnologÃas en una plataforma integral. De hecho, muchas aplicaciones de Big Data requieren el uso combinado de tecnologÃas cloud para Big Data especializadas en distintos propósitos tales como las bases de datos de grafos, almacenes clavevalor, bases de datos orientadas a documentos, bases de datos SQL, bases de datos en memoria, almacenes de datos orientados a columnas, CEP, etc. Cloud4BigData proporcionará un soporte holÃstico para estas tecnologÃas, facilitando y acelerando el desarrollo de aplicaciones Big Data complejas sobre múltiples almacenes de datos cloud heterogéneos. Otro importante inconveniente de las tecnologÃas Big Data es su eficiencia. Las tecnologÃas actuales tales como mapreduce y su almacenamiento subyacente, tal como Hadoop File System (HDFS) y el almacén clavevalor HBase, obtienen grandes niveles de escalabilidad, pudiendo utilizar entre 3,000 y 4,000 nodos. Desafortunadamente, consiguen esta escalabilidad con niveles muy bajos de eficiencia. En Cloud4BigData aumentaremos la eficiencia del procesado de Big Data entre 4 y 5 veces.
La computación en nube, infraestructura subyacente de Big Data, está madurando y siendo ampliamente adoptada. Sin embargo, la tecnologÃa cloud está muy lejos de los requisitos de los usuarios de Big Data especialmente en términos de eficiencia, flexibilidad, facilidad de uso, SLAs (Service Level Agreements), seguridad y privacidad. En términos de Infraestructura como servicio (IaaS), son necesarias mejoras significativas, tales como mayor eficiencia energética, flexibilidad en la comunicación (p.ej. a través de software defined networks – SDNs), simplicidad en la gestión de la infraestructura, etc. A nivel de plataforma como servicio (PaaS) se demandan plataformas más eficientes, que den elasticidad, escalabilidad y tolerancia a fallos a las aplicaciones de forma totalmente transparente, algo que no ocurre hoy dÃa, donde la escalabilidad se consigue a través de sharding y requiere modificar profundamente las aplicaciones. Adicionalmente, los SLAs no están bien soportados en clouds debido a la interferencia de los distintos clientes desplegados en el mismo hardware, compartiendo rutas de comunicación, etc. La seguridad en clouds ha mejorado a nivel de infraestructura cloud (IaaS), pero las aplicaciones y los software stacks/plataformas en los que se basan siguen estando expuestos a la explotación de vulnerabilidades y ataques de denegación de servicio distribuidos (DDoS). En Cloud4BigData mejoraremos la eficiencia del PaaS, asà como su elasticidad, y seguridad, haciendo uso de tecnologÃa cloud escalable, como el procesamiento de eventos ultraescalable y elástico.
Finalmente, Cloud4BigData demostrará sus capacidades en áreas de aplicación emergentes con requisitos muy exigentes tales como machinetomachine, Internet of Things, asà como en áreas de aplicación tradicionales tales como banca, telefonÃa, comunicación multimedia, simulaciones distribuidas, etc., que demandan funcionalidades más allá de las capacidades actuales de las tecnologÃas Big Data.
En el proyecto participan los siguientes grupos de investigación:
–Â Laboratorio de Sistemas Distribuidos
– Future Networks Laboratory
–Â IMDEA Networks
–Â Laboratorio de Sistemas
-
Keywords:
Big Data, Cloud Computing, Data Management.