El paradigma de Big Data ha emergido recientemente permitiendo procesar cantidades ingentes de información más allá de las capacidades de la tecnología de bases de datos tradicionales. El paradigma Big Data ejercita la computación en nube para disponer de una infraestructura ultraescalable de computación y almacenamiento. En Cloud4BigData mejoraremos las tecnologías Big Data y la infraestructura cloud subyacente para obtener altos niveles de eficiencia, flexibilidad, escalabilidad, alta disponibilidad, QoS, facilidad de uso y seguridad y privacidad.

El paradigma Big Data está obteniendo muy buenos resultados en procesado analítico offline con tecnologías mapreduce, pero todavía tienen importantes carencias. La carencia más importante es la falta de soporte para otras necesidades de gestión de datos, más concretamente, el procesamiento transaccional en línea (OLTP), procesamiento analítico en línea (OLAP) y el procesamiento complejo de eventos (CEP). En Cloud4BigData proporcionaremos soporte Big Data para cargas de trabajo y aplicaciones OLTP, OLAP y CEP. Este objetivo implica superar retos muy duros, tales como escalar el procesamiento transaccional, el procesado de consultas analíticas y la gestión de eventos masivos, así como la integración de estas tecnologías en una plataforma integral. De hecho, muchas aplicaciones de Big Data requieren el uso combinado de tecnologías cloud para Big Data especializadas en distintos propósitos tales como las bases de datos de grafos, almacenes clavevalor, bases de datos orientadas a documentos, bases de datos SQL, bases de datos en memoria, almacenes de datos orientados a columnas, CEP, etc. Cloud4BigData proporcionará un soporte holístico para estas tecnologías, facilitando y acelerando el desarrollo de aplicaciones Big Data complejas sobre múltiples almacenes de datos cloud heterogéneos. Otro importante inconveniente de las tecnologías Big Data es su eficiencia. Las tecnologías actuales tales como mapreduce y su almacenamiento subyacente, tal como Hadoop File System (HDFS) y el almacén clavevalor HBase, obtienen grandes niveles de escalabilidad, pudiendo utilizar entre 3,000 y 4,000 nodos. Desafortunadamente, consiguen esta escalabilidad con niveles muy bajos de eficiencia. En Cloud4BigData aumentaremos la eficiencia del procesado de Big Data entre 4 y 5 veces.

La computación en nube, infraestructura subyacente de Big Data, está madurando y siendo ampliamente adoptada. Sin embargo, la tecnología cloud está muy lejos de los requisitos de los usuarios de Big Data especialmente en términos de eficiencia, flexibilidad, facilidad de uso, SLAs (Service Level Agreements), seguridad y privacidad. En términos de Infraestructura como servicio (IaaS), son necesarias mejoras significativas, tales como mayor eficiencia energética, flexibilidad en la comunicación (p.ej. a través de software defined networks – SDNs), simplicidad en la gestión de la infraestructura, etc. A nivel de plataforma como servicio (PaaS) se demandan plataformas más eficientes, que den elasticidad, escalabilidad y tolerancia a fallos a las aplicaciones de forma totalmente transparente, algo que no ocurre hoy día, donde la escalabilidad se consigue a través de sharding y requiere modificar profundamente las aplicaciones. Adicionalmente, los SLAs no están bien soportados en clouds debido a la interferencia de los distintos clientes desplegados en el mismo hardware, compartiendo rutas de comunicación, etc. La seguridad en clouds ha mejorado a nivel de infraestructura cloud (IaaS), pero las aplicaciones y los software stacks/plataformas en los que se basan siguen estando expuestos a la explotación de vulnerabilidades y ataques de denegación de servicio distribuidos (DDoS). En Cloud4BigData mejoraremos la eficiencia del PaaS, así como su elasticidad, y seguridad, haciendo uso de tecnología cloud escalable, como el procesamiento de eventos ultraescalable y elástico.

Finalmente, Cloud4BigData demostrará sus capacidades en áreas de aplicación emergentes con requisitos muy exigentes tales como machinetomachine, Internet of Things, así como en áreas de aplicación tradicionales tales como banca, telefonía, comunicación multimedia, simulaciones distribuidas, etc., que demandan funcionalidades más allá de las capacidades actuales de las tecnologías Big Data.

En el proyecto participan los siguientes grupos de investigación:

– Laboratorio de Sistemas Distribuidos

– Future Networks Laboratory

– IMDEA Networks

– Laboratorio de Sistemas

  • Keywords:

Big Data, Cloud Computing, Data Management.