Análisis

Introducción al big data en la nube

single-image

Big data ya no es una palabra de moda vacía.

Las organizaciones de todos los tamaños reconocen el valor de los datos y los utilizan para medir el desempeño, identificar desafíos e identificar nuevas oportunidades de crecimiento. El big data también se ha convertido en un factor clave en el aprendizaje automático para entrenar modelos complejos y facilitar la IA.

Si bien el big data tiene ventajas, la gran cantidad de recursos informáticos y servicios de software necesarios para respaldar los esfuerzos de big data puede drenar el capital financiero e intelectual incluso de las empresas más grandes. La nube ha logrado grandes avances para satisfacer la necesidad de big data. Puede proporcionar recursos y servicios informáticos casi ilimitados que permiten iniciativas de big data para cualquier empresa.

Aquí sopesaremos los compromisos, evaluaremos los modelos en la nube y veremos qué servicios están disponibles actualmente para big data en la nube.

¿Qué es Big Data en la nube?

Los macrodatos y la computación en la nube son dos ideas fundamentalmente diferentes, pero los dos conceptos están tan entrelazados que están casi inextricablemente vinculados. Es importante definir las dos ideas y ver cómo se relacionan entre sí.

Big data

Big data se refiere a grandes cantidades de datos que pueden estar estructurados, semiestructurados o no estructurados. Se trata de análisis y, por lo general, se deriva de una variedad de fuentes, como la entrada del usuario, los sensores de IoT y los datos de ventas.

Big data también se refiere al procesamiento de grandes cantidades de datos para responder una consulta e identificar una tendencia o patrón. Los datos se analizan mediante una serie de algoritmos matemáticos que varían según la importancia de los datos, la cantidad de fuentes involucradas y la intención de la empresa detrás del análisis. Las plataformas de software de computación distribuida como Apache Hadoop, Databricks y Cloudera se utilizan para desglosar y organizar análisis tan complejos.

Las seis V del Big Data
Conoces las 3 V de Big Data. Aquí hay tres más.

El problema del big data es el tamaño de la infraestructura informática y de red necesaria para construir una instalación de big data. Las inversiones financieras en servidores, almacenamiento y redes dedicadas pueden ser significativas, al igual que las habilidades de software necesarias para construir un entorno informático distribuido eficaz. Y una vez que una empresa invierte en big data, solo es valioso para la empresa cuando está en funcionamiento; no tiene valor cuando no se utiliza. Los requisitos de big data han restringido durante mucho tiempo la tecnología a las empresas más grandes y mejor financiadas. Aquí es donde la computación en la nube ha logrado avances increíbles.

nube

La computación en la nube proporciona recursos y servicios informáticos bajo demanda. Un usuario puede armar fácilmente la infraestructura deseada a partir de instancias de computación basadas en la nube y recursos de almacenamiento, conectar servicios en la nube, cargar conjuntos de datos y realizar análisis en la nube. Los usuarios pueden usar recursos casi ilimitados en la nube pública, usar esos recursos durante el tiempo que sea necesario y luego descartar el medio ambiente; solo pagan por los recursos y servicios que realmente usan.

La nube pública se ha convertido en la plataforma ideal para big data. Una nube tiene los recursos y servicios que una empresa puede usar cuando sea necesario, y la empresa no necesita construir, poseer o mantener la infraestructura. Por lo tanto, la nube hace que las tecnologías de big data sean accesibles y asequibles para empresas de casi todos los tamaños.

Las tendencias de big data más importantes en 2021
Conozca las tendencias de big data más importantes de 2021.

Los beneficios del big data en la nube

La nube ofrece una serie de beneficios clave para empresas de todos los tamaños. Algunos de los beneficios más inmediatos e importantes de big data en la nube incluyen los siguientes.

Escalabilidad

Un centro de datos corporativo típico está limitado en el espacio, la energía, la refrigeración y el presupuesto para comprar e implementar la gran cantidad de hardware que se necesita para construir una infraestructura de big data. En comparación, una nube pública administra cientos de miles de servidores distribuidos en una flota de centros de datos globales. Los servicios de infraestructura y software ya están en su lugar y los usuarios pueden armar la infraestructura para un proyecto de big data de casi cualquier tamaño.

agilidad

No todos los proyectos de big data se crean de la misma manera. Un proyecto puede requerir 100 servidores y otro proyecto puede requerir 2000 servidores. Con la nube, los usuarios pueden dedicar tantos recursos como necesiten para realizar una tarea y luego liberar esos recursos cuando la tarea esté completa.

costos

Un centro de datos empresarial es una gran inversión de capital. Además del hardware, las empresas también deben pagar las instalaciones, la electricidad, el mantenimiento continuo y más. La nube procesa todos estos costos en un modelo de alquiler flexible en el que los recursos y servicios están disponibles bajo demanda y siguen un modelo de pago por uso.

Accesibilidad

Muchas nubes ofrecen una presencia global que permite proporcionar recursos y servicios en la mayoría de las principales regiones del mundo. Esto permite que las actividades de procesamiento y datos tengan lugar en las cercanías de la región donde se encuentra la tarea de big data. Por ejemplo, si muchos de los datos se almacenan en una región particular de un proveedor de nube, es relativamente fácil implementar los recursos y servicios para un proyecto de big data en esa región de nube en particular, en lugar del costo de mover esos datos a use una región diferente.

elasticidad

Los datos son el valor real de los proyectos de big data y el beneficio de la resiliencia de la nube es la confiabilidad del almacenamiento de datos. Las nubes replican datos de forma predeterminada para mantener una alta disponibilidad de los recursos de almacenamiento, y hay opciones de almacenamiento más persistentes disponibles en la nube.

Las desventajas del big data en la nube

Las nubes públicas y muchos servicios de big data de terceros han demostrado su eficacia en casos de uso de big data. A pesar de los beneficios, las empresas también deben considerar algunos de los posibles obstáculos. Algunas de las principales desventajas del big data en la nube pueden ser las siguientes.

Dependencia de la red

El uso de la nube depende de la conectividad de red completa desde la LAN a Internet a la red del proveedor de la nube. Las fallas a lo largo de esta ruta de red pueden, en el mejor de los casos, conducir a una mayor latencia o, en el peor de los casos, a la inaccesibilidad completa de la nube. Si bien es posible que una interrupción no afecte a un proyecto de big data de la misma manera que a una carga de trabajo crítica para el negocio, los efectos de las interrupciones deben considerarse cada vez que utilice la nube para big data.

Costos de almacenamiento

A largo plazo, el almacenamiento de datos en la nube puede estar asociado a costes considerables en proyectos de big data. Los tres temas principales son el almacenamiento de datos, la migración de datos y la retención de datos. Se necesita tiempo para cargar grandes cantidades de datos en la nube, y luego hay una tarifa mensual para estas instancias de almacenamiento. Es posible que se apliquen cargos adicionales si los datos se transfieren nuevamente. Además, los grandes conjuntos de datos suelen ser sensibles al tiempo, lo que significa que algunas horas de datos en el futuro no tienen valor para el análisis de grandes datos. El almacenamiento de datos innecesarios cuesta dinero, por lo que las organizaciones deben aplicar políticas integrales de retención y eliminación de datos para administrar el costo del almacenamiento en la nube en torno a big data.

10 desafíos de big data
Tenga cuidado con estos 10 desafíos de big data.

seguridad

Los datos involucrados en proyectos de big data pueden ser datos personales o de propiedad que están sujetos a protección de datos y otras regulaciones gubernamentales o de la industria. Los usuarios de la nube deben tomar las medidas necesarias para garantizar la seguridad del almacenamiento y la computación en la nube mediante la autenticación y autorización adecuadas, el cifrado de datos en reposo y en vuelo, y un registro extenso del acceso y uso de los datos.

Falta de estandarización

No existe una forma única de diseñar, implementar u operar una implementación de big data en la nube. Esto puede provocar un rendimiento deficiente y exponer a la empresa a posibles riesgos de seguridad. Los usuarios comerciales deben documentar la arquitectura de big data junto con todas las políticas y procedimientos relacionados con su uso. Esta documentación puede ser la base para futuras optimizaciones y mejoras.

Elija el modelo de implementación de nube adecuado

Entonces, ¿qué modelo de nube es ideal para la entrega de big data? Las empresas suelen tener cuatro modelos de nube diferentes para elegir: pública, privada, híbrida y multinube. Es importante comprender la naturaleza y las ventajas y desventajas de cada modelo.

Instantánea de los cuatro modelos de implementación en la nube
¿Qué modelo de implementación es el adecuado para usted?

Nube privada

Las nubes privadas brindan a las empresas el control de su entorno de nube, a menudo para cumplir con requisitos normativos, de seguridad o de disponibilidad específicos. Sin embargo, esto es más costoso porque una empresa debe poseer y operar toda la infraestructura. Por lo tanto, una nube privada solo se puede utilizar para pequeños proyectos sensibles de big data.

Nube pública

La combinación de recursos bajo demanda y escalabilidad hace que la nube pública sea ideal para casi cualquier implementación de big data. Sin embargo, los usuarios de la nube pública deben administrar los recursos y servicios de la nube que utilizan. En un modelo de responsabilidad compartida, el proveedor de nube pública maneja la seguridad de la nube mientras los usuarios configuran y administran la seguridad en la nube.

Nube híbrida

Una nube híbrida es útil cuando se comparten ciertos recursos. Por ejemplo, una nube híbrida podría permitir que los macrodatos se almacenen en la nube privada local, manteniendo efectivamente los conjuntos de datos de forma local y segura, y que la nube pública se utilice para los recursos informáticos y los servicios de análisis de grandes datos. Sin embargo, las nubes híbridas pueden ser más complejas de construir y administrar, y los usuarios deben lidiar con todos los problemas y preocupaciones de las nubes públicas y privadas.

Multinube

Con múltiples nubes, los usuarios pueden mantener la disponibilidad y aprovechar los beneficios de costos. Sin embargo, los recursos y servicios rara vez son los mismos entre las nubes, lo que hace que la administración de varias nubes sea más compleja. Este modelo de nube también conlleva más riesgos de supervisión de seguridad y violaciones de cumplimiento que un solo uso de nube pública. Dado el tamaño de los proyectos de big data, la complejidad adicional de las implementaciones de múltiples nubes puede hacer que sea innecesariamente difícil.

Consulte los servicios de big data en la nube

Si bien el hardware subyacente recibe la mayor atención y el presupuesto para las iniciativas de big data, son los servicios (las herramientas de análisis) los que permiten el análisis de big data. La buena noticia es que las empresas que buscan implementar iniciativas de big data no tienen que empezar de cero.

Los proveedores no solo ofrecen servicios y documentación, sino que también pueden organizar soporte y asesoramiento para optimizar sus proyectos de big data. Una selección de los servicios de big data disponibles de los tres principales proveedores incluye lo siguiente.

AWS

  • Amazon Elastic MapReduce
  • AMI de aprendizaje profundo de AWS
  • Amazon SageMaker

Microsoft Azure

  • Azure HDInsight
  • Servicios de análisis de Azure
  • Azure Databricks

Google Cloud

  • Google BigQuery
  • Google Cloud Dataproc
  • Google Cloud AutoML

Recuerde que existen muchos servicios de terceros potentes. Por lo general, estos proveedores ofrecen más servicios de nicho, mientras que los grandes proveedores persiguen una estrategia única para todos para sus servicios. Algunas opciones de terceros incluyen las siguientes:

  • Cloudera
  • Plataforma de datos de Hortonworks
  • Servicio de Big Data de Oracle
  • Nube de datos de copo de nieve