Análisis

Construyendo una arquitectura de big data: componentes centrales, mejores prácticas

single-image

El volumen y la variedad de datos estructurados, semiestructurados y no estructurados, que crecen exponencialmente y se generan a velocidades cada vez mayores a partir de una amplia gama de fuentes, es la esencia del big data.

Los investigadores han estimado que para 2025 el mundo creará 463 exabytes de datos todos los días, es decir, 463 mil millones Gigabytes por día.

Por supuesto, ninguna empresa necesitará todos estos datos. Sin embargo, debe recopilar, almacenar y analizar tanto como sea posible para aprovechar la información procesable que se necesita para competir de manera efectiva y prosperar en esta era digital.

Sin embargo, muchas empresas apenas están comenzando su viaje de big data. «La mayoría de las empresas están apenas rascando la superficie de lo que pueden hacer los macrodatos», dijo Christophe Antoine, vicepresidente de ingeniería de soluciones globales del proveedor de plataformas de integración de datos Talend. Una razón principal: no tienen una arquitectura de big data. «Si simplemente repite lo que ha hecho», agregó Antoine, «es muy probable que no esté satisfecho con los resultados».

¿Qué es una arquitectura de big data?

Las organizaciones necesitan evolucionar su pila de tecnología para manejar el volumen y la variedad de datos disponibles para ellas, y necesitan implementar la infraestructura que pueda hacer este trabajo a la máxima velocidad, a menudo en tiempo real o casi en tiempo real.

«Las bases de datos tradicionales y las tecnologías de procesamiento de datos no se pueden escalar para satisfacer las necesidades comerciales», dijo Sripathi Jagannathan, gerente general de desarrollo de datos y plataformas para el servicio de transformación digital de UST.

Aquí es donde entra en juego la arquitectura de big data. Fue diseñado específicamente para registrar, procesar y analizar datos que son demasiado grandes o complejos para que los procesen los sistemas de bases de datos convencionales. Además, está destinado a escalar a medida que crece el programa de big data de una empresa, tanto en términos de la cantidad de datos utilizados como de la cantidad de casos de uso empresarial que dependen de los datos de big data de la empresa.

«La arquitectura de big data», dijo Jagannathan, «es un enfoque de la infraestructura y el software que facilita el almacenamiento y el procesamiento de grandes cantidades de datos y una variedad de datos que se generan a diferentes velocidades».

Componentes de la arquitectura de Big Data

Los consultores de TI indicaron que algunos líderes empresariales buscaban erróneamente una solución única para cumplir con sus ambiciones de big data. En el mundo real, las organizaciones deben diseñar e implementar una arquitectura en capas para manejar con éxito la gama completa de tareas requeridas en un programa de big data.

El modelo de arquitectura de big data más simple tiene tres capas, dijo Sandhya Balakrishnan, directora de la región de EE. UU. En la consultora de análisis de big data Brillio.

Múltiples niveles en una arquitectura de big data

La Capa de almacenamiento Contiene los datos que la organización ingiere de las diversas fuentes de generación de datos, ya sea que esas fuentes sean sistemas operativos patentados, sistemas de terceros u otros puntos finales.

La Capa de procesamiento podría realizar procesamiento por lotes, procesamiento en tiempo real o procesamiento híbrido.

La Capa de consumo Permite que una empresa utilice datos de diversas formas a través de motores de análisis, consultas de datos o aplicaciones de inteligencia artificial y aprendizaje automático, e incluye visualización de datos que se puede activar mediante una variedad de herramientas diferentes.

Otros modelos dividen una arquitectura de big data en varios niveles y separan más componentes individuales. Por ejemplo, algunos modelos enumeran los niveles individuales de la siguiente manera: recopilador de datos, ingestión de datos, almacenamiento, procesamiento, recuperación de datos, análisis de datos y visualización de datos.

Otros modelos ofrecen seguridad y monitoreo de datos adicionales.

Desafíos de diseño e implementación

Los equipos de TI generalmente enfrentan varios desafíos al diseñar e implementar su arquitectura de big data y administrar toda la infraestructura de soporte:

  • Elegir los componentes y herramientas adecuados que equilibren las necesidades actuales, las necesidades futuras, los costos y los rendimientos esperados.
  • Integración de los diversos componentes, en particular la integración en sistemas heredados que generan datos, para la adquisición, procesamiento y uso de todos los datos necesarios.
  • Recopile, integre y procese a la velocidad y el tamaño necesarios para los casos de uso de una organización.
  • Tener las habilidades necesarias para evaluar adecuadamente las opciones, diseñar y desarrollar la arquitectura y, en última instancia, gestionar la tecnología en uso. «Debes tener arquitectos que comprendan los pros y los contras y tengan experiencia de por qué estás usando uno [technology] sobre otro «, remarcó Antoine.
  • Asegúrese de que los datos estén seguros según los requisitos legales, los estándares de protección de datos y las mejores prácticas.
  • Habilite la confianza en los datos para que los usuarios puedan estar seguros de los resultados que se obtendrán al maximizar el valor de los datos. «Es necesario crear la utilidad y las herramientas adecuadas para asegurarse de que la calidad de los datos sea visible», dijo Balakrishnan.
  • Optimice los datos. «Podemos almacenar, transportar, limpiar, consultar y presentar datos de diversas formas», dijo Jeremiah Cunningham, ingeniero de ciencia de datos de la aseguradora de vida Bestow. «La empresa puede optar por examinar los datos desde diferentes ángulos, posiblemente basados ​​en el tiempo, basados ​​en cohortes o una subpoblación más compleja. [But] El acceso a grandes cantidades de datos de formas complejas crea un problema de optimización que puede manifestarse de diversas formas. «

Mejores prácticas de arquitectura de Big Data

Líderes tecnológicos experimentados ofrecieron las siguientes mejores prácticas para diseñar y operar una arquitectura de big data que puede producir resultados:

  • Desarrolle una visión matizada del valor comercial que la empresa busca generar a partir de su programa de big data y utilice esa evaluación para guiar una implementación ágil de las tecnologías requeridas.
  • Construya la arquitectura de acuerdo con la visión estratégica y véala como un programa ágil mientras crea suficientes plantillas para hacerlo escalable. «Construya la base tecnológica con una visión holística», aconsejó Balakrishnan.
  • Desacople los sistemas para «garantizar que las nuevas herramientas y tecnología se puedan integrar sin interrupciones significativas», dijo Jagannathan.
  • Cree un programa de gobierno de datos sólido para garantizar que los datos estén bien protegidos, completos para los casos de uso previstos y que los usuarios confíen en ellos.

Ejemplos de tecnologías disponibles

Numerosas tecnologías se combinan para formar una arquitectura de big data, de modo que los arquitectos de TI de las empresas pueden elegir herramientas de varios proveedores al implementar su infraestructura.

Se espera que el valor estimado para el mercado global de big data crezca casi un 20% anual y supere los 243.000 millones de dólares para 2027, según el informe «Big Data – Trayectoria y análisis del mercado global» de Research and Markets. Las tecnologías que componen el ecosistema de big data incluyen:

  • Extraer, transformar y cargar herramientas;
  • Lagos de datos y almacenes de datos;
  • Plataformas en la nube para procesamiento y almacenamiento;
  • Software de visualización de datos e inteligencia empresarial; y
  • Herramientas de seguridad y gobernanza de datos.

«Examine las necesidades actuales y las perspectivas futuras de datos en su organización y haga un plan de las tecnologías conceptuales que necesitará», aconsejó Cunningham. “Al investigar productos y opciones potenciales desde el principio, puede reducir el área problemática a un tamaño manejable y luego obtener información de sus colegas sobre problemas potenciales o ganancias inesperadas. [It’s critical] Investigue y seleccione las tecnologías adecuadas para el trabajo adecuado para maximizar la productividad y minimizar el tiempo y los costos. «

También te gustará