En la economía actual impulsada por los datos, las empresas no pueden permitirse el lujo de tener problemas relacionados con los datos, pero muchas todavía los tienen. A pesar del aumento vertiginoso del volumen de datos, las empresas aún tienen dificultades para acceder a estos datos y utilizarlos.
Para acelerar la velocidad y la precisión de la información del análisis de datos, los ingenieros de datos construyen canalizaciones de análisis de datos, o canalizaciones de datos, para poner en funcionamiento los datos.
¿Qué es una canalización de análisis de datos?
Una canalización de análisis optimiza el flujo de datos para mejorar la velocidad y la calidad de la información. Similar a una canalización de integración continua / entrega continua (CI / CD) utilizada por un equipo de DevOps, la ventaja de velocidad de una canalización de análisis depende de la automatización de tareas.
«Si el propietario de un grupo financiero me solicita un informe de flujo de caja, es posible que tenga que extraer manualmente los datos [and] Actualice este conjunto de datos usted mismo «, dijo Dan Maycock, director de ingeniería y análisis de la granja de lúpulos de Loftus Labs». Si extraigo datos manualmente cada vez que se solicitan, no sucede con tanta frecuencia. Si tengo una canalización, lo hace automáticamente. «
Según Pieter Vanlperen, socio gerente de PWV Consultants, una consultoría para la modernización de procesos, gestión de datos, calidad de datos, usabilidad y categorización de datos, dependiendo del progreso del pipeline, son otras cosas que requieren al menos un cierto grado de automatización en el canalización de análisis.
Es común tener más de una canalización de análisis por una variedad de razones, ya que cada una puede tener un propósito diferente. Colleen Tartow, directora de ingeniería de Starburst Data, un proveedor de plataformas de motores de consultas SQL distribuidas, dijo que la ingeniería de datos es fundamental para la función de la canalización porque a menudo es compleja y variada en madurez.
«Podría tener una canalización sencilla nativa de la nube con una pila de datos moderna, o podría tener una infraestructura basada en un centro de datos que requiera una gestión continua además de la canalización de datos real en sí», dijo.
Maycock utiliza una canalización para transportar datos desde su fuente original a un repositorio central y otra canalización para transportar datos desde el repositorio central a un mapa, herramienta de BI o modelo de datos.
«A principios de la década de 2000, cuando comencé, estabas prácticamente en tu propio edificio y tustento [pipelines]pero ese ya no es el caso «, dijo.
Otras ventajas de una canalización de análisis
Las canalizaciones de análisis pueden ayudar a las empresas a lograr niveles más altos de agilidad y resistencia, especialmente si se construyen de forma iterativa.
«La idea es iterar sus diseños a través del lienzo en el que se construye la tubería. El beneficio es una mayor productividad», dijo Arvind Prabhakar, director de tecnología de StreamSets, un proveedor de plataforma de DataOps.
Las canalizaciones de análisis, como las canalizaciones de CI / CD, también brindan transparencia sobre las funciones operativas y de ingeniería, lo que permite ciclos de retroalimentación continua, iteración más rápida y resolución de problemas más rápida. Según Prabhakar, la generación anterior de plataformas y herramientas trataba las operaciones de datos como cargas de trabajo ocultas.
«En este nuevo mundo de DataOps donde cada endpoint, cada pipeline [potentially] Como el eslabón más débil, necesita la capacidad de monitorear y administrar en todo momento, ya que las propias tuberías reflejan la evolución de su arquitectura de datos «, dijo Prabhakar.
La transparencia multifuncional de la canalización de análisis puede ayudar a permitir mejoras en los procesos. La observabilidad de los datos asegura que los requisitos y procesos comerciales también se modelen en la tubería de análisis, dijo Prabhakar.
«Estas tuberías no son solo artefactos de las decisiones de diseño que han tomado los ingenieros de datos», dijo. «En realidad, reflejan los procesos comerciales que están anclados en la estructura de la arquitectura de datos de la empresa».
Desafíos en la construcción de una canalización de análisis
El propósito de una canalización de análisis es acelerar la entrega de datos. Sin embargo, un obstáculo común son los datos en sí.
«Podría haber construido una tubería, pero realmente no tengo más información porque el almacén de datos o el lago de datos que construí está tan mal gobernado que es un pantano», dijo Vanlperen.
Dijo que la mala gobernanza puede inutilizar rápidamente los datos. Es importante comprender qué fuentes de datos son importantes y optimizarlas para que puedan ser útiles, dijo.
La variedad de fuentes de datos también puede ser problemática.
«Cada plataforma de software puede tener su propia API y modelo de datos [because] En el desarrollo de software, no importa necesariamente cómo se presentan los datos a una canalización de datos o una plataforma ETL «, dijo Maycock». También puede ser un poco difícil conectarse y extraer datos, dependiendo de qué tan ajena sea esa plataforma para poder acceder a la información de manera consistente. «
Otro problema al que se enfrentan las empresas es que nadie es responsable de comprender el inventario completo de datos que están disponibles internamente y de fuentes de terceros. Algunos argumentan que esta es una señal reveladora de que se necesita un director de datos, o al menos alguien a cargo de comprender y poner en funcionamiento los datos.
«Hace diez años, el ingeniero de datos debería saberlo todo y recibió un documento grande que contenía todas las especificaciones de las infraestructuras de datos», dijo Prabhakar. «Ahora, el ingeniero de datos no tiene idea de dónde provienen los datos y a quién pertenecen [or] de dónde vino, por no hablar del esquema, la estructura y la semántica. «
Incluso hace 10 años, los ingenieros de datos y el personal operativo solían trabajar en silos de datos, lo que ya no debería ser el caso, ya que las separaciones entre grupos pueden provocar pérdidas por fricción que ralentizan la creación de valor. Una separación de funciones cruzadas también puede tener un impacto negativo en las operaciones comerciales. Por ejemplo, si la canalización de análisis pierde un 10% de datos, los resultados del análisis posterior están en duda.
«Cuando se habla de operaciones continuas, el objetivo de la tubería es crear un circuito de retroalimentación estrecho entre los ingenieros de datos y los operadores», dijo Prabhakar. «Quieren que los oleoductos enarbolen automáticamente una bandera de que algo ha cambiado».
Línea de fondo
Las canalizaciones de análisis son esenciales para cualquier organización basada en conocimientos. Cuando están bien diseñados e implementados, pueden ayudar a una empresa a alcanzar sus objetivos estratégicos antes.