Inteligencia de Negocios

Escalado de aplicaciones de aprendizaje automático – DATAVERSITY

single-image


A medida que aumenta la cantidad de usuarios para un modelo predictivo, se espera (aunque a menudo de manera incorrecta) que los sistemas de aprendizaje automático escalen automáticamente para mantener el ritmo de ese crecimiento. Si el sistema no puede escalar, los requisitos de procesamiento pueden superar. Usando un ejemplo de un artículo de LinkedIn, es posible que un sistema de recomendación de muestra no recomiende la lista deseada de productos o servicios de manera oportuna, lo que significa que el cliente no recibirá las recomendaciones de productos o servicios en el momento de la compra.

Si bien el desarrollo de un sistema escalable puede ser un desafío serio, evitar la construcción de un sistema escalable puede convertirse en un problema mayor, lo que puede resultar en la pérdida de clientes o ingresos no realizados. Durante el escalado, muchos problemas técnicos, como problemas de carga de trabajo, apariencia de la memoria, limitaciones del marco, uso de recursos frente al rendimiento, y otros, pueden surgir y detener la producción.

Escalar los modelos de ML puede significar cualquier cosa, desde entrenar modelos de ML desde «humildes comienzos» hasta implementarlos para «dominar el mundo». Lea este artículo Towards Data Science para aprender cómo entrenar un modelo de aprendizaje automático de cero a un millón de usuarios.

La literatura de TI muestra que demasiados sistemas de aprendizaje automático (ML) a gran escala están muriendo actualmente dentro de las paredes de los laboratorios de investigación. Según el autor de un artículo de Venture Beat, Gartner predice que el 80 por ciento de los proyectos de IA en el laboratorio de investigación morirán. A continuación, se muestran algunos desafíos conocidos en la creación de sistemas de AA escalables:

  1. Falta de planificación al diseñar el sistema
  2. Metas y expectativas excesivas y poco realistas
  3. Los modelos de AA no se pueden poner en funcionamiento
  4. Escalar problemas técnicos: cargas de trabajo, uso de recursos vs. Manejo de rendimiento o memoria
  5. Falta de consenso entre las partes interesadas
  6. Falta de atención por parte de los miembros del equipo de desarrollo.
  7. Mejores prácticas de escalabilidad que aún no se han explorado

Familiarícese con los desafíos de escala inesperados en esta publicación de Researchgate.

En el artículo Científicos de datos contemporáneos: trabajar con aprendizaje automático a escala, La autora Jennifer Zaino señaló que Gartner Cuadrante mágico para plataformas de ciencia de datos y aprendizaje automáticoSe ha mencionado que el mercado de las plataformas de ciencia de datos y ML estará en movimiento durante los próximos años. Dos años después, este mercado está experimentando este cambio previsto, ya que las tecnologías y herramientas de ML aún están esperando aprobación y un sinnúmero de sistemas ML a gran escala fallan durante la producción. Este artículo se centra en la plataforma Anaconda Enterprise 5.2 y su distribución de código abierto para más de seis millones de usuarios que crean ML para plataformas Windows, Linux y Mac OS X. Las comunidades de IA y ML están recurriendo cada vez más a plataformas de I + D de bajo costo para crear aplicaciones de ML escalables.

Aprendizaje automático a escala

El autor de una publicación en el blog de Codementor explica que el aumento de la población neta y la velocidad promedio de la red contribuyeron significativamente al repentino crecimiento explosivo de los datos. Esto conduce a un fuerte crecimiento de datos para el entrenamiento de modelos ML. El autor también usa un ejemplo de Facebook, donde el 25 por ciento de los ingenieros que trabajan con modelos de entrenamiento entrenan 600.000 modelos por mes. Esta figura muestra la creciente popularidad de la automatización en las plataformas de administración de datos, que afirma «realizar tareas del mundo real con una eficiencia similar a la de los humanos (o en algunos casos incluso mejor)».

Estas estadísticas son suficientes para justificar la importancia de escalar los sistemas de AA cuando los sistemas escalables deben funcionar correctamente. Sin la ampliación, incluso los mejores sistemas de aprendizaje automático no ofrecerán resultados a medida que aumente el volumen de usuarios. Según el autor de esta publicación, la parte más difícil del escalado es implementar algoritmos de aprendizaje en ciertos marcos como TensorFlow o PyTorch. Durante el escalado, la representación de la memoria es particularmente difícil en términos de alimentación de datos iterativos. Además, el uso de recursos vs. El rendimiento es un desafío adicional.

Aplicaciones escalables de aprendizaje automático (ML) del futuro

Cuando piensa en aplicaciones de aprendizaje automático de próxima generación, la tasa de éxito de los futuros sistemas de aprendizaje automático escalables garantizará la sostenibilidad futura del «aprendizaje automático a escala» como concepto tecnológico. Un componente crítico de las futuras aplicaciones de aprendizaje automático podría ser una mayor carga de trabajo, y escalar la carga de trabajo a medida que crecen los usuarios será de suma importancia. El enfoque actual es encontrar mejores formas de escalar los sistemas de aprendizaje automático. Se proyecta que las inversiones en investigación y desarrollo de ML crecerán a $ 60 mil millones para 2021. Por otro lado, las implementaciones de sistemas ML se cuadriplicaron de 2017 a 2020. La tasa futura de adopción de ML depende en gran medida del éxito del factor de escalabilidad. La arquitectura de ML actual no es «resistente ni eficiente a escala». Lea esta publicación de Western Digital para obtener más información sobre el uso de la GPU para el procesamiento de ML.

Aprendizaje automático (ML) en casos de uso a escala: Apache Spot para Cloudera, Computer Vision y Big Data

  • Detección de amenazas cibernéticas a escala

Hace unos años la nota de prensa La innovación de código abierto acelera el aprendizaje automático de cloudera a escala, que anunció que Cloudera, una plataforma innovadora para el aprendizaje automático, hizo que Apache Spot 1.0 estuviera disponible en su plataforma para un «aprendizaje automático rápido, fácil y escalable en el campo de la ciberseguridad». Apache Spot es un proyecto de ciberseguridad de código abierto diseñado para proporcionar análisis avanzados para todos. Lo especial de esta plataforma es su escalabilidad. Esta plataforma de soluciones ha permitido hasta ahora la detección a escala real de ciberamenazas. El enfoque impulsado por la comunidad de Apache Spot permite a las empresas colaborar utilizando tecnología de análisis basada en ML y detectar ataques cibernéticos en un mundo hiperconectado.

  • Detección de visión por computadora a escala

Otra destacada aplicación escalable de ML apareció durante un podcast ScaledML donde Reza Zadeh, profesor asociado de la Universidad de Stanford y coorganizador de ScaledML, habló sobre las «estrategias del mundo real para escalar ML». Las conversaciones se diversificaron naturalmente en interfaces de hardware y software para ML, el crecimiento del aprendizaje profundo y el reconocimiento de la visión por computadora.

  • Utilice el aprendizaje automático (ML) para big data a escala

El último caso de uso proviene del mundo de los macrodatos. Como ilustración, Spark, ML escalable y MLF se pueden usar para demostrar la aplicación del aprendizaje automático a los macrodatos. Se enfatizó que la mayoría de los modelos ML escalables viven o mueren durante la fase de producción. Las pruebas de producción son pruebas de fuego para ML escalable.

resolución

Aquí hay una presentación que aborda los problemas encontrados en los modelos de aprendizaje automático «cuando el tamaño de los datos aumenta en términos de recuento de muestras, recuento de características y recuento de parámetros del modelo». Esta presentación proporciona suficiente profundidad técnica para el tema y puede servir como una descripción general útil de los sistemas de aprendizaje automático escalables para un estudio adicional.

Imagen utilizada bajo licencia de Shutterstock.com

También te gustará