Historias de clientes / Software e Internet / Estados Unidos
Perplexity acelera el entrenamiento de modelos fundacionales en un 40 % con Amazon SageMaker HyperPod
Descubra cómo Perplexity, la startup de IA generativa, entrena modelos de forma más rápida y eficiente con Amazon SageMaker HyperPod.
Hasta un 40 % de reducción
de tiempo de entrenamiento
Soporta más de 100 000 consultas
por hora
Mantiene
latencia baja
Optimiza
la experiencia de usuario
Información general
Como fuerza transformadora, la inteligencia artificial generativa (IA) abarca algoritmos de machine learning (ML) capaces de generar contenido nuevo, desde imágenes hasta texto, mediante el aprendizaje de grandes cantidades de datos. Perplexity, una empresa que actualmente está creando uno de los primeros motores de respuestas conversacionales del mundo, utiliza el poder de la IA generativa para ayudar a los usuarios a encontrar información relevante.
Ante el desafío de optimizar sus modelos para garantizar su exactitud y precisión, Perplexity necesitaba una solución sólida capaz de gestionar sus requisitos computacionales. Con miras a mejorar la experiencia del usuario, Perplexity recurrió a Amazon Web Services (AWS). Al utilizar la infraestructura avanzada de ML, las bibliotecas de entrenamiento y las herramientas de inferencia de AWS, Perplexity obtuvo la flexibilidad, el rendimiento y la eficiencia necesarios para prestar servicios a una base de usuarios global a escala.
Oportunidad | Cómo utilizar los servicios de AWS para optimizar la experiencia del usuario
A diferencia de los motores de búsqueda tradicionales, que suelen priorizar los anuncios y palabras clave específicas por encima de los resultados relevantes, la solución de Perplexity está optimizada para conectar a los usuarios con la información que buscan. Aproximadamente 10 millones de usuarios activos al mes confían en Perplexity para aprender nuevos conceptos, resolver desafíos y encontrar respuestas.
“Al utilizar modelos de lenguaje grandes, podemos capturar las capacidades de comprensión y razonamiento del lenguaje humano en un solo modelo. Esto, combinado con los datos disponibles en Internet, nos ha ayudado a crear nuestro motor de respuestas”, afirma Aravind Srinivas, director ejecutivo y cofundador de Perplexity. “Básicamente, organizamos un índice de búsqueda tradicional (motor de datos) y un motor de razonamiento (modelo de lenguaje grande) en conjunto para crear el primer motor de respuestas conversacionales del mundo”.
Desde su lanzamiento en 2022, Perplexity ha utilizado los principales servicios de AWS, como Amazon Elastic Compute Cloud (Amazon EC2), que proporciona una capacidad de computación segura y de tamaño ajustable para prácticamente cualquier carga de trabajo, para alimentar los componentes de backend, front-end y búsqueda de su producto. A medida que Perplexity maduraba y su cantidad de modelos de ML crecía, necesitaba una enorme potencia de computación para atender a los usuarios.
Perplexity habló con expertos de AWS y descubrió que Amazon SageMaker HyperPod, una infraestructura diseñada específicamente para el entrenamiento distribuido a escala, puede satisfacer sus necesidades de entrenamiento de modelos a gran escala. Amazon SageMaker HyperPod está preconfigurado con bibliotecas de entrenamiento distribuido de Amazon SageMaker que están optimizadas para ejecutar tareas personalizadas de entrenamiento de aprendizaje profundo de datos y modelos en paralelo de alta escalabilidad y rentabilidad a velocidades de interconexión que superan los 1600 Gbps. Amazon SageMaker HyperPod también evita las interrupciones en el entrenamiento de modelos fundacionales al guardar periódicamente los puntos de control. Cuando se produce una falla de hardware durante el entrenamiento, el servicio de AWS detecta automáticamente la falla, repara o reemplaza la instancia defectuosa y reanuda el entrenamiento desde el último punto de control guardado. Esto facilita el entrenamiento ininterrumpido de modelos durante semanas o meses en un entorno distribuido.
Con AWS, el poder está en manos del cliente. No hay requisitos con respecto a los servicios que hay que utilizar”.
Aravind Srinivas
CEO y cofundador de Perplexity
Solución | Cómo reducir el tiempo de entrenamiento de modelos hasta en un 40 % con Amazon SageMaker HyperPod
AWS ofreció a Perplexity una prueba de un mes para demostrar las capacidades de entrenamiento distribuido, durante la cual la empresa descubrió las ventajas de usar AWS. Por ejemplo, Perplexity obtuvo una mayor flexibilidad en la asignación de recursos; utiliza diferentes tipos de instancias de Amazon EC2 y GPU diseñadas para tareas específicas.
Para entrenar modelos de ML, Perplexity requiere grandes cantidades de memoria para poder ejecutar enormes cantidades de datos y almacenar diferentes gradientes. Para ello, eligieron las instancias P4de de Amazon EC2, que proporcionan el máximo rendimiento para el entrenamiento de ML y las aplicaciones de computación de alto rendimiento, para ejecutar las tareas de entrenamiento y cumplir con los requisitos de memoria y ancho de banda. Al usar Amazon SageMaker HyperPod, Perplexity transfiere datos entre diferentes GPU mucho más rápido, lo que ha reducido el tiempo de entrenamiento de modelos de ML hasta en un 40 por ciento.
Las bibliotecas integradas de modelos y datos en paralelo de Amazon SageMaker HyperPod nos ayudaron a optimizar el tiempo de entrenamiento en las GPU y a duplicar el rendimiento del entrenamiento”, asegura Srinivas. “Como resultado, nuestros experimentos de entrenamiento ahora pueden ejecutarse dos veces más rápido, lo que significa que nuestros desarrolladores pueden iterar con mayor rapidez y así acelerar el desarrollo de nuevas experiencias de IA generativa para nuestros clientes”. Como Amazon SageMaker HyperPod supervisa de forma automática el estado del clúster y corrige los fallos de la GPU, nuestros desarrolladores pueden centrarse en la creación de modelos en lugar de dedicar tiempo a administrar y optimizar la infraestructura subyacente”.
El objetivo de Perplexity es proporcionar respuestas rápidas y precisas a las consultas de los usuarios, lo que requiere capacidades de inferencia casi en tiempo real. Al utilizar las instancias P5 de Amazon EC2, que ofrecen las instancias basadas en GPU de mayor rendimiento para aplicaciones de aprendizaje profundo, Perplexity puede generar respuestas con un rendimiento mucho mayor que antes. De hecho, la empresa puede administrar periodos de alta actividad con 10 000 usuarios simultáneos y más de 100 000 consultas por hora sin comprometer la latencia ni afectar a la experiencia de los usuarios. Perplexity también aloja el modelo Llama 2, disponible al público, en las instancias P5 de Amazon EC2 y utiliza Amazon SageMaker HyperPod para ajustar el modelo de código abierto con sus propios datos. El ajuste de los modelos ayuda a mejorar la precisión y la relevancia de las respuestas, lo que adapta el modelo a las necesidades del motor de respuestas de Perplexity.
Resultado | Cómo lograr avances de IA generativa mediante el uso de la infraestructura y los servicios de inteligencia artificial y machine learning de AWS
Sobre la base de sus éxitos, Perplexity está a punto de lograr nuevos avances en IA generativa. Como parte de su estrategia con visión de futuro, la empresa experimentará con AWS Trainium, un acelerador de entrenamiento de machine learning de alto rendimiento, para mejorar aún más el rendimiento del entrenamiento. Perplexity también lanzó una API para proporcionar acceso a los usuarios a sus modelos de lenguaje grandes, que se ejecuta completamente en AWS y se ha optimizado con Amazon SageMaker HyperPod.
Para ampliar su base de conocimientos y ofrecer respuestas más precisas a sus usuarios, Perplexity también adoptó Amazon Bedrock, un servicio totalmente administrado que ofrece una selección de modelos fundacionales de alto rendimiento de las principales empresas de IA con una sola API. Por ejemplo, Perplexity empezó a utilizar Claude 2 a través de Amazon Bedrock para incorporar capacidades avanzadas de codificación, matemáticas y razonamiento en su servicio.
“Con AWS, el poder está en manos del cliente”, afirma Srinivas. “No hay requisitos con respecto a los servicios que hay que utilizar. El equipo de AWS siempre nos dice: “Hagan lo que sea mejor para sus clientes. Hagan lo que sea mejor para su negocio”. Esa alineación con los clientes es lo que realmente amamos de AWS”.
Acerca de Perplexity
Perplexity está creando un motor de respuestas conversacionales y funcionales optimizado para ayudar a los usuarios a encontrar información en lugar de impulsar los anuncios y las palabras clave.
Servicios de AWS utilizados
Amazon SageMaker HyperPod
Amazon SageMaker HyperPod elimina el trabajo pesado e indiferenciado que implica crear y optimizar la infraestructura de machine learning (ML) para entrenar modelos fundacionales (FM), lo que reduce el tiempo de entrenamiento hasta un 40 %.
Instancias P5 de Amazon EC2
Las instancias P5 de Amazon Elastic Compute Cloud (Amazon EC2), con tecnología de las GPU NVIDIA H100 Tensor Core más recientes, ofrecen el máximo rendimiento en Amazon EC2 para aplicaciones de aprendizaje profundo y computación de alto rendimiento (HPC).
Instancias P4de de Amazon EC2
Las instancias P4de cuentan con 8 GPU NVIDIA A100 que brindan 80 GB de memoria GPU HBM2e de alto rendimiento, el doble que las GPU de nuestras instancias P4d actuales.
Amazon Bedrock
Amazon Bedrock es un servicio totalmente administrado que ofrece una selección de modelos fundacionales (FM) de alto rendimiento de las principales empresas de IA como AI21 Labs, Anthropic, Cohere, Meta, Stability AI y Amazon a través de una sola API, junto con un amplio conjunto de capacidades que necesita para crear aplicaciones de IA generativa con seguridad, privacidad e IA responsable.
Más historias de clientes de software e Internet
Comenzar a utilizar Amazon SageMaker en el nivel gratuito
Como parte del nivel gratuito de AWS, puede comenzar a utilizar Amazon SageMaker de forma gratuita. La prueba gratuita de dos meses comienza el primer mes cuando crea su primer recurso de SageMaker.