De par en par: NVIDIA acelera la inferencia en Meta Llama 3

 El último gran modelo de lenguaje de código abierto de Meta, creado con tecnología NVIDIA, está optimizado para ejecutarse en las GPU NVIDIA desde la nube y el centro de datos hasta el perímetro y el PC


NVIDIA ha anunciado una serie de optimizaciones en todas sus plataformas para potenciar Meta Llama 3, la última generación del gran modelo de lenguaje (LLM). Esta combinación de un modelo abierto con la potencia de la computación acelerada por NVIDIA está capacitando a desarrolladores, investigadores y empresas para innovar de manera responsable en una amplia gama de aplicaciones.

Entrenamiento en NVIDIA AI

Los ingenieros de Meta han entrenado Llama 3 en clusters de computación equipados con 24,576 GPUs NVIDIA H100 Tensor Core, conectadas mediante redes RoCE y NVIDIA Quantum-2 InfiniBand. Con el apoyo de NVIDIA, Meta ha optimizado sus arquitecturas de red, software y modelos para su avanzado LLM.

Para continuar avanzando en el estado del arte de la IA generativa, Meta ha anunciado planes para expandir su infraestructura a 350,000 GPUs H100.

Implementación de Llama 3

Las versiones aceleradas por GPU de Llama 3 están disponibles para su uso en la nube, centros de datos, perímetro y PC. Los desarrolladores pueden probar Llama 3 desde un navegador en ai.nvidia. Está empaquetado como un microservicio NVIDIA NIM con una interfaz de programación de aplicaciones estándar que puede implementarse en cualquier lugar.

Las empresas pueden personalizar Llama 3 con sus datos utilizando NVIDIA NeMo, un marco de código abierto para LLM que forma parte de la plataforma segura y compatible NVIDIA AI Enterprise. Los modelos personalizados pueden optimizarse para la inferencia con TensorRT-LLM de NVIDIA e implementarse con el servidor de inferencia Triton de NVIDIA.

Llevando Llama 3 a dispositivos y PCs

Llama 3 también se ejecuta en NVIDIA Jetson Orin para dispositivos de robótica y edge computing, permitiendo la creación de agentes interactivos como los del Jetson AI Lab.

Además, las GPU NVIDIA RTX y GeForce RTX para estaciones de trabajo y PC aceleran la inferencia en Llama 3. Estos sistemas ofrecen a los desarrolladores un objetivo de más de 100 millones de sistemas acelerados por NVIDIA en todo el mundo.

Optimización del rendimiento con Llama 3

Las mejores prácticas para implementar un LLM para un chatbot implican equilibrar la latencia, la velocidad de lectura y la utilización óptima de la GPU para reducir costos.

Para un servicio de este tipo, se necesita entregar tokens a una velocidad de lectura aproximadamente dos veces superior a la de un usuario, que es de alrededor de 10 tokens por segundo.

Según estas métricas, una sola GPU NVIDIA H200 Tensor Core generó alrededor de 3,000 tokens por segundo, suficiente para atender a unos 300 usuarios simultáneos, en una prueba inicial utilizando la versión de Llama 3 con 70,000 millones de parámetros.

Esto significa que un único servidor HGX de NVIDIA con ocho GPU H200 podría proporcionar 24,000 tokens por segundo, lo que optimizaría aún más los costos al atender a más de 2,400 usuarios al mismo tiempo.

En el caso de los dispositivos de borde, la versión de Llama 3 con ocho mil millones de parámetros generó hasta 40 tokens por segundo en la Jetson AGX Orin y 15 tokens por segundo en la Jetson Orin Nano.

Avance en los modelos de comunidad

NVIDIA, comprometida con el código abierto, está dedicada a optimizar el software comunitario que ayuda a los usuarios a enfrentar sus desafíos más difíciles. Los modelos de código abierto también promueven la transparencia en la IA y permiten a los usuarios compartir ampliamente el trabajo sobre seguridad y resiliencia de la IA.

Para obtener más información sobre la plataforma de inferencia de IA de NVIDIA, incluida la forma en que NIM, TensorRT-LLM y Triton utilizan técnicas de vanguardia como la adaptación de bajo rango para acelerar los últimos LLM, puede visitar el sitio web de NVIDIA.

"Estamos encantados de ofrecer más de esta tecnología de IA de NVIDIA para impulsar la innovación. Con Meta Llama 3 optimizada para nuestras GPU, estamos permitiendo a desarrolladores y empresas explorar todo el potencial de la inteligencia artificial en una gran variedad de aplicaciones, desde la nube hasta los dispositivos de borde", afirmó Marcio Aguiar, director de la división Enterprise de NVIDIA para Latinoamérica.







Publicar un comentario

 
Copyright © No Soy Gamer. Gracias a OddThemes | Blogger