Implantando LLMs locais no Kubernetes: um guia de DevOps

Um guia para engenheiros de DevOps sobre como orquestrar a disponibilidade e o escalonamento de LLMs usando Kubernetes. Seções principais: 1. **Pré-requisitos:** Configuração do Operador de GPU, Nvidia Container Toolkit. 2. **Opções de exibição:** KServe vs Ray Serve vs implantação simples. 3. **Gerenciamento de recursos:** Solicitações/limites para GPU, lidando com bin-packing. 4. **Escalonamento:** HPA com base em métricas personalizadas (profundidade da fila). 5. **Exemplo:** Passo a passo completo do gráfico Helm para um serviço vLLM. **Estratégia de Linking Interno:** Link para Pilar. Link para ‘Ollama vs vLLM’.

Continuar lendo
Implantando LLMs locais no Kubernetes: um guia de DevOps
sobre SitePoint.

Source link