Hugging Face introduz HUGS como uma opção ao NIM da Nvidia para modelos de código aberto.

A discrepância nos preços indica uma possível redução de custos para as empresas, especialmente ao optar por modelos de código aberto.

O provedor de repositórios de IA Generative Hugging Face lançou recentemente uma opção alternativa para o Nvidia’s NIM (Nvidia Inference Microservices).
Hugging Face Generative AI Services, conhecido como HUGS, é atualmente a única opção disponível para NIM.
O NIM, apresentado inicialmente em março e oficialmente lançado em junho como parte da suíte AI Enterprise da Nvidia, representou uma inovação ao auxiliar as empresas na implementação de modelos gerativos de IA em qualquer nuvem ou centro de dados. Isso foi possível por meio da combinação de motores de inferência otimizados, APIs e suporte para modelos de IA personalizados ou genéricos em recipientes como microserviços.
A NIM despertou o interesse dos programadores por ser uma opção diferente de outros frameworks e pacotes como vLLM, TensorRT LLM e LMDeploy. Estes últimos são úteis para implantar modelos essenciais para inferência, mas são considerados demorados de configurar e usar.
Por outro lado, a NIM proporciona aos programadores a possibilidade de acessar de forma ágil uma configuração já pré-definida para um modelo básico por meio de uma imagem de contêiner no Docker ou Kubernetes e estabelecer conexão com ele utilizando APIs.
Os HUGS são microsserviços de inferência de configuração zero otimizados, que têm como objetivo simplificar e agilizar o processo de desenvolvimento de aplicações de inteligência artificial.
Hugging Face mencionou que os microsserviços de inferência disponíveis por meio do HUGS são desenvolvidos utilizando bibliotecas e frameworks de código aberto, como Text Generation Inference (TGI) e Transformers, e são capazes de rodar modelos em GPUs da Nvidia ou AMD.
O suporte para AWS Inferentia e Google TPUs será incluído em breve, conforme informado pela empresa. No entanto, em seu post no blog sobre a oferta, não foi mencionado o suporte para hardware Intel.
HUGS não é gratuito, porém apresenta benefícios em termos de custo.
Uma distinção principal entre o NIM e a HUGS é o custo, indicando que as empresas podem economizar optando pelo concorrente mais recente.
No Google Cloud e AWS, a empresa HUGS cobra US$ 1 por hora por contêiner, enquanto o NIM cobra US$ 1 por hora por unidade de processamento gráfico (GPU), além da taxa de licença do Nvidia AI Enterprise.
Conforme a explicação fornecida pelo Docker, por padrão, um contêiner não possui limitações de recursos e pode utilizar o máximo de um recurso específico como definido pelo kernel do sistema hospedeiro, o que indica que o uso de recursos por contêiner será mais econômico.
Outras alternativas de horários disponíveis para abraços.
Além da AWS e do Google Cloud, onde a HUGS pode ser instalada por meio do AWS Marketplace e do GCP Marketplace, a Hugging Face disponibiliza a HUGS através do seu Enterprise Hub. Este é um local para acessar modelos e desenvolver aplicações de inteligência artificial, os quais podem ser adquiridos mediante uma taxa de US$ 20 por usuário ao mês.
De forma independente, a empresa está disponibilizando um teste gratuito de 5 dias para os desenvolvedores experimentarem o HUGS na AWS sem custos.
A empresa informou que a plataforma HUGS também pode ser acessada de forma gratuita através da DigitalOcean, porém serão cobrados os custos de computação.
Somente para modelos que estão disponíveis para todos.
A partir de agora, a HUGS parece estar restrita a modelos com pesos abertos, ao contrário do NIM, que não possui essa limitação.
O HUGS oferece suporte a 13 modelos diferentes, incluindo o Llama-3.1-8B-Instruct, Llama-3.1-70B-Instruct-FP, Llama-3.1-405B-Instruct-FP8, Hermes-3-Llama-3.1-8B, Hermes-3-Llama-3.1-70B, Hermes-3-Llama-3.1-405B-FP8, Nous-Hermes-2-Mixtral-8x7B-DPO e Mixtral-7B-I.
A documentação do HUGS indica que a Hugging Face planeja em breve incluir suporte para modelos como Deepseek, T5, Phi e Command R. Além disso, outros modelos multimodais e embeddings como Idefics, Llava, BGE, GTE, Micbread, Arctic, Jina e Nomic também estão previstos para serem adicionados em breve.
A Nvidia afirma que a NIM é compatível com uma ampla variedade de modelos, incluindo os proprietários Nemotron, Cohere, A121, Adept, bem como os modelos abertos disponíveis no Google, Hugging Face, Meta, Microsoft, Mistral AI e Stability AI, além de imagens da Getty Images e Shutterstock.
Entretanto, de acordo com a documentação da Nvidia, o NIM está atualmente acessível para os seguintes modelos: Llama 13B Instruct, Llama 34B Instruct, Llama 70B Instruct, Llama 27B Chat, Llama 213B Chat, Llama 270B Chat, Llama 3 Swallow 70B Instruct V0.1 e Llama 3 Taiwan 70B.