Cloud

Significado do silício personalizado da Microsoft para o Azure

A Microsoft está desenvolvendo uma infraestrutura na nuvem Azure que será impulsionada por hardware próprio, incluindo chips de inteligência artificial personalizados, processadores de servidor especializados e recursos de virtualização otimizados.

AI on chip
Imagem: wal_172619/StockVault

Ao longo dos anos, a evolução do desenvolvimento de software tem sido uma interação entre as capacidades do hardware e as necessidades do software. Esse progresso nos levou de processadores simples, como o Intel 8086 original que era considerado básico, para os processadores modernos multifuncionais de hoje em dia. Esses novos processadores oferecem suporte à virtualização, acesso criptografado à memória e dados, e conjuntos de instruções avançados que impulsionam aplicativos mais complexos.

Esta dança envolve adaptações contínuas. Por vezes, é necessário ajustar o nosso software para atender às exigências de novas tecnologias de silício, e outras vezes é preciso otimizar ao máximo o desempenho disponível. Agora, estamos presenciando a introdução de uma nova geração de hardware que combina CPUs conhecidas com novos aceleradores de nível de sistema. Isso possibilita a execução de modelos complexos de IA em hardware e servidores de clientes, tanto localmente quanto na nuvem pública.

Você pode encontrar aceleradores de inteligência artificial em uma variedade de processadores, incluindo os da Intel, AMD e nos projetos de servidores Neoverse da Arm, que combinam eficiência energética com alto desempenho. Essa combinação de recursos é muito vantajosa para empresas de nuvem de grande escala, como o Azure, pois permite manter os custos baixos e facilita o crescimento.

Simultaneamente, os avanços nos aceleradores de desempenho do sistema indicam perspectivas promissoras para o Windows, possibilitando a utilização de assistentes de inteligência artificial integrados como uma opção ao armazenamento em nuvem, à medida que a Microsoft aprimora o desempenho de sua linha Phi de modelos de linguagem compactos.

Melhoria do Azure: Dispositivo de silício para otimização da virtualização.

Durante o evento Ignite 2023, a Microsoft revelou seu próprio hardware personalizado para o Azure, que estará disponível para os clientes a partir de 2024. A empresa já vinha utilizando silício personalizado e FPGAs em seus serviços internos, como é o caso da compressão de hardware Zipline e dos aceleradores de IA do Project Brainwave. Uma novidade é o Azure Boost, que otimiza o armazenamento e a rede para as máquinas virtuais Azure ao transferir processos de virtualização do hipervisor e host OS. Além disso, o Azure Boost conta com o chipset de segurança Cerberus para proteção da cadeia de suprimentos.

RELACIONADO:  Agendas de Mastodon para grupos de trabalho.

O Azure Boost foi criado para permitir que as máquinas virtuais acessem o máximo da CPU disponível, liberando recursos para que o Azure execute mais cargas de trabalho dos clientes no mesmo hardware. Isso é essencial para a eficiência da nuvem pública e qualquer investimento em hardware se tornará lucrativo rapidamente.

Maia 100 é um produto que oferece silício para modelos de idiomas extensos.

Grandes modelos de linguagem, como os desenvolvidos pela OpenAI e baseados em computação densa, têm demonstrado a importância da utilização de supercomputadores, como o da Microsoft, para o treinamento. Modelos como o GPT-4, que possuem mais de um trilhão de parâmetros, demandam meses de treinamento mesmo em sistemas avançados. A próxima geração de modelos de linguagem cada vez mais avançados vai requerer ainda mais recursos computacionais, tanto para treinamento quanto para operação. Para a implementação de aplicações em torno desses modelos, como a Geração Aumentada por Recuperação, será necessário investir em capacidade adicional para criar embeddings do conteúdo original e possibilitar a busca baseada em vetores.

Supercomputadores que utilizam GPUs representam um investimento considerável, apesar de a Microsoft poder recuperar parte dos custos dos assinantes. Os custos operacionais são igualmente elevados, devido às exigências de resfriamento, potência, largura de banda e armazenamento. Portanto, é provável que esses recursos estejam disponíveis apenas em alguns data centers capazes de oferecer espaço adequado, energia e sistema de refrigeração.

Entretanto, se a inteligência artificial em larga escala pretende ser um ponto de destaque de sucesso para o Azure, em comparação com concorrentes como AWS e Google Cloud, será necessário que esteja amplamente disponível e acessível. Isso demandará a criação de um novo tipo de hardware (para treinamento e inferência) capaz de operar com maior densidade e menor consumo de energia do que as GPUs atuais.

Analisando o projeto do Azure Brainwave FPGAs, foi utilizado o silício programável para colocar em prática algoritmos fundamentais. Embora tenham funcionado adequadamente, eram dispositivos de uso único que serviam como aceleradores para modelos específicos de machine learning. Poderia ser desenvolvida uma versão que suportasse as redes neurais complexas de um LLM, porém seria necessário implementar uma ampla gama de processadores simples para dar suporte à aritmética vetorial multidimensional que impulsiona esses modelos semânticos. Essa tarefa vai além das capacidades da maioria das tecnologias FPGA.

RELACIONADO:  Ferramentas de desenvolvimento de IA da Microsoft Azure para ajustar aplicações de inteligência artificial.

O processamento de vetores é uma técnica moderna muito eficiente, especialmente devido à origem dos arquitetos das GPUs que costumavam desenvolver hardware para supercomputadores. As GPUs são compostas por diversos processadores simples que operam com matrizes e vetores, fazendo uso de tecnologias como CUDA da Nvidia para disponibilizar funções de álgebra linear que não são normalmente encontradas nas CPUs. Essa aceleração permite a criação e utilização de modelos avançados de IA, como os LLMs.

O novo chip de acelerador de inteligência artificial personalizado da Microsoft, chamado Maia 100, foi desenvolvido para realizar tanto treinamento quanto inferência. Inspirado por experiências com cargas de trabalho do OpenAI, o Maia foi projetado para se integrar à infraestrutura já existente do Azure, sendo instalado em uma nova unidade de rack de acelerador que fica ao lado dos racks de computação existentes. Com mais de 100 bilhões de transistores produzidos por um processo de cinco nanômetros, o Maia 100 é um chip de grande porte e alta densidade, com uma capacidade de computação muito superior à de uma GPU.

O aprimoramento da Maia foi aperfeiçoado com base nos modelos da OpenAI e incorpora um novo design de rack que contém componentes de resfriamento líquido personalizados. Essa etapa é essencial para suportar cargas de trabalho de inteligência artificial em escala além dos maiores data centers do Azure. A inclusão de um sistema de refrigeração líquida é dispendiosa, portanto, sua implementação nos racks Maia 100 garante que possam ser facilmente instalados em qualquer data center em qualquer local do mundo.

Para instalar os racks Maia 100 é necessário ajustar o espaçamento devido ao seu tamanho maior em comparação aos racks padrão de 21 polegadas do Azure. Esse ajuste é necessário devido ao sistema de resfriamento dos racks Maia 100, que é dimensionado para acomodar servidores do Open Compute Project. Além do sistema de resfriamento líquido, o espaço adicional é utilizado para conexões de alta largura de banda de 4,8 Tb, fundamentais para a transferência eficiente de grandes volumes de dados entre CPUs e aceleradores.

RELACIONADO:  O objetivo de criar o Docker Cloud é aumentar a velocidade das construções feitas com Docker.

Ainda existem dúvidas sobre como as aplicações irão começar a utilizar as novas fichas. É possível que elas utilizem modelos de inteligência artificial fornecidos pela Microsoft, como OpenAI e Hugging Face, além de seus próprios Serviços Cognitivos e modelos de linguagem Phi. Caso esses modelos estejam disponíveis para treinamento próprio, é provável que surja uma nova categoria de máquinas virtuais junto à variedade atual de opções de GPU no Azure AI Studio.

O processador de braço do Azure é integrado no Cobalt 100.

Juntamente com a estreia da Maia, a Microsoft revelou seu próprio processador de servidor Arm, o Cobalt 100. Este processador de 64 bits possui 128 núcleos e foi desenvolvido para atender a aplicações de alta densidade e baixo consumo de energia, com base no design de referência Neoverse da Arm. O Azure já está empregando processadores Arm para alguns de seus serviços de plataforma, e é provável que o Cobalt 100 suporte esses serviços e outros, ao invés de ser utilizado para infraestrutura como serviço.

Não é preciso saber qual é o processador utilizado no Azure App Service, contanto que o serviço funcione adequadamente e os usuários obtenham os resultados desejados. É possível que processadores Cobalt sejam utilizados para executar serviços online, especialmente onde a eficiência energética e a densidade são fundamentais, assim como para hospedar elementos da rede de entrega de conteúdo do Azure fora dos principais data centers.

A Microsoft descreve sua estratégia de engenharia de silício como uma maneira de proporcionar uma “abordagem de sistemas” para os data centers do Azure, com suporte completo desde suas ofertas iniciais de armazenamento e rede até seus próprios serviços de computação. Essa melhoria no silício também está sendo implementada no Windows, com a chegada de processadores habilitados para NPU da Intel e Qualcomm em desktops e laptops a partir de 2024. Após anos de liderança em hardware, será interessante explorar como podemos maximizar o potencial dessas novas plataformas por meio do desenvolvimento de software.

Artigos relacionados

Leave a Reply

Your email address will not be published. Required fields are marked *

Verifique também
Close
Back to top button