Existem outros aspectos importantes na arquitetura em nuvem além das GPUs.

Muitos profissionais de arquitetura de sistemas observam uma grande ênfase nos processadores para sistemas de inteligência artificial generativa, mas não veem a devida atenção sendo dada a outros elementos essenciais.

Falar sobre AI generativa na nuvem frequentemente leva à discussão sobre GPUs. No entanto, o foco nas GPUs pode não ser tão relevante quanto se imagina, e em breve a conversa provavelmente se voltará para aspectos mais críticos para o avanço e implementação de sistemas de IA generativa na nuvem.
Atualmente, a crença predominante é que as GPUs são essenciais para facilitar os cálculos complexos necessários nos modelos de AI generativa. Embora as GPUs tenham desempenhado um papel crucial no avanço da inteligência artificial, exagerar sua importância pode desviar a atenção de explorar e aproveitar alternativas igualmente eficazes e potencialmente mais sustentáveis. Na realidade, as GPUs podem tornar-se rapidamente recursos comuns, assim como outros componentes essenciais para os sistemas de IA, como armazenamento e capacidade de processamento. O foco deve estar na concepção e implementação desses sistemas, e não apenas no hardware em que operam. Isso pode parecer incomum, mas é um ponto de vista a ser considerado.
Competição pela GPU de ouro
A relevância das unidades de processamento gráfico (GPUs) tem sido benéfica para a Nvidia, uma empresa que passou despercebida pela maioria das pessoas até o momento. No seu trimestre mais recente, a Nvidia registrou uma receita recorde de US $4,5 bilhões proveniente de data centers, um aumento de 41% em relação ao trimestre anterior e 279% em comparação com o mesmo trimestre do ano passado. Atualmente, suas GPUs são consideradas o padrão para o processamento de inteligência artificial, superando até mesmo a sua utilização em jogos.
Atualmente, é comum encontrar posts em redes sociais mostrando pessoas tirando selfies ao lado de Jensen Huang, CEO da Nvidia, o que evidencia a popularidade e influência da empresa. Além disso, colaborações com a Nvidia são almejadas por diversos setores, que investem altas quantias para se associar a essa empresa de tecnologia em expansão.
No início, as GPUs foram criadas para melhorar a velocidade dos gráficos 3D em jogos na década de 90, mas ao longo do tempo evoluíram para além disso. Sua arquitetura inicial era focada em cálculos gráficos e era usada principalmente para renderizar imagens e lidar com tarefas de processamento paralelo intensivas, como as associadas à renderização 3D. Isso as torna adequadas para aplicações de inteligência artificial, pois são eficientes em tarefas que requerem computação simultânea.
Será que as GPUs representam uma oportunidade significativa?
GPUs necessitam de um chip host para coordenar suas operações. Embora isso torne mais simples a complexidade e a capacidade das arquiteturas atuais de GPU, acaba sendo menos eficiente do que o ideal. As GPUs trabalham em conjunto com as CPUs (o chip host), que transferem tarefas específicas para as GPUs. Além disso, esses chips host são responsáveis por supervisionar o funcionamento geral dos programas de software.
Além da questão da eficiência, também é necessário considerar a comunicação entre processos, os obstáculos relacionados à desmontagem de modelos para processamento em partes e posterior montagem das saídas para análise abrangente ou inferência, bem como as dificuldades envolvidas na utilização de GPUs para aprendizado profundo e inteligência artificial. A segmentação e reintegração de processos fazem parte da distribuição de tarefas computacionais para melhorar o desempenho, porém apresentam desafios próprios em termos de eficiência.
É preciso contar com bibliotecas de software e frameworks especializados para simplificar e controlar essas tarefas. O CUDA da Nvidia é um exemplo de tecnologia que oferece as ferramentas e o modelo de programação essenciais para criar softwares capazes de utilizar a potência de aceleração da GPU.
Um dos principais motivos para o grande interesse na Nvidia é a oferta de um conjunto de programas que otimiza o desempenho das GPUs em diversas aplicações, como jogos, aprendizado profundo e inteligência artificial generativa. A presença desses recursos, como o CUDA, é fundamental para potencializar a tecnologia. Portanto, a atenção está voltada para a Nvidia, que possui tanto o hardware quanto o suporte necessário nesse momento.
Opções no futuro
Eu não estou afirmando que as GPUs da Nvidia são tecnologia inadequada. É evidente que são eficazes. O ponto é que enfatizar a camada de processamento como o principal foco na construção e implementação de sistemas de IA generativa na nuvem pode ser um tanto distração.
Acredito que em dois anos, as GPUs continuarão sendo relevantes, porém a empolgação em torno delas terá diminuído. Em vez disso, estaremos mais concentrados na eficiência da inferência, no aprimoramento constante do modelo e em novas maneiras de gerenciar algoritmos e dados.
O crescimento significativo da Nvidia no setor está levando investidores a procurar oportunidades de investimento em potenciais concorrentes. A AMD e a Intel surgem como concorrentes notáveis, com a Intel desenvolvendo uma alternativa GPU com seu processador Gaudi 3. Além disso, diversas startups afirmam ter desenvolvido métodos mais eficazes para processar modelos de linguagem extensos, como SambaNova, Cerebras, GraphCore, Groq e xAI.
É evidente que várias empresas estão desenvolvendo chips e softwares para eles, além de oferecer microclouds ou provedores de nuvem menores que disponibilizarão GPUs como serviço, seguindo o modelo já adotado pela AWS, Microsoft e Google. O número de fornecedores de nuvem com GPUs está aumentando constantemente, conforme indicado pelo interesse das agências de RP contatando o autor.
Enquanto continuamos a revender o processamento da Nvidia GPU, podemos confiar nos mesmos microclouds para adotar novas versões de GPU à medida que são lançadas no mercado. Estas novas versões são mais econômicas, eficientes e consomem menos energia. Caso isso aconteça, elas rapidamente substituirão processadores menos avançados. Desde que o desempenho e a confiabilidade estejam presentes, não nos importamos com a marca ou arquitetura do processador. Neste cenário, não estamos interessados em tirar fotos com os CEOs dessas empresas. O importante é que o componente faça parte de um sistema que funcione.
Por vezes, as GPUs podem não ser indispensáveis.
Como mencionei anteriormente, as GPUs nem sempre são essenciais para a inteligência artificial generativa ou outras tarefas de processamento de IA. Modelos menores podem funcionar de maneira eficaz em CPUs convencionais ou outros tipos de hardware especializado, sendo mais econômicos e eficientes em termos de consumo de energia.
Muitas das minhas criações de inteligência artificial baseadas em arquiteturas geradoras usaram processadores convencionais sem afetar muito o desempenho. É claro que isso depende da tarefa que se está tentando realizar. A maioria dos sistemas empresariais de inteligência artificial geradora requer menos potência, e eu acredito que muitos projetos atuais que insistem em utilizar GPUs para esse fim estão exagerando.
Em breve, teremos mais habilidade em determinar a melhor utilização das GPUs (ou tecnologias similares) e quando elas não forem essenciais. No entanto, como evidenciado pela tendência de superprovisionamento de poder de processamento em sistemas de IA na nuvem, as empresas podem não se preocupar com isso até que recebam a fatura. Até o momento, a otimização de custos dos sistemas de IA generativa não é uma grande preocupação, mas será necessário assumir responsabilidades nesse aspecto no futuro.
O Linthicum está agitado novamente, e acredito que seja por um motivo positivo. Estamos prestes a vivenciar um período de grandes mudanças e avanços na utilização da tecnologia de Inteligência Artificial, que terá um impacto significativo na área de Tecnologia da Informação. O que me preocupa é que a indústria de TI está se distraindo com algo que pode não resultar de forma favorável.