Blog

Divisão de um LLM entre a computação em nuvem e a computação de borda.

Utilizar sistemas periféricos para realizar tarefas de inteligência artificial generativa pode ser uma estratégia inovadora e promissora. Embora demande planejamento e expertise, essa combinação de abordagens pode representar o caminho a seguir.

shutterstock 1748437547 cloud computing cloud architecture edge computing
Imagem: astrovariable/GettyImages

Ao longo da história, os modelos de linguagem de grande escala têm requerido recursos computacionais significativos. Isso implica que a criação e utilização desses modelos são geralmente limitadas a sistemas centralizados de alta potência, como os fornecidos por provedores de nuvem pública. Apesar da crença comum de que a execução de inteligência artificial generativa exige uma grande quantidade de GPUs e armazenamento, na realidade, existem abordagens que permitem a geração de valor para casos de uso empresarial específicos por meio de uma arquitetura de nível ou partição.

De certa forma, no atual cenário de inteligência artificial generativa, a computação de borda não terá sucesso. Isso se deve às demandas de processamento dos modelos de IA generativa e à necessidade de realizar inferências de alta qualidade. Muitas vezes me deparo com desafios ao propor a arquitetura de “conhecimento na borda” devido a esse mal-entendido. Estamos deixando escapar uma grande oportunidade de inovação, por isso vamos examinar mais de perto.

Sempre houve a possibilidade.

Essa combinação de abordagens otimiza a eficácia de ambas as formas de infraestrutura. Ao realizar determinadas operações na borda, é possível diminuir consideravelmente a latência, o que é essencial para aplicações que necessitam de retorno imediato, como serviços interativos de inteligência artificial e processamento de dados em tempo real. Atividades que não necessitam de respostas instantâneas podem ser transferidas para servidores na nuvem.

Dividir esses modelos fornece uma forma de distribuir de forma equilibrada a carga de trabalho computacional, aprimorar a capacidade de resposta e otimizar a eficiência das implementações de inteligência artificial. Esse método consiste em executar diferentes segmentos ou versões de LLMs em dispositivos de borda, servidores em nuvem centralizados ou servidores locais.

RELACIONADO:  YugabyteDB Gerenciado agora inclui uma interface de linha de comando gerenciada.

Ao dividir as Large Language Models (LLMs), podemos criar uma arquitetura escalável na qual os dispositivos periféricos lidam com tarefas leves e em tempo real, enquanto as tarefas mais intensivas são transferidas para a nuvem. Por exemplo, imagine que estamos operando dispositivos de digitalização médica em escala global. A análise de imagem alimentada por inteligência artificial é essencial para o desempenho desses dispositivos. No entanto, se estivermos enviando imagens grandes para um servidor central para diagnósticos, isso pode não ser o ideal. A latência da rede pode atrasar o processamento e, se a conexão estiver interrompida, especialmente em áreas rurais, isso pode prejudicar o negócio.

Aproximadamente 80% dos testes de diagnóstico podem ser realizados eficientemente em um dispositivo de baixa potência próximo ao scanner. Dessa forma, as questões comuns que o scanner deve identificar podem ser atendidas no local, enquanto os testes que demandam maior processamento ou complexidade podem ser encaminhados para um servidor centralizado para diagnósticos adicionais.

Outras situações em que a inteligência artificial pode ser útil envolvem a identificação de peças de aeronaves durante o voo. Seria extremamente vantajoso contar com a capacidade da IA para detectar e solucionar falhas no funcionamento do motor da aeronave praticamente em tempo real. Enviar os diagnósticos operacionais para um sistema centralizado de processamento de IA não seria apenas menos eficiente, mas também representaria um risco de segurança.

Por que a adoção da arquitetura de inteligência artificial híbrida não é amplamente difundida?

Uma arquitetura dividida ajuda a diminuir o tempo de espera, economizar energia e recursos computacionais. Informações confidenciais podem ser processadas localmente em dispositivos periféricos, o que reduz a preocupação com a privacidade ao minimizar a transmissão de dados pela Internet. Tomando como exemplo um dispositivo médico, isso resulta em menor preocupação com a divulgação de informações pessoalmente identificáveis e simplifica a segurança desses dados. A computação em nuvem pode então lidar com aspectos mais generalizados e não sensíveis, garantindo uma abordagem de segurança em camadas.

RELACIONADO:  Fluxo de trabalho de motor para scripters devops: Vazão

Por que não estão todos utilizando isso?

Primeiramente, trata-se de um processo complexo que requer muito pensamento e planejamento. A inteligência artificial generativa é uma área nova, com a maioria dos arquitetos sendo novatos e recebendo orientações de fornecedores de nuvem que promovem seus serviços de nuvem. Por essa razão, não é aconselhável permitir que arquitetos que trabalham para um fornecedor de nuvem específico projetem seu sistema de IA, pois isso resultará em uma dependência excessiva de soluções de nuvem de um único provedor. Provedores de nuvem, estejam atentos a isso.

Em segundo lugar, os ecossistemas de inteligência artificial generativa necessitam de um suporte aprimorado. Eles fornecem um suporte mais eficaz para sistemas de inteligência artificial centralizados, baseados na nuvem, locais ou de código aberto. Para adotar um padrão de arquitetura híbrida, é necessário realizar a implementação por conta própria, embora existam algumas soluções úteis disponíveis no mercado, como conjuntos de ferramentas de computação de borda que oferecem suporte à inteligência artificial.

Como desenvolver uma estrutura que combine elementos de diferentes arquiteturas.

A primeira etapa consiste em analisar o LLM e os conjuntos de ferramentas de inteligência artificial para identificar quais elementos podem ser adequadamente utilizados na periferia. Isso normalmente envolve modelos simplificados ou partes específicas de um modelo mais amplo que realizam tarefas de inferência.

O treinamento avançado e as operações de refinamento continuam armazenados na nuvem ou em outros sistemas permanentes. Os sistemas de borda têm a capacidade de processar dados brutos antes de enviá-los para a nuvem ou de processá-los localmente usando um modelo de linguagem simplificado. A etapa de pré-processamento envolve a limpeza de dados, a anonimização e a extração de recursos iniciais, facilitando o processamento centralizado posterior.

RELACIONADO:  O Google apresenta o modelo de linguagem de inteligência artificial PaLM 2.

Dessa forma, o sistema de borda pode assumir duas funções: atua como um pré-processador para chamadas de dados e API que serão encaminhadas para o LLM centralizado, ou realiza algum processamento/inferência que pode ser mais bem tratado utilizando o modelo menor no dispositivo de borda. Isso visa proporcionar eficiência máxima, uma vez que ambos os níveis estão colaborando, e estamos otimizando o uso deste modelo híbrido de borda/centro com o mínimo de recursos disponíveis.

Para que o modelo de rede particionada opere de maneira integrada, é fundamental que os sistemas de borda e nuvem estejam em sincronia eficaz. Isso implica na necessidade de APIs sólidas e protocolos de transferência de dados confiáveis para assegurar uma comunicação fluida entre os sistemas. A sincronização constante possibilita também atualizações em tempo real e aprimoramentos no modelo.

Por fim, as análises de performance são realizadas para adaptar o modelo dividido. Essa etapa envolve equilibrar a carga, testar a latência e otimizar a alocação de recursos, a fim de assegurar que a estrutura atenda às necessidades específicas do aplicativo.

Dividir modelos de IA generativa em LLMs em toda a periferia e infraestruturas centrais representa a próxima etapa na implementação de IA. Essa abordagem combina o melhor dos dois mundos, melhorando a eficiência e a capacidade de resposta, além de otimizar o uso e a segurança dos recursos. Apesar disso, muitas empresas e até mesmo fornecedores de tecnologia têm receio dessa arquitetura, pois a consideram complexa, cara e demorada para ser construída e implementada.

Essa não é a situação. Ignorar essa possibilidade pode resultar em perder oportunidades valiosas de negócio. Além disso, há o risco de alguém no futuro apontar que você perdeu a oportunidade de se beneficiar da otimização da inteligência artificial. Estou te alertando.

Artigos relacionados

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button