Cloud

O serviço GenAI Bedrock da Amazon AWS agora inclui a funcionalidade de inferência entre regiões.

O recurso foi criado para auxiliar os desenvolvedores a poupar tempo ao automatizar o encaminhamento de solicitações de inferência de regiões diferentes para o Amazon Bedrock.

Amazon Bedrock
Imagem: MaxWdhs/Flickr

A Amazon Web Services (AWS) introduziu uma nova funcionalidade no seu serviço de inteligência artificial generativa Amazon Bedrock, chamada de inferência de região cruzada, para auxiliar os programadores na automatização do redirecionamento de pedidos de inferência para o serviço durante períodos de alta demanda em tarefas de inteligência artificial.

Reconhecimento de áreas interligadas, que costuma estar acessível e é oferecido gratuitamente aos desenvolvedores que utilizam o modo sob demanda no Bedrock, redireciona automaticamente o tráfego entre diferentes regiões para garantir a disponibilidade ideal de cada solicitação de aplicativos baseados no Amazon Bedrock, melhorando o desempenho em momentos de alta demanda.

O modo sob demanda no Bedrock oferece aos desenvolvedores a possibilidade de pagar apenas pelo que utilizam, sem compromissos de longo prazo, ao contrário do modo em lote, no qual os desenvolvedores submetem um conjunto de instruções como um único arquivo de entrada e recebem as respostas como um único arquivo de saída, permitindo a obtenção de previsões em grande escala de forma simultânea.

“Segundo a empresa em um post de blog, ao fazer essa escolha, os desenvolvedores não precisam mais se preocupar em antecipar as variações na demanda, poupando tempo e esforço.”

Adicionalmente, essa funcionalidade dá preferência à fonte/região principal da API do Amazon Bedrock conectada sempre que viável, o que auxilia na redução da latência e no aprimoramento da capacidade de resposta. Isso permite que os clientes aprimorem a confiabilidade, o desempenho e a eficiência de suas aplicações.

Os desenvolvedores podem utilizar a cross-inferência por meio de APIs ou do console Bedrock AWS para estabelecer a região principal e o grupo de regiões secundárias onde as solicitações serão direcionadas em situações de alto tráfego.

RELACIONADO:  Downsides para usar sistemas de autoscaling em nuvem

No lançamento deste recurso, os desenvolvedores poderão escolher entre um modelo dos Estados Unidos ou um modelo da União Europeia, cada um com duas a três regiões pré-definidas nesses locais geográficos.

Atualmente, existem diferentes modelos disponíveis para combinação, como Claude 3.5 Sonnet e a família de grandes modelos de linguagem (LLMs) Claude 3, que inclui Haiku, Sonnet e Opus.

Latência se assemelha a uma caverna.

A AWS declarou que o recurso priorizará o atendimento de solicitações da região principal antes de se voltar para as regiões secundárias, o que acarretará em um aumento da latência quando ocorrer redirecionamentos.

“Em nossos experimentos, a empresa relatou que houve um acréscimo de tempo de resposta de dezenas de milissegundos.”

Para garantir transparência, os desenvolvedores e empresas devem pagar a mesma quantia por cada símbolo de modelos específicos, independentemente da região ou fonte de origem.

Neste recurso, a AWS informou que não iria cobrar os clientes empresariais por transferência de dados, criptografia, utilização de rede e possíveis variações de preço por um milhão de solicitações por modelo.

O fornecedor de serviços em nuvem também ressaltou a importância de as empresas estarem atentas aos seus requisitos de localização e proteção de dados.

A empresa ressaltou a importância de se ter em mente que, ao utilizar a inferência de região cruzada, os dados dos clientes não são armazenados na região primária ou secundária, mas serão processados e transmitidos para além da região primária.

Além da AWS, o Snowflake parece ser o único fornecedor de serviços de LLM que implementou a capacidade de inferência de região cruzada.

No começo deste mês, Snowflake disponibilizou o recurso como parte de suas funcionalidades de inteligência artificial e aprendizado de máquina.

RELACIONADO:  O serviço de inteligência artificial gerativa Amazon Bedrock alcança a disponibilidade geral.

Porém, concorrentes como o Google Cloud e a Microsoft fornecem funcionalidades semelhantes em seus serviços tradicionais de banco de dados, infraestrutura e machine learning na nuvem.

Enquanto o Google Cloud disponibiliza funcionalidades semelhantes em outros serviços, como Cloud Run e BigQuery, a Microsoft oferece endpoints de inferência como alternativa sem servidor por meio de seu serviço Azure Machine Learning.

No BigQuery, uma funcionalidade do Google Cloud, é possível replicar conjuntos de dados entre regiões diferentes. De forma semelhante, o Azure proporciona às empresas a capacidade de replicar dados em diversas regiões na nuvem.

Artigos relacionados

Leave a Reply

Your email address will not be published. Required fields are marked *

Verifique também
Close
Back to top button