Cloud

A forma como a AWS aborda a avaliação RAG pode auxiliar as organizações a diminuir os custos com inteligência artificial.

Os pesquisadores da AWS criaram uma nova abordagem para criar um sistema automatizado de avaliação RAG, o qual poderia auxiliar as empresas na construção mais ágil de aplicativos e na diminuição de despesas.

Imagem: Peggychoucair/UnPlash

A recente proposta da AWS sobre a criação de um sistema automatizado de avaliação RAG pode simplificar a criação de aplicativos de inteligência artificial generativa e, ao mesmo tempo, auxiliar as companhias a diminuir os custos com infraestrutura de computação.

A geração avançada de RAG ou de recuperação é uma entre diversas estratégias empregadas para enfrentar alucinações, que consistem em respostas sem sentido ou arbitrárias produzidas por modelos de linguagem de grande escala (LLMs) à medida que se tornam mais complexos.

A RAG se baseia no LLM ao usar informações do modelo provenientes de uma fonte externa ou repositório de conhecimento para aprimorar a resposta a uma solicitação específica.

Existem outras formas de lidar com alucinações, como ajuste fino e engenharia rápida, mas o principal especialista da Forrester, Charlie Dai, destacou que a RAG se tornou uma abordagem crucial para as empresas reduzirem alucinações em LLMs e gerarem resultados comerciais a partir da inteligência artificial generativa.

Entretanto, Dai destacou que os pipelines RAG demandam diversos elementos de construção e práticas de engenharia consideráveis, levando as empresas a procurarem abordagens de avaliação mais sólidas e automatizadas para impulsionar seus projetos de RAG. Por isso, a nova função da AWS pode despertar interesse nas empresas.

De acordo com o analista-chefe da Omdia Bradley Shimmin, a metodologia delineada pelos pesquisadores da AWS no artigo poderia auxiliar as empresas na criação de soluções mais eficazes e acessíveis para o RAG, sem depender de ajustes caros, fluxos de trabalho ineficientes ou excesso de aprendizado em contexto.

Qual é o sistema de avaliação RAG automatizado da AWS?

O estudo chamado “Avaliação automatizada de modelos de linguagem melhorados com criação de testes específicos para tarefas”, que será exposto na conferência ICML 2024 em julho, sugere um método automatizado para elaborar testes, aprimorado pela teoria da resposta ao item (IRT), visando avaliar a exatidão de modelos RAG em tarefas específicas.

RELACIONADO:  Você necessita de unidades de processamento gráfico para sistemas de inteligência artificial generativa?

A teoria da resposta latente, também chamada de teoria da resposta ao item, é comumente empregada na área da psicometria para analisar a ligação entre traços ocultos e manifestos, como resultados ou respostas, por meio de uma variedade de modelos matemáticos.

De acordo com pesquisadores da AWS, a avaliação do RAG é feita por meio de um teste sintético autogerado, que consiste em questões de múltipla escolha criadas com base nos documentos relacionados a uma determinada tarefa.

Os pesquisadores explicaram que utilizaram a Teoria de Resposta ao Item para avaliar a eficácia de um teste e sua capacidade de fornecer informações precisas sobre a habilidade específica avaliada. Eles também mencionaram que a IRT oferece uma abordagem natural para aprimorar continuamente o teste, removendo questões que não contribuem adequadamente para medir a capacidade de um modelo.

O novo método de avaliação do RAG foi testado em quatro diferentes atividades que envolviam responder a perguntas abertas com base em resumos do Arxiv, perguntas do StackExchange, guias de solução de problemas da AWS DevOps e registros SEC. Os testes revelaram informações mais amplas sobre os fatores que influenciam o desempenho do RAG, como o tamanho, o mecanismo de recuperação, a indução e o ajuste fino.

Uma perspectiva cheia de potencial

De acordo com Joe Regensburger, especialista em IA da empresa de segurança de dados, a abordagem mencionada no artigo sobre a AWS apresenta várias vantagens interessantes, como a maneira de lidar com os pipelines especializados que requerem testes específicos.

De acordo com Regensburger, a chave está no fato de que a maioria dos pipelines vai se basear em LLMs comerciais ou de código aberto. Esses modelos não serão treinados com conhecimentos específicos de um determinado domínio, tornando os conjuntos de testes tradicionais inúteis.

RELACIONADO:  O futuro da computação em nuvem nos próximos 10 anos.

No entanto, Regensburger observou que, embora a estratégia mostre potencial, ainda precisará progredir na elaboração de exames, já que o principal obstáculo não é formular uma pergunta ou resposta apropriada, mas sim criar questões distrativas desafiadoras o bastante.

“Segundo Regensburger, os sistemas automatizados têm dificuldade em se equiparar ao grau de complexidade das perguntas feitas por humanos, especialmente no que diz respeito às perguntas que desviam o foco. Portanto, é a geração de perguntas distrativas que poderia ser aprimorada com uma análise mais aprofundada, quando comparada às perguntas feitas manualmente nos exames AP (Advanced Placement).”

De acordo com Regensburger, as perguntas nos exames de AP são criadas por especialistas no assunto, que estão constantemente definindo, revisando e aprimorando as perguntas durante a elaboração do exame.

Sondas fundamentadas em avaliações para modelos de linguagem de aprendizado profundo já estão disponíveis. Segundo Regensburger, uma parte da documentação do ChatGPT avalia o desempenho do modelo em relação a uma série de testes padronizados. Ele também mencionou que a AWS está ampliando a proposta da OpenAI ao sugerir que um teste poderia ser criado com base em conjuntos de conhecimento especializados, frequentemente privados.

Em termos gerais, isso irá verificar a capacidade de um pipeline RAG de se adaptar a novos e específicos conhecimentos.

Simultaneamente, Shimmin da empresa Omdia observou que diversos provedores, como AWS, Microsoft, IBM e Salesforce, já disponibilizam recursos ou plataformas voltadas para a melhoria e otimização de implementações de RAG. Isso abrange desde ferramentas simples de automação, como a LlamaIndex, até soluções mais avançadas, como o GraphRAG recém-lançado pela Microsoft.

Comparação entre RAG otimizado e modelos de linguagem extremamente grandes.

Segundo pesquisadores da AWS, optar pelos algoritmos de recuperação adequados frequentemente resulta em melhorias de desempenho mais significativas do que apenas aumentar o tamanho do LLM, o que pode ser uma abordagem dispendiosa.

RELACIONADO:  Couchbase Server e Capella visam receber suporte vetorial.

Recentes avanços, como o “context caching” com o Google Gemini Flash, estão tornando mais fácil para as empresas apoiar a construção de tokenização complexa e processos de recuperação como parte do pipeline RAG. No entanto, essa abordagem pode resultar em um alto custo em recursos de computação para evitar atrasos, conforme observado por Shimmin da Omdia.

“Segundo Shimmin, as técnicas em resposta à teoria da AWS têm o potencial de facilitar um dos desafios mais complexos da RAG, que consiste em avaliar a qualidade das informações recuperadas antes de enviá-las para o modelo. Com essas otimizações disponíveis, as empresas podem aprimorar a eficiência de suas operações de inferência, selecionando as informações mais relevantes para enviar ao modelo em vez de sobrecarregá-lo com dados desnecessários de uma só vez.”

Por outro lado, de acordo com Dai da Forrester, o desempenho dos modelos de fundação é afetado por diversos fatores, não apenas pelo tamanho do modelo.

“Dai explicou que é importante que as empresas adotem uma avaliação metódica do modelo de base, considerando aspectos técnicos, de negócios e do ecossistema, como modalidade de modelo, desempenho, alinhamento, adaptação, apoio de código aberto, custo-efetividade, disponibilidade local, prompt engineering, suporte RAG, suporte de agentes, plugins, APIs e ModelOps.”

Artigos relacionados

Leave a Reply

Your email address will not be published. Required fields are marked *

Verifique também
Close
Back to top button