O que é aprendizado por transferência?

O aprendizado por transferência (TL) é uma técnica de machine learning (ML) em que um modelo pré-treinado em uma tarefa é ajustado para uma nova tarefa relacionada. Treinar um novo modelo de ML é um processo demorado e intenso que requer uma grande quantidade de dados, potência de computação e várias iterações antes de estar pronto para produção. Em vez disso, as organizações usam o TL para treinar novamente os modelos existentes em tarefas relacionadas com novos dados. Por exemplo, se um modelo de machine learning é capaz de identificar imagens de cães, ele pode ser treinado para identificar gatos usando um conjunto de imagens menor que destaca as diferenças de atributos entre cães e gatos.

Quais são os benefícios do aprendizado por transferência?

O aprendizado por transferência oferece vários benefícios às equipes de pesquisa que criam aplicações de Machine learning.

Maior eficiência

O treinamento de modelos de ML leva tempo, pois envolve a construção de conhecimento e a detecção de padrões. Também requer um grande conjunto de dados e representa um custo computacional significativo. No aprendizado por transferência, um modelo pré-treinado retém o conhecimento fundamental de tarefas, recursos, pesos e funções, permitindo uma rápida adaptação a novas tarefas. Isso possibilita o uso de um conjunto de dados consideravelmente menor e menos recursos e, ao mesmo tempo, a obtenção de melhores resultados. 

Maior acessibilidade

A criação de redes neurais de aprendizado profundo exige grandes volumes de dados, recursos, poder computacional e tempo. O aprendizado por transferência supera essas dificuldades, permitindo que as organizações adotem o ML para casos de uso personalizados. É possível personalizar modelos já existentes de acordo com suas necessidades, e tudo isso por uma fração do custo. Como exemplo, o uso de um modelo de reconhecimento de imagem pré-treinado permite o desenvolvimento de modelos para análise de imagens médicas, monitoramento ambiental ou identificação facial com ajustes mínimos.

Melhoria na performance

Os modelos desenvolvidos por meio do aprendizado por transferência geralmente demonstram maior robustez em ambientes diversos e desafiadores. São capazes de lidar melhor com a variabilidade e o ruído do mundo real, já que foram expostos a uma ampla variedade de cenários em seu treinamento inicial. Além de gerar melhores resultados, também se adaptam a condições imprevisíveis com mais flexibilidade.

Quais são as diferentes estratégias de aprendizado por transferência?

A estratégia usada para facilitar o aprendizado por transferência dependerá do domínio do modelo a ser criado, da tarefa que precisa ser concluída e da disponibilidade dos dados de treinamento.

Aprendizado por transferência transdutiva

O aprendizado por transferência transdutiva envolve a transferência de conhecimento de um domínio de origem específico para um domínio-alvo diferente, mas relacionado, onde o foco é o domínio-alvo. É útil em casos onde existe uma quantidade limitada ou inexistente de dados rotulados no domínio alvo.

O aprendizado por transferência transdutiva solicita que o modelo faça previsões sobre os dados alvo usando conhecimentos adquiridos anteriormente. Como os dados alvo são matematicamente semelhantes aos dados de origem, o modelo encontra padrões e tem um desempenho mais rápido. 

Por exemplo, considere a adaptação de um modelo de análise de sentimentos que foi treinado para avaliar produtos, e agora precisa lidar com críticas de filmes. O domínio de origem (avaliações de produtos) e o domínio alvo (críticas de filmes) diferem em contexto e especificidades, mas compartilham semelhanças na estrutura e no uso da linguagem. O modelo aprende rapidamente a aplicar sua compreensão do sentimento, proveniente do domínio do produto, ao domínio da análise de filmes.

Aprendizado por transferência indutiva

O aprendizado por transferência indutiva ocorre quando os domínios de origem e alvo são os mesmos, mas as tarefas que o modelo deve concluir são diferentes. O modelo pré-treinado já possui familiaridade com os dados de origem e seu treinamento para novas funções é consequentemente mais rápido.

Um exemplo de aprendizado por transferência indutiva é encontrado no processamento de linguagem natural (PLN). Os modelos são pré-treinados em um grande conjunto de textos e, em seguida, ajustados através do aprendizado por transferência indutiva para funções específicas, como a análise de sentimentos. Da mesma forma, modelos de visão computacional como o VGG são pré-treinados em grandes conjuntos de dados de imagens, e só então são ajustados para desenvolver a detecção de objetos.

Aprendizado por transferência não supervisionada

O aprendizado por transferência não supervisionada usa uma estratégia semelhante ao aprendizado por transferência indutiva para desenvolver novas habilidades. No entanto, essa abordagem de transferência de aprendizado é utilizada quando os dados disponíveis nos domínios de origem e alvo carecem de rótulos. 

O modelo aprende as características comuns dos dados não rotulados, permitindo uma generalização mais precisa ao realizar tarefas específicas quando necessário. Esse método é útil se a obtenção de dados rotulados no domínio de origem for cara ou complexa.

Por exemplo, considere a tarefa de identificar diferentes tipos de motocicletas em imagens de trânsito. Inicialmente, o modelo é treinado em um grande conjunto de imagens de veículos não rotuladas. Nesse caso, o modelo determina de forma independente as semelhanças e características distintivas entre diferentes tipos de veículos, como carros, ônibus e motocicletas. Em seguida, o modelo é apresentado a um conjunto pequeno e específico de imagens de motocicletas. O desempenho do modelo melhora significativamente em comparação com o anterior.

Quais são as etapas envolvidas no aprendizado por transferência?

Existem três etapas fundamentais na adaptação de um modelo de machine learning para uma nova função.

Seleção de um modelo pré-treinado

Primeiro, é preciso escolher um modelo pré-treinado que já possua conhecimento ou habilidades relevantes para uma tarefa relacionada. Uma abordagem eficaz para selecionar o modelo mais adequado é identificar a tarefa original que cada um executou. Ao compreender as funções iniciais executadas pelo modelo, é possível identificar qual se adapta melhor a uma nova tarefa.

Configuração de modelos pré-treinados

Após escolher seu modelo de referência, faça as configurações necessárias para transferir seu conhecimento a outro modelo encarregado da tarefa específica. Existem duas abordagens para isso.

Congelamento de camadas pré-treinadas

As camadas são os blocos de construção das redes neurais. Formada por um agrupamento de neurônios, cada camada executa transformações específicas nos dados de entrada. A rede usa certos parâmetros para tomar decisões, chamados de pesos. Inicialmente definidos para valores aleatórios, os pesos são ajustados durante o processo de treinamento à medida que o modelo aprende com os dados.

Preservar os pesos das camadas pré-treinadas, mantendo-os fixos, significa reter o conhecimento que o modelo de aprendizado profundo obteve na tarefa de origem.

Remoção da última camada

Em alguns casos de uso, é viável remover as últimas camadas do modelo pré-treinado. Na maioria das arquiteturas de ML, as últimas camadas são aquelas responsáveis pela tarefa. A remoção dessas camadas finais permite reconfigurar o modelo para lidar com novas tarefas.

Introdução de novas camadas

A introdução de novas camadas ao modelo pré-treinado facilita a sua adaptação à nova tarefa. As camadas recém-introduzidas personalizam o modelo para lidar com as particularidades da nova tarefa de forma mais eficaz.

Treinamento de modelo para o domínio de destino

Inicie o treinamento do modelo nos dados da tarefa de destino para desenvolver uma saída padrão, que se alinha à nova tarefa. O modelo pré-treinado, inicialmente, pode gerar resultados distintos dos desejados. Depois de monitorar e avaliar o desempenho do modelo durante o treinamento, você pode ajustar os hiperparâmetros ou a arquitetura básica da rede neural para melhorar ainda mais os resultados. Diferentemente dos pesos, os hiperparâmetros não são aprendidos a partir dos dados. Eles são predefinidos e desempenham um papel crucial na determinação da eficiência e eficácia do processo de treinamento. Por exemplo, você pode ajustar os parâmetros de regularização ou as taxas de aprendizado do modelo para melhorar sua capacidade em relação à tarefa em questão.

Quais são as estratégias de aprendizado por transferência na IA generativa?

As estratégias de aprendizado por transferência são essenciais para a adoção de IA generativa em vários setores. As organizações podem personalizar os modelos de base existentes com ajuste de escala sem precisar treinar novos modelos com enormes conjuntos de dados e bilhões de parâmetros. Vamos apresentar agora algumas das estratégias de aprendizado por transferência utilizadas na IA generativa.

Treinamento de domínio adversarial

O treinamento de domínio adversarial envolve o treinamento de um modelo de base para produzir dados indistinguíveis dos dados reais no domínio de destino. Essa técnica normalmente emprega uma rede discriminadora, semelhante àquelas encontradas nas redes adversárias generativas, que tenta distinguir entre dados verdadeiros e gerados pelo modelo. O gerador, por sua vez, aprende a produzir dados cada vez mais realistas.

Por exemplo, na geração de imagens, um modelo treinado em fotografias pode ser adaptado para gerar arte. O discriminador ajuda a garantir que a arte gerada seja estilisticamente consistente com o domínio de destino.

Aprendizado professor-aluno

O aprendizado professor-aluno envolve um modelo que atua como professor, maior e mais complexo, que é responsável por ensinar um modelo de aluno menor e mais simples. O modelo do aluno aprende a imitar o comportamento do modelo professor, transferindo conhecimento de forma eficaz. Isso é útil para implantar grandes modelos generativos em ambientes com recursos limitados.

Por exemplo, um grande modelo de linguagem (LLM) poderia atuar como professor para um modelo menor, transferindo seus recursos de geração de linguagem. Isso permitiria que o modelo menor gerasse texto de alta qualidade com menos sobrecarga computacional.

Separação de recursos

A separação de recursos em modelos generativos divide os diferentes aspectos dos dados, como conteúdo e estilo, em representações distintas. Isso permite que o modelo manipule esses aspectos de forma independente no processo de aprendizado por transferência.

Por exemplo, em uma tarefa de geração de faces, um modelo pode aprender a separar as características faciais do estilo artístico. Isso permitiria gerar retratos em vários estilos artísticos enquanto mantém a semelhança do objeto.

Aprendizado por transferência intermodal

O aprendizado por transferência intermodal envolve a transferência de conhecimento entre diferentes modalidades, como texto e imagens. Modelos generativos podem aprender representações aplicáveis a essas modalidades. Um modelo treinado em descrições textuais e imagens correspondentes pode aprender a gerar imagens relevantes a partir de novas descrições de texto, efetivamente transferindo sua compreensão do texto para o domínio das imagens.

Aprendizado com poucos ou nenhum exemplo

No aprendizado com poucos ou nenhum exemplo, também chamado de few-shot ou zero- shot, os modelos generativos são treinados para realizar tarefas ou gerar dados com base em um número limitado ou inexistente de exemplos observados durante seu treinamento. Esse processo envolve o desenvolvimento de representações abrangentes que possuem uma boa capacidade de generalização. Por exemplo, um modelo generativo pode ser treinado para criar imagens de animais. Ao utilizar a técnica de aprendizado com poucos exemplos, esse modelo seria capaz de gerar imagens de animais pouco conhecidos, ao interpretar e mesclar traços de diferentes animais.

Como a AWS pode solucionar as minhas demandas de aprendizado por transferência?

O Amazon SageMaker JumpStart disponibiliza acesso a modelos pré-treinados, incluindo modelos básicos, para realizar tarefas como resumo de artigos e geração de imagens. Use o aprendizado por transferência para produzir modelos precisos com conjuntos de dados menores. Os custos de treinamento são mais baixos do que aqueles envolvidos no treinamento do modelo original. Por exemplo, com o SageMaker JumpStart é possível:

  • Personalizar totalmente os modelos pré-treinados para seu caso de uso e com seus dados, permitindo uma implantação mais rápida na produção.
  • Acessar soluções pré-criadas para resolver casos de uso comuns.
  • Compartilhar artefatos de ML, incluindo modelos e cadernos de anotações, dentro da sua organização.

Ao usar a abordagem de aprendizado por transferência multimodal, é possível usar o Amazon SageMaker Debugger para detectar problemas ocultos. Por exemplo, você pode examinar as previsões do modelo para encontrar erros, validar a robustez do modelo e considerar o quanto dessa robustez se deve às habilidades pré-existentes. Além disso, é possível verificar as entradas e os processos preliminares do modelo para obter resultados realistas.

Explore o aprendizado por transferência com a AWS ao criar uma conta gratuita hoje mesmo.

Próximas etapas na AWS

Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS.

Cadastre-se 
Comece a criar no console

Comece a criar no Console de Gerenciamento da AWS.

Faça login