Aprendizado por Reforço ou reinforcement learning é um tipo de aprendizado de máquina da inteligência artificial que se concentra no desenvolvimento de algoritmos em que agentes interagem com um ambiente e aprendem a tomar decisões com base em experiências de tentativa e erro. O objetivo é aprender a escolher ações que maximizam as recompensas.
Para tornar o conceito mais claro, vamos usar o Pitfall (um clássico da Atari). O objetivo desse jogo é guiar Harry através de uma floresta evitando diversos perigos mortais e tentando apanhar o maior número de tesouros no menor tempo possível.
O Harry (agente), deve explorar a floresta (ambiente) e tomar decisões (ação) que deverão evitar que ele perca uma vida (punição) e pegue o máximo de moedas possíveis (recompensa) para completar a aventura.
À medida que o jogo evolui, nós vamos realizando ações que geram consequências, pegamos moedas e ganhamos pontos ou somos picados por uma cobra e morremos, e por meio dessa interação vamos ajustando nosso comportamento com base no feedback que recebemos do ambiente.
Com base na experiência que adquirimos, percebemos que algumas áreas da floresta são mais perigosas do que outras e portanto, aprendemos a evitá-las ou que para garantir um pulo seguro contra os crocodilos é melhor aguardar que ele feche sua boca. Essa é a ideia por trás do aprendizado por reforço, explorar o ambiente e aprender, com erros e acertos, a melhor forma de atingir sua meta. Bem legal, não acham?
Fonte: Google Imagens
No geral, o aprendizado por reforço possui muitas aplicações, incluindo robótica, jogos, finanças, saúde, redes sociais, publicidade e muitos outras. Nesse artigo vou citar quatro aplicações de inteligência artificial bem bacanas que fizeram uso dessa técnica.
Aplicações em carros autônomos
A Wayve.ai aplicou o aprendizado por reforço para treinar um carro sobre como dirigir em um dia. O algoritmo de inteligência artificial foi utilizado para realizar a tarefa onde o carro deve aprender do zero como seguir a faixa. Em cerca de 20 minutos, o veículo foi capaz de aprender e concluir a atividade.
Em cada episódio a faixa foi gerada aleatoriamente e o agente explorou o ambiente até sair da pista, quando o episódio terminou. Em seguida, a política foi otimizada com base nos dados coletados e o processo repetido.
Fonte: Wayve.ai
Aplicações em processamento de linguagem natural
No campo de processamento de linguagem natural, o RL pode ser usado para tradução automática como demonstrado pelos autores da Universidade do Colorado e da Universidade de Maryland que propuseram uma abordagem baseada em aprendizado por reforço para a tradução automática simultânea.
Em resumo, o tradutor por inteligência artificial usa o aprendizado por reforço para prever, com mais confiança, qual será o final da frase antes dela ser completamente digitada, eliminando a necessidade de esperar que a entrada completa apareça para iniciar a tradução. O que, segundo os autores, seria um gargalo do tradutor tradicional.
Aplicações em manipulação robótica
A Google Research aplicou o aprendizado profundo combinado com o aprendizado por reforço usando 7 robôs que executaram 800 horas/robô em um período de 4 meses para treinamento de uma política de coleta de objetos.
Ao final do processo, eles conseguiram obter sucesso com um algoritmo capaz de generalizar para um conjunto diversificado de objetos não vistos durante o treinamento.
Fonte: Google Research
Aplicações em conservação de energia
Em 2018, a Deepmind fez uso de agentes de IA para resfriar os Data Centers do Google, o que levou a uma redução de cerca de 30% no gasto de energia já nos primeiros meses de implantação.
A cada cinco minutos a IA tira um instantâneo do sistema de refrigeração do data center e alimenta os algoritmos que preveem como diferentes combinações de ações potenciais afetarão o consumo futuro de energia. Em seguida, a inteligência artificial identifica quais ações minimizarão esse consumo e essas ações são enviadas de volta para o data center onde serão implementadas.
Fonte: Deepmind
O aprendizado por reforço é uma área de pesquisa em constante evolução e esforços significativos têm sido feitos para impulsionar seu uso na resolução de tarefas humanas complexas. Uma das grandes vantagens dessa abordagem está na possibilidade de obter as melhores ações sem a necessidade de se conhecer todas as características do ambiente. Espero que esse texto tenha lançado uma luz sobre esse campo e despertado em você o interesse de explorá-lo mais a fundo.
A revolução da IA já está acontecendo. Quer saber mais? Leia mais sobre a Hop AI e entre em contato.