How is reinforcement learning different from supervised learning?

In supervised learning, the model is trained on input-output pairs labeled by humans. In reinforcement learning, the agent is not given correct answers — it explores actions, observes rewards, and learns from the consequences. RL is best suited to sequential decision problems where the right action depends on long-term outcomes.

What is RLHF and why is it important?

RLHF (Reinforcement Learning from Human Feedback) trains a model using human preference judgments as the reward signal. It is widely used to align large language models with human intent, making outputs more helpful, harmless, and accurate. The technique became central to modern chat assistants after OpenAI's work on InstructGPT.

What are common challenges in reinforcement learning?

Key challenges include sample inefficiency (agents often need huge amounts of experience), sparse or delayed rewards that make credit assignment difficult, instability during training, and the difficulty of safely deploying agents in real-world environments where exploration can be costly or risky.

Where is reinforcement learning used in practice?

RL is used in game playing (AlphaGo, Atari), robotics, autonomous vehicles, recommendation engines, advertising bidding, chip placement, and language model fine-tuning. Anywhere a system must plan a sequence of decisions whose effects compound over time is a candidate application.

O que é a Aprendizagem por Reforço? Um Guia para Iniciantes

A aprendizagem por reforço (RL) é um ramo do machine learning em que um agente aprende a tomar decisões através da interação com um ambiente. Após cada ação, o agente recebe uma recompensa (ou penalização) numérica e atualiza o seu comportamento para favorecer ações que conduzam a melhores resultados a longo prazo. Ao contrário da aprendizagem supervisionada, o agente não recebe exemplos rotulados de respostas corretas — tem de descobrir estratégias eficazes por tentativa e erro.

Como funciona a Aprendizagem por Reforço

A cada passo, o agente observa o estado atual do ambiente, escolhe uma ação entre as opções disponíveis e, em seguida, recebe uma recompensa juntamente com o estado seguinte. O objetivo é aprender uma política, essencialmente um mapeamento de estados para ações, que maximize a soma esperada de recompensas futuras. Técnicas como o Q-learning estimam o valor de realizar cada ação em cada estado, enquanto os métodos de gradiente de política ajustam diretamente a política com base nas ações que tendem a produzir recompensas elevadas. As abordagens modernas combinam RL com redes neuronais profundas — como nas Deep Q-Networks (DQN) — para lidar com problemas com espaços de estado muito grandes ou contínuos, como entrada de vídeo em bruto.

Por que é importante

A aprendizagem por reforço alimenta muitos dos avanços mais visíveis em IA, desde sistemas de jogo como o AlphaGo e o AlphaZero até à etapa de fine-tuning por trás dos modernos assistentes de modelos de linguagem de grande dimensão, através de métodos como o RLHF (Reinforcement Learning from Human Feedback). É também utilizada em robótica, condução autónoma, sistemas de recomendação, otimização da cadeia de abastecimento e agendamento de recursos, em todo o lado onde um sistema tem de tomar uma sequência de decisões cujos efeitos se desenrolam ao longo do tempo e onde a melhor estratégia a longo prazo não é óbvia à partida.

Tipos principais

RL sem modelo: o agente aprende diretamente a partir da experiência, sem construir um modelo interno do ambiente (por exemplo, Q-learning, PPO).
RL baseada em modelo: o agente aprende um modelo de como o ambiente funciona e planeia ações utilizando esse modelo.
Métodos de gradiente de política: otimizam diretamente a política, úteis para ações contínuas e políticas estocásticas.
RL multi-agente: vários agentes aprendem em simultâneo num ambiente partilhado, útil para teoria dos jogos e coordenação.

A aprendizagem por reforço continua a ser uma das estruturas mais flexíveis para a tomada de decisões sequenciais, e é cada vez mais a ponte entre modelos de reconhecimento de padrões e sistemas que atuam de forma autónoma no mundo real. O texto de referência canónico é "Reinforcement Learning: An Introduction" de Sutton e Barto.

O que é Aprendizagem por Reforço?

Como funciona a Aprendizagem por Reforço

Por que é importante

Tipos principais

Perguntas Frequentes