A inferência em IA é o processo de executar um modelo treinado numa nova entrada para produzir um resultado, como uma previsão, classificação ou texto gerado. É a fase de implementação em que um modelo aplica o que aprendeu durante o treino a dados do mundo real. Cada vez que faz uma pergunta a um chatbot, recebe uma recomendação ou obtém um alerta de fraude, a inferência está a acontecer nos bastidores.
Como funciona a inferência
Durante o treino, um modelo ajusta os seus parâmetros internos, frequentemente milhões ou milhares de milhões de pesos numéricos, processando repetidamente exemplos rotulados até aprender padrões que se generalizam. Quando o treino termina, esses pesos são congelados e empacotados num ficheiro de modelo. A inferência começa quando um utilizador ou sistema envia uma nova entrada a esse modelo implementado.
A entrada é primeiro convertida numa representação numérica, chamada tensor, e depois passada pelas camadas do modelo. Cada camada realiza multiplicações de matrizes e aplica transformações aprendidas, produzindo representações intermédias que, em última análise, geram um resultado, como um token num modelo de linguagem, um rótulo de classe no reconhecimento de imagem ou uma pontuação numérica num sistema de recomendação. Um exemplo simples: um filtro de spam treinado com milhares de e-mails recebe uma nova mensagem, converte as suas palavras em vetores, passa-os por uma rede neuronal e devolve "spam" ou "não spam" numa fração de segundo.
Porque é importante
A inferência é onde o valor da IA é efetivamente entregue. O treino constrói o modelo, mas a inferência é o que utilizadores, aplicações e empresas experienciam. A latência, o custo e a fiabilidade na fase de inferência moldam diretamente a qualidade do produto e a confiança do utilizador. Otimizar a inferência, através de técnicas como quantização, pruning, batching ou hardware especializado como GPUs e TPUs, é um foco principal das equipas de MLOps e infraestrutura de IA, porque determina se um modelo é suficientemente rápido, económico e preciso para funcionar em escala. Para uma visão mais aprofundada sobre otimização de modelos, consulte a documentação do Hugging Face Optimum.
Principais tipos de inferência
- Inferência em tempo real (online): As respostas são devolvidas em milissegundos, como respostas de chatbots, classificações de pesquisa e deteção de fraude no checkout.
- Inferência em lote: Grandes volumes de entradas são processados offline em grupos, comum para geração de relatórios, rotulagem de dados e tarefas de pontuação noturnas.
- Inferência na borda (edge): O modelo é executado diretamente no dispositivo do utilizador, como um telemóvel, carro ou sensor IoT, reduzindo a latência e mantendo os dados privados.
- Inferência no servidor: Os pedidos são enviados para uma cloud centralizada ou data center, que oferece mais poder de computação, mas introduz latência de rede.
A inferência é o momento em que um modelo deixa de aprender e começa a trabalhar, transformando parâmetros treinados nas previsões, decisões e conteúdo em que os produtos de IA se baseiam. Compreendê-la ajuda a perceber porque é que dois modelos com precisão semelhante podem parecer muito diferentes na prática.