📖

Çıkarım nedir?

Yapay zekada çıkarım, eğitilmiş bir modelin yeni bir girdi üzerinde çalıştırılarak tahmin, sınıflandırma veya üretilmiş metin gibi bir çıktı üretme sürecidir. Modelin eğitim sırasında öğrendiklerini gerçek dünya verilerine uyguladığı dağıtım aşamasıdır.

Yapay zekada çıkarım, eğitilmiş bir modelin yeni bir girdi üzerinde çalıştırılarak tahmin, sınıflandırma veya üretilmiş metin gibi bir çıktı üretme sürecidir. Modelin eğitim sırasında öğrendiklerini gerçek dünya verilerine uyguladığı dağıtım aşamasıdır. Bir sohbet botuna her soru sorduğunuzda, bir öneri aldığınızda veya bir dolandırıcılık uyarısı gördüğünüzde, arka planda çıkarım gerçekleşiyor.

Çıkarım nasıl çalışır

Eğitim sırasında bir model, milyonlarca ya da milyarlarca sayısal ağırlıktan oluşan iç parametrelerini, genellenebilir örüntüleri öğrenene kadar etiketli örnekleri tekrar tekrar işleyerek ayarlar. Eğitim tamamlandığında bu ağırlıklar dondurulur ve bir model dosyasına paketlenir. Çıkarım, bir kullanıcı ya da sistemin bu dağıtılmış modele yeni bir girdi göndermesiyle başlar.

Girdi önce tensör adı verilen sayısal bir gösterime dönüştürülür ve ardından modelin katmanlarından geçirilir. Her katman matris çarpımları gerçekleştirir ve öğrenilmiş dönüşümler uygulayarak, nihayetinde bir dil modelindeki token, görüntü tanımadaki sınıf etiketi ya da bir öneri sistemindeki sayısal puan gibi bir çıktıyı oluşturan ara gösterimler üretir. Basit bir örnek: binlerce e-posta üzerinde eğitilmiş bir istenmeyen posta filtresi, gelen yeni bir mesajı alır, sözcüklerini vektörlere dönüştürür, bunları bir sinir ağından geçirir ve saniyenin bir kesri içinde "istenmeyen posta" ya da "istenmeyen posta değil" çıktısını verir.

Neden önemlidir

Çıkarım, yapay zekanın değerinin fiilen sunulduğu aşamadır. Eğitim modeli oluşturur, ancak çıkarım kullanıcıların, uygulamaların ve işletmelerin deneyimlediği şeydir. Çıkarım aşamasındaki gecikme, maliyet ve güvenilirlik, doğrudan ürün kalitesini ve kullanıcı güvenini şekillendirir. Çıkarımı optimize etmek — kuantizasyon, budama, toplu işleme ya da GPU ve TPU gibi özelleşmiş donanımlar gibi teknikler aracılığıyla — MLOps ve yapay zeka altyapı ekiplerinin başlıca odağıdır; çünkü bir modelin ölçekte çalışacak kadar hızlı, ucuz ve doğru olup olmadığını bu belirler. Model optimizasyonu hakkında daha ayrıntılı bir genel bakış için Hugging Face Optimum belgelerine bakabilirsiniz.

Çıkarımın temel türleri

  • Gerçek zamanlı (çevrimiçi) çıkarım: Yanıtlar milisaniyeler içinde döndürülür; sohbet botu yanıtları, arama sıralamaları ve ödeme anında dolandırıcılık tespiti gibi.
  • Toplu çıkarım: Büyük hacimli girdiler çevrimdışı olarak gruplar halinde işlenir; rapor oluşturma, veri etiketleme ve gecelik puanlama görevleri için yaygındır.
  • Uç çıkarım: Model doğrudan kullanıcının cihazında — telefon, araç ya da IoT sensörü gibi — çalışır, bu da gecikmeyi azaltır ve verileri gizli tutar.
  • Sunucu tarafı çıkarım: İstekler merkezi bir bulut ya da veri merkezine gönderilir; bu daha fazla işlem gücü sunar ancak ağ gecikmesi getirir.

Çıkarım, modelin öğrenmeyi bırakıp çalışmaya başladığı, eğitilmiş parametreleri yapay zeka ürünlerinin temelini oluşturan tahminlere, kararlara ve içeriklere dönüştürdüğü andır. Bunu anlamak, benzer doğruluk oranlarına sahip iki modelin pratikte neden çok farklı hissedilebileceğini açıklamaya yardımcı olur.

Sıkça Sorulan Sorular

What is the difference between training and inference?
Training is the phase where a model learns patterns from data by adjusting its internal weights, typically using large datasets and significant compute. Inference is the phase that comes after, where the trained model is used to make predictions or generate outputs on new data without further weight updates. Training happens once (or periodically); inference happens every time the model is used.
How fast does AI inference need to be?
It depends on the application. Real-time use cases like conversational AI, search, and fraud detection often require responses in under 200 milliseconds. Batch jobs like overnight analytics can take minutes or hours. Edge applications such as voice assistants are especially latency-sensitive because they cannot rely on a round trip to the cloud.
Why is inference expensive?
Inference cost comes from the compute, memory, and energy required to run a model, which scales with model size and request volume. Large language models with billions of parameters can cost several cents per request on cloud GPUs, and at billions of daily requests, that adds up quickly. Techniques like quantization, caching, and smaller distilled models are common ways to reduce inference cost.
Can inference run without the internet?
Yes, through edge inference. Smaller, optimized models can be deployed directly on devices like smartphones, laptops, cars, and embedded sensors, allowing AI features to work offline and keeping user data local. The trade-off is that edge models are usually less capable than the largest cloud-hosted models because of hardware constraints.