Transformer, girdideki her öğeyi aynı anda diğer tüm öğelerle karşılaştırarak — en meşhur biçimiyle — dil olmak üzere veri dizilerini işlemek için tasarlanmış bir sinir ağı türüdür. Eski tekrarlayan ağlar gibi yalnızca soldan sağa okumak yerine, öz-dikkat (self-attention) adı verilen bir mekanizma kullanarak aralarındaki mesafeden bağımsız olarak hangi kelimelerin, tokenlerin veya konumların birbirleri için en önemli olduğunu öğrenir. Bu paralel tasarım, Transformer'ların modern donanımda daha hızlı eğitilmesini ve uzun mesafeli bağıntıları yakalamada çarpıcı biçimde daha başarılı olmasını sağlar; bu nedenle günümüzde neredeyse tüm en gelişmiş büyük dil modellerinin temelinde yer alırlar.
Transformer nasıl çalışır
Transformer'ın kalbinde öz-dikkat işlemi yer alır. Her girdi tokeni üç vektöre — sorgu (query), anahtar (key) ve değer (value) — dönüştürülür. Bir tokeni anlamak için model, o tokenin sorgusunu diğer tüm tokenlerin anahtarlarıyla karşılaştırarak "her birinize ne kadar dikkat etmeliyim?" anlamına gelen bir dizi dikkat skoru üretir. Bu skorlar ağırlıklara normalize edilir ve değer vektörlerinin ağırlıklı toplamı, o tokenin yeni gösterimine dönüşür. Çok kafalı dikkat (multi-head attention) bu tür karşılaştırmaları birden fazla paralel olarak çalıştırarak modelin aynı anda farklı ilişki türlerini — dil bilgisi, eşgönderim, duygu ve daha fazlasını — takip etmesine olanak tanır.
Bu dikkat bloklarının — her birinin ardından küçük bir ileri beslemeli ağ ve artık bağlantılar gelen — üst üste yığılmasıyla tam model oluşur. Dikkat mekanizmasının kendisi sıra-bağımsız (permutation-agnostic) olduğundan, ağın token sırasını bilmesi için girdilere bir konumsal kodlama (positional encoding) eklenir. Eğitim sırasında, yalnızca kodçözücü (decoder-only) yapısındaki bir Transformer bir dizideki sonraki tokeni tahmin eder; yeterli veri ve parametreyle bu basit amaç, GPT gibi sistemlerde görülen akıl yürütme, çeviri ve kod üretme yeteneklerini ortaya çıkarır.
Neden önemlidir
Transformer'lardan önce tekrarlayan sinir ağları (RNN'ler) ve LSTM'ler metni her seferinde tek bir token işleyerek çalışıyordu; bu yavaştı ve uzun bağlamlarda zorlanıyordu. Transformer'ın paralel dikkat mekanizması, araştırmacıların modelleri web ölçeğindeki veri kümeleri üzerinde milyarlarca parametreye ölçeklendirmesine olanak tanıyarak modern LLM'lerin yeteneklerinin kapısını açtı. Aynı mimari o zamandan bu yana görüntülere (vision transformer'lar), sese, proteinlere ve pekiştirmeli öğrenmeye uyarlanarak çağdaş derin öğrenmenin baskın paradigması haline geldi.
Temel türler
- Yalnızca kodlayıcı Transformer'lar — BERT gibi, sınıflandırma, arama sıralaması ve gömme (embedding) gibi anlama görevleri için optimize edilmiştir.
- Yalnızca kodçözücü Transformer'lar — GPT ve Llama gibi, metni her seferinde tek bir token üreterek oluşturmak için optimize edilmiştir.
- Kodlayıcı-kodçözücü Transformer'lar — özgün "Attention Is All You Need" modeli ve T5 gibi, çeviri ve diziden diziye (sequence-to-sequence) görevler için kullanılır.
- Görü Transformer'ları (ViT) — öz-dikkati kelimeler yerine görüntü parçalarına (patch) uygular.
- Uzman Karışımı (MoE) Transformer'ları — her tokeni "uzman" alt ağlarının bir alt kümesine yönlendirerek orantılı bir işlem maliyeti artışı olmadan kapasiteyi yükseltir.
2017'den bu yana Transformer hem yapay zekâ araştırmasını hem de ürün mühendisliğini yeniden şekillendirdi; HyperStore kataloğundaki çoğu uygulama — sohbet botları, kod asistanları, görsel üreteçler ve akıl yürütme ajanları — bir ölçüde bu mimarinin bir varyantı üzerine kurulu. Temel tasarım için özgün "Attention Is All You Need" makalesini ya da adım adım bir anlatım için Illustrated Transformer rehberini okuyabilirsiniz.