Who invented the Transformer architecture?

A team at Google Brain led by Vaswani et al. introduced the Transformer in the 2017 paper "Attention Is All You Need." Its eight authors — including Noam Shazeer, Jakob Uszkoreit, Llion Jones, and Aidan Gomez — showed that self-attention alone could match or beat recurrent and convolutional models on translation tasks while training far faster on GPUs.

What is the difference between a Transformer and an LLM?

A Transformer is the underlying neural network architecture; an LLM (large language model) is a specific application of it, trained on massive text datasets to generate and reason about language. In other words, every modern LLM is built from Transformer blocks, but not every Transformer is an LLM — vision and audio models use the same architecture too.

Why did Transformers replace RNNs and LSTMs?

Transformers process entire sequences in parallel rather than one token at a time, making them far more efficient to train on modern hardware. Their self-attention also captures relationships across long distances in a sequence — something RNNs and LSTMs struggled with due to vanishing gradients. The result is faster training, larger models, and noticeably better performance on language tasks.

What are the main limitations of Transformers?

Self-attention scales quadratically with sequence length, so very long contexts (tens of thousands of tokens) become expensive in both memory and compute. Transformers also require large amounts of training data, are opaque in how they reach decisions, and can hallucinate confident but incorrect outputs. Active research on sparse attention, state-space models, and retrieval augmentation aims to address these trade-offs.

Transformer Nedir? | HyperStore Sözlüğü

Transformer, girdideki her öğeyi aynı anda diğer tüm öğelerle karşılaştırarak — en meşhur biçimiyle — dil olmak üzere veri dizilerini işlemek için tasarlanmış bir sinir ağı türüdür. Eski tekrarlayan ağlar gibi yalnızca soldan sağa okumak yerine, öz-dikkat (self-attention) adı verilen bir mekanizma kullanarak aralarındaki mesafeden bağımsız olarak hangi kelimelerin, tokenlerin veya konumların birbirleri için en önemli olduğunu öğrenir. Bu paralel tasarım, Transformer'ların modern donanımda daha hızlı eğitilmesini ve uzun mesafeli bağıntıları yakalamada çarpıcı biçimde daha başarılı olmasını sağlar; bu nedenle günümüzde neredeyse tüm en gelişmiş büyük dil modellerinin temelinde yer alırlar.

Transformer nasıl çalışır

Transformer'ın kalbinde öz-dikkat işlemi yer alır. Her girdi tokeni üç vektöre — sorgu (query), anahtar (key) ve değer (value) — dönüştürülür. Bir tokeni anlamak için model, o tokenin sorgusunu diğer tüm tokenlerin anahtarlarıyla karşılaştırarak "her birinize ne kadar dikkat etmeliyim?" anlamına gelen bir dizi dikkat skoru üretir. Bu skorlar ağırlıklara normalize edilir ve değer vektörlerinin ağırlıklı toplamı, o tokenin yeni gösterimine dönüşür. Çok kafalı dikkat (multi-head attention) bu tür karşılaştırmaları birden fazla paralel olarak çalıştırarak modelin aynı anda farklı ilişki türlerini — dil bilgisi, eşgönderim, duygu ve daha fazlasını — takip etmesine olanak tanır.

Bu dikkat bloklarının — her birinin ardından küçük bir ileri beslemeli ağ ve artık bağlantılar gelen — üst üste yığılmasıyla tam model oluşur. Dikkat mekanizmasının kendisi sıra-bağımsız (permutation-agnostic) olduğundan, ağın token sırasını bilmesi için girdilere bir konumsal kodlama (positional encoding) eklenir. Eğitim sırasında, yalnızca kodçözücü (decoder-only) yapısındaki bir Transformer bir dizideki sonraki tokeni tahmin eder; yeterli veri ve parametreyle bu basit amaç, GPT gibi sistemlerde görülen akıl yürütme, çeviri ve kod üretme yeteneklerini ortaya çıkarır.

Neden önemlidir

Transformer'lardan önce tekrarlayan sinir ağları (RNN'ler) ve LSTM'ler metni her seferinde tek bir token işleyerek çalışıyordu; bu yavaştı ve uzun bağlamlarda zorlanıyordu. Transformer'ın paralel dikkat mekanizması, araştırmacıların modelleri web ölçeğindeki veri kümeleri üzerinde milyarlarca parametreye ölçeklendirmesine olanak tanıyarak modern LLM'lerin yeteneklerinin kapısını açtı. Aynı mimari o zamandan bu yana görüntülere (vision transformer'lar), sese, proteinlere ve pekiştirmeli öğrenmeye uyarlanarak çağdaş derin öğrenmenin baskın paradigması haline geldi.

Temel türler

Yalnızca kodlayıcı Transformer'lar — BERT gibi, sınıflandırma, arama sıralaması ve gömme (embedding) gibi anlama görevleri için optimize edilmiştir.
Yalnızca kodçözücü Transformer'lar — GPT ve Llama gibi, metni her seferinde tek bir token üreterek oluşturmak için optimize edilmiştir.
Kodlayıcı-kodçözücü Transformer'lar — özgün "Attention Is All You Need" modeli ve T5 gibi, çeviri ve diziden diziye (sequence-to-sequence) görevler için kullanılır.
Görü Transformer'ları (ViT) — öz-dikkati kelimeler yerine görüntü parçalarına (patch) uygular.
Uzman Karışımı (MoE) Transformer'ları — her tokeni "uzman" alt ağlarının bir alt kümesine yönlendirerek orantılı bir işlem maliyeti artışı olmadan kapasiteyi yükseltir.

2017'den bu yana Transformer hem yapay zekâ araştırmasını hem de ürün mühendisliğini yeniden şekillendirdi; HyperStore kataloğundaki çoğu uygulama — sohbet botları, kod asistanları, görsel üreteçler ve akıl yürütme ajanları — bir ölçüde bu mimarinin bir varyantı üzerine kurulu. Temel tasarım için özgün "Attention Is All You Need" makalesini ya da adım adım bir anlatım için Illustrated Transformer rehberini okuyabilirsiniz.

Transformer nedir?

Transformer nasıl çalışır

Neden önemlidir

Temel türler

Frequently Asked Questions