Retrieval-Augmented Generation: Bir Üretim RAG Rehberi

RAG, LLM'lerin yeniden eğitim olmadan kendi verilerinizden soruları yanıtlamasını sağlar. Tüm hattı öğrenin — parçalama, gömme vektörleri, vektör depoları, yeniden sıralama — ve üretim sistemlerini çökerten tuzakları.

HyperStore · Yayınlandı 2026-05-01

#AI development #LLM #production AI #RAG #retrieval-augmented generation #vector databases

Retrieval-Augmented Generation: Bir Üretim RAG Rehberi

Retrieval-augmented generation (erişimle zenginleştirilmiş üretim), özel veya sık güncellenen verilerden soruları yanıtlaması gereken üretim yapay zeka uygulamalarının fiilen kullandığı mimaridir. Bu rehber, RAG'in ne olduğunu, fine-tuning'i ne zaman yendiği (ve ne zaman yenmediği), hattın her aşamasının nasıl çalıştığını ve prototipten üretime geçerken ekipleri raydan çıkaran hataları adım adım anlatır. Sonunda her bir hareketli parçaya dair somut bir zihinsel modele ve belirli bir sistemin nereden kırılabileceğini sezme sezgisine sahip olacaksınız.

Retrieval-Augmented Generation Aslında Nedir

En basit haliyle RAG, bir sorguyu iki aşamaya ayırır: harici bir bilgi depoundan ilgili bağlamı getir, ardından bir LLM kullanarak o bağlamla koşullandırılmış bir yanıt üret. LLM'nin tescilli verilerinizi ezberlemesi gerekmez — bunları çıkarım zamanında okur, tıpkı bir insan analistin rapor yazmadan önce bir belgeye bakması gibi. Lewis ve diğerleri (2020) bu terimi ortaya atmış ve bilgi yoğun görevlerde halüsinasyon oranlarını önemli ölçüde düşürdüğünü göstermiştir.

Bu Neden Özel Veriler İçin Önemlidir

Genel amaçlı bir LLM, iç sözleşmeleriniz, geçen salı gününden kalma ürün kataloğunuz veya şirketinizin destek talepleri hakkında hiçbir şey bilmez. Fine-tuning bu bilginin bir kısmını enjekte edebilir, ancak model yine de eğitim sırasında seyrek gördüğü olgularda halüsinasyon yapar ve veriler her değiştiğinde yeniden eğitim gerekir. RAG, bilgiyi harici ve canlı tutarak her iki sorunu da dolaylar.

Çekirdek Döngü

Kullanıcı bir sorgu gönderir. Sisteminiz bu sorguyu bir gömme vektörüne dönüştürür ve bir vektör deposunda en yakın top-k anlamsal olarak en benzer parçaları arar. Bu parçalar, orijinal sorguyla birlikte bir isteme (prompt) yerleştirilir. LLM, getirilen metne dayandırılmış bir yanıt sentezler. Döngü budur — üretim sistemindeki her karmaşıklık, bu dört adımdan birinin iyileştirilmesidir.

RAG ve Fine-Tuning: Doğru Aracı Seçmek

Bu, ekiplerin en sık boğuştuğu sorudur ve dürüst cevap, ikisinin farklı sorunları çözdüğüdür. Fine-tuning, modelin nasıl akıl yürüttüğünü ve yanıt verdiğini değiştirir — stilini, alan sözcük dağarcığını, çıktı biçimini. RAG ise modelin çıkarım zamanında hangi olgulara eriştiğini değiştirir. Bunlar birbirinin yerine geçmez; olgun birçok sistem ikisini birden kullanır.

RAG'in Kazandığı Durumlar

Bilgi tabanınız sık değişiyorsa (haftalık ürün güncellemeleri, yeni hukuki dosyalalar, evrilen destek belgeleri) RAG kullanın. Alıntılara ihtiyaç duyduğunuzda kullanın — RAG, yanıtla birlikte kaynak parçaları da döndürebilir ve bu da sistemi denetlenebilir kılar. Veri hacmi büyük ve heterojen olduğunda kullanın: bir vektör deposu, tekrarlanan fine-tuning çalıştırmalarından çok daha ucuza milyonlarca belgeye ölçeklenir. IngestAI gibi araçlar tam olarak bu senaryo için tasarlanmıştır ve kurumsal ekiplerin sıfırdan özel altyapı kurmadan RAG hatlarını mevcut belge depolarına bağlamasına olanak tanır.

Fine-Tuning'in Kazandığı Durumlar

Modelin belirli bir çıktı şemasını güvenilir şekilde benimsemesi, teknik bir lehçeyi akıcı konuşması veya alana özgü akıl yürütme kalıplarını izlemesi gerekiyorsa fine-tuning daha iyidir. ICD-10 kodlarını hassas ve yapılandırılmış bir biçimde üretmesi gereken bir tıbbi kodlama asistanı fine-tuning'den fayda görür. Günlük güncellenen 50.000 sayfalık bir bilgi tabanından soruları yanıtlaması gereken bir müşteri destek botu görmez — bu bir RAG işidir.

RAG Hattını Aşama Aşama Kurmak

Üretim RAG'inde başarısızlıkların çoğu model değil hat kaynaklıdır. İyi getirilmiş bağlamla çalışan orta düzey bir LLM, çöp parçalarla beslenen son teknoloji bir LLM'den daha iyi performans gösterir. Mühendislik zamanınızı getirme tarafına harcayın.

Parçalama: Gözden Kaçan Temel

Parçalama, kaynak belgeleri anlamlı biçimde gömülebilecek kadar küçük ama tutarlı bağlam taşıyabilecek kadar büyük parçalara ayırma yöntemidir. Sabit boyutlu parçalama (örn. 512 token, 50 token örtüşme) başlangıç noktasıdır, ancak bölüm sınırlarında kötü kırılır. Anlamsal parçalama — paragraf sonlarında, başlık yapısında veya cümle sınırı tespitinde bölme — anlamı daha iyi korur. PDF ve e-tablo gibi yapılandırılmış belgeler için, çok biçimli belge alımını yerleşik düzen farkındalığıyla yöneten Anara gibi araçları değerlendirin. Başparmak kuralı: parça boyutunuz, derlemizdeki kendi kendine yeten bir olgunun veya argümanın kabaca tanecikliğiyle eşleşmelidir.

Gömme Vektörleri: Metni Aramaya Dönüştürmek

Bir gömme modeli, her parçayı (ve her sorguyu) yoğun bir vektöre dönüştürür. Sorgu ile parça arasındaki anlamsal benzerlik, o vektör uzayında bir mesafe hesaplamasına dönüşür. MTEB sıralaması, gömme modellerini getirme kıyaslamalarında karşılaştırmak için standart referanstır. OpenAI'nin text-embedding-3-large'ı, Cohere'un Embed v3'ü ve bge-large-en-v1.5 gibi açık ağırlıklı modellerin tümü, gecikme ve maliyet kısıtlarınıza bağlı olarak iyi performans gösterir. Kritik olarak, indeksleme ve sorgu zamanında aynı gömme modelini kullanın — bir uyumsuzluk getirmeyi sessizce bozar.

Vektör Depoları: İndeks Nerede Yaşar

Vektör deposu, gömme vektörlerinizi tutar ve yaklaşık en yakın komşu (ANN) sorgularını hızlı sunar. Pinecone, Weaviate, Qdrant, pgvector ve ChromaDB en yaygın seçimlerdir. Birkaç yüz bin parçanın altındaki küçük derlemeler için, mevcut bir Postgres örneği üzerinde pgvector genellikle yeterlidir ve operasyonel yükü önler. Ölçekte, HNSW indeksleri ve filtreleme desteği sunan özel vektör veritabanları karmaşıklıklarını haklı çıkarır. Orijinal parça metnini her zaman gömme vektörünün yanında saklayın — son istemi oluşturmak için ona ihtiyacınız olacak.

Yeniden Sıralama: Getirilen Kümenin Yeniden Puanlanması

ANN araması adayları hızlı ama yaklaşık getirir. Bir yeniden sıralayıcı — tipik olarak Cohere Rerank gibi bir cross-encoder modeli veya ince ayarlı bir BERT varyantı — getirilen her parçayı sorguya karşı daha dikkatli puanlar ve kümeyi yeniden sıralar. Bu iki aşamalı yaklaşım (hızlı ANN getirme, yavaş cross-encoder yeniden sıralama) üretimde tek aşamalı getirmeden sürekli olarak daha iyi performans gösterir. Performans artışı özellikle daha uzun ve nüanslı sorgularda belirgindir. Yeniden sıralama gecikme ekler (genellikle 30-100 ms), ancak kalite iyileşmesi çoğu müşteriye dönük uygulama için bunu haklı çıkarır.

LLM Sentezi: Bağlamı Yanıtlara Dönüştürmek

Son aşama istem oluşturma ve üretimdir. Yeniden sıralanmış top-k parçaları bağlam olarak aktarın, kullanıcının sorgusunu ekleyin ve bağlamın yetersiz olduğu durumların nasıl ele alınacağına dair açık yönergeler ekleyin — "yanıt sağlanan belgelerde yoksa bunu belirtin" isteğe bağlı değildir, yük taşıyıcıdır. İstem uzunluğu önemlidir: 128k bağlam penceresine 20 parça tıkıştırırsanız, LLM Liu ve diğerleri (2023) tarafından belgelenen lost-in-the-middle (ortada kaybolma) fenomeni nedeniyle ortaya gömülmüş olguları yine kaçırabilir. Üç ila beş yüksek derecede ilgili parça, genellikle yirmi gevşek ilgili parçadan daha iyi performans gösterir.

Üretim RAG'ini Çökerten Yaygın Tuzaklar

Prototip RAG kurmak kolaydır. Üretim RAG'i varsayımların çöktüğü yerdir. Tekrar tekrar ortaya çıkan başarısızlık modları şunlardır.

Sorgu-Belge Uyuşmazlığı

Gömmeler bir metin dağılımı üzerinde eğitilir. Belgeleriniz yüksek düzeyde teknikse ve kullanıcılarınız gündelik sorular soruyorsa (ya da tam tersi), gömme uzayı bu boşluğu iyi kapatamayabilir. HyDE (Hypothetical Document Embeddings — Varsayımsal Belge Gömmeleri) — önce varsayımsal bir yanıt üretip ardından onu gömme — bir azaltma yöntemidir. LLM kullanarak soruyu birden çok varyanta yeniden formüle eden sorgu genişletme de bir diğer yöntemdir. İkisi de gecikme ve karmaşıklık ekler; bu yüzden herhangi birini eklemeden önce getirmenin gerçekten darboğazınız olduğunu doğrulamak için profilleme yapın.

Eski İndeksler

Belgeler güncellenir. İndeksleme hattınız belge sürümlerini takip etmiyor ve değişen parçaları yeniden gömüyorsa, vektör deposu gerçeklik kaynağından sapar. Belge düzeyinde değişiklik tespitini (hash karşılaştırması, webhook tetikleyicileri veya zamanlanmış farklar) hattınıza birinci günden dahil edin. Lansmandan sonra bunu geriye dönük eklemek acı vericidir. Ayrıca bu, en iyi belge yönetimi yapay zeka araçları özetimizde ele alınanlar gibi yapay zeka destekli belge yönetimi araçlarının, özel bir geliştirme yerine hizmet olarak alım ve sürümlemeyi üstlenebildiği yerdir.

Getirme Değerlendirmesini Göz Ardı Etmek

Ekipler RAG sistemlerini uçtan uca değerlendirir (son yanıt doğru görünüyor mu?) ama getirme kalitesini bağımsız olarak hiç ölçmez. Bu, hata ayıklamayı imkansız hale getirir. Bilinen ilgili parçaları olan sorulardan oluşan bir getirme değerlendirme seti oluşturun. Yayınlamadan önce recall@k ve ortalama ters sırayı ölçün. Getirme kalitesi düşükse, sentez aşamasındaki hiçbir istem mühendisliği bunu düzeltemez.

Aşırı ve Yetersiz Parçalama

Çok küçük parçalar, bir olguyu anlamlı kılan çevresel bağlamı soyup atar. Çok büyük parçalar gömme sinyalini seyreltir ve istemi şişirir. Evrensel doğru bir parça boyutu yoktur — bu, belge yapınıza bağlıdır. Farklı bir veri kümesi için yazılmış bir öğreticinin varsayılanlarını kopyalamak yerine, gerçek derlemenizle çevrimdışı deneyler yürütün.

Güvenlik ve Veri Sızıntısı

Çok kiracılı sistemlerde, kullanıcının sorgusu yalnızca erişim yetkisi olan belgeleri getirmelidir. Vektör deposu meta veri filtreleri standart mekanizmadır — her parça bir kiracı veya izin etiketi taşımalı ve her sorgu bir filtre yan tümcesi içermelidir. Bunu getirme katmanında uygulamamak, bir prompt injection saldırısının veya kötü niyetli bir sorgunun başka bir kullanıcının özel verilerini ortaya çıkarabileceği anlamına gelir. Bu varsayımsal bir uç durum değildir; belgelenmiş bir saldırı sınıfıdır. Gömülü yapay zeka ile üretim uygulamaları geliştiriyorsanız ve sağlam erişim kontrol kalıplarına ihtiyacınız varsa, Retool AI incelememiz kurumsal düzeyde uygulama platformlarının yapay zeka bileşenleri etrafında izinleri nasıl ele aldığını ele alır.

Bir RAG Sistemini Uçtan Uca Değerlendirmek

Değerlendirme, çoğu ekibin yatırımı eksik bıraktığı yerdir. Yararlı bir çerçeve kaliteyi üç bileşene ayırır: getirme sadakati (doğru parçaları yüzeye çıkardık mı?), yanıt sadakati (üretilen yanıt getirilen bağlama dayanıyor mu, halüsinasyon mu?) ve yanıt ilgililiği (kullanıcının sorduğu şeyi gerçekten ele alıyor mu?). RAGAS gibi çerçeveler üçü için de otomatik metrikler sağlar. Otomatik metriklerin kaçırdığı başarısızlık modlarını — özellikle tonu, tamlığı ve teknik alanlardaki uç durumları — yakalamak için insan değerlendirmesi vazgeçilmez olmaya devam eder.

Bir Referans Doğruluk Test Seti Oluşturmak

Temel kullanım senaryolarınızı kapsayan 50 ila 100 soru-yanıt çiftiyle başlayın. Karşıt örnekler ekleyin: yanıtları derlemede olmayan sorular (sistem çekimser kalmalı), birden çok belgeyi kapsayan sorular (sistem sentez yapmalı) ve belirsiz sorgular. Bu büyüklükte bir test seti, büyük bir etiketleme bütçesi gerektirmeden çoğu regresyonu yakalar. İnceleme için işaretlenen gerçek kullanıcı sorgularını kullanarak zamanla genişletin. Not alma ve bilgi yönetimi araçları — en iyi not alma ve bilgi yapay zeka araçları hakkındaki kapsamımıza bakın — ekiplerin özel bir dahili araç olmadan değerlendirme veri kümelerini düzenlemesine ve etiketlemesine yardımcı olabilir.

Bilmeğe Değer Mimari Kalıplar

Temel hattın ötesinde, ciddi üretim sistemlerinde birkaç kalıp standart hale gelmiştir.

Hibrit Arama

Saf vektör araması, BM25'in (seyrek getirme) iyi işlediği tam anahtar kelime eşleşmelerini kaçırır. Hibrit arama her ikisini paralel çalıştırır ve reciprocal rank fusion kullanarak sonuçları birleştirir. Bu kombinasyon, özellikle ürün adları, kodlar veya özel isimler içeren alana özgü sorgularda, tek başına her iki yaklaşımdan da sürekli olarak daha iyi performans gösterir.

Agentic (Ajan Tabanlı) RAG

Ajan tabanlı kurulumlarda LLM, getirip getirmeyeceğine, hangi sorguları çalıştıracağına ve getirilen bağlamın yeterli olup olmadığına veya bir takip getirme adımı gerektirip gerektirmediğine karar verir. Bu, tek seferlik getirmenin temizce yanıtlayamayacağı çok adımlı soruları — "sözleşmemiz cezai şartlar hakkında ne diyordu ve bu sektör standardıyla nasıl karşılaştırılır?" — ele alır. Karşılığında gelen bedel gecikme ve karmaşıklıktır. Agentic RAG, akıl yürütme yoğun kullanım senaryoları için yatırıma değer; basit soru-cevap için abartıdır.

Önbellekleme

Anlamsal önbellekleme, son sorgu-yanıt çiftlerini saklar ve anlamsal olarak benzer gelen sorgular için önbelleğe alınmış sonuçları döndürür. Bu, birçok kullanıcının eşdeğer sorular sorduğu yüksek hacimli sistemlerde gecikme ve maliyeti çarpıcı biçimde düşürür. Bunu getirme hattının önünde bir katman olarak uygulayın, sonrasında değil — önbellek isabetinde tüm hattı atlamak istersiniz.

Retrieval-augmented generation, araştırma merakından, özel veya dinamik veriler üzerinde güvenilir biçimde çalışması gereken herhangi bir yapay zeka uygulaması için masa standardına dönüşmüştür. Hat öğrenilebilir, araçlar olgundur ve başarısızlık modları iyi belgelenmiştir — bu da artık zor işin büyük kısmının araştırma yeniliği değil mühendislik disiplini olduğu anlamına gelir. Parçalamayı doğru yapın, getirmeyi bağımsız olarak değerlendirin, vektör katmanında erişim kontrolünü uygulayın; çoğu ekibi lansmandan sonra tekrar sıfıra döndüren hatalardan kaçınırsınız.