AI Ajan Altyapı Yığını: Eksiksiz Bir Rehber

LLM'lerden vektör veritabanlarına, orkestrasyon katmanlarından çalıştırma ortamlarına — üretime hazır bir AI ajan altyapı yığınının nasıl bir araya geldiğini burada bulabilirsiniz.

AI Ajan Altyapı Yığını: Eksiksiz Bir Rehber

AI Ajan Altyapı Yığını, ham bir dil modelini güvenilir biçimde ve ölçeklenebilir şekilde planlama yapabilen, hatırlayabilen, hareket edebilen ve hatalardan kurtulabilen bir sisteme dönüştüren birbirine bağlı teknolojiler bütünüdür. Bu rehber, temel LLM katmanından bellek ve erişim sistemlerine, orkestrasyon çerçevelerinden araç API'lerine ve çalıştırma ortamlarına kadar her önemli katmanı ele alıyor. Bu bileşenlerin gerçek bir üretim sisteminde nasıl etkileştiğini, modern ekiplerin gerçekte ne dağıttığını ve nerelerde sivri uçlar olduğunu göreceksiniz. Rehberin sonunda, kendi geliştirmenize uygulayabileceğiniz somut bir zihinsel modele sahip olacaksınız.

LLM Katmanı: Ajanın Beyni

Her ajan bir temel modelle başlar. LLM; akıl yürütme, planlama ve aşağı akış eylemlerini yönlendiren yapılandırılmış çıktıların üretilmesinden sorumludur. Doğru modeli seçmek yalnızca bir yetenek kararı değildir — aynı zamanda bir altyapı kararıdır. Gecikme, bağlam penceresi boyutu, token başına maliyet ve ince ayar (fine-tuning) imkânlarının tümü, modelin etrafında neleri inşa edebileceğinizi kısıtlar.

Barındırılan API'ler ve Kendi Altyapısında Çalıştırılan Modeller

OpenAI GPT-4o, Anthropic Claude 3.5 veya Google Gemini 1.5 Pro üzerine geliştirme yapan ekipler, veri çıkışı ve satıcıya bağımlılık karşılığında hızlı iterasyon hızı elde eder. Meta'nın Llama 3 veya Mistral gibi açık ağırlıklı modellerini vLLM veya TGI aracılığıyla özel GPU altyapısında kendi bünyesinde barındırmak, kontrol uğruna operasyonel karmaşıklığı göze almak demektir. Hassas verilerle çalışan düzenlemeye tabi sektörler için kendi bünyesinde barındırma çoğu zaman vazgeçilmezdir. IngestAI gibi platformlar, kurumsal üretken AI entegrasyonu için güvenli bir ara katman sunarak bu karmaşıklığın bir kısmını soyutlar; böylece ekipler her bağlantıyı kendileri kurmak zorunda kalmaz.

Bağlam Penceresi Yönetimi

128K tokenlik bir bağlam penceresi, araç çağrısı geçmişleri, getirilen belgeler ve sistem istemleri bir arada istiflendiğinde çok daha dar hissediyor. Üretim sistemleri nadiren tüm bağlamı doldurur — onu bilinçli şekilde bütçeler. Önceki turların özetlenmesi, seçici erişim ve kayan pencere kırpılması standart kalıplardandır. Stanford ve UC Berkeley'den "Lost in the Middle" makalesi, LLM'lerin uzun bağlamlarda ortaya gömülen bilgiler konusunda daha düşük performans gösterdiğini ortaya koymuştur; yani istem içindeki yerleşim stratejisi, neyi dahil ettiğiniz kadar önemlidir.

Bellek Mimarisi: Kısa Süreli, Uzun Süreli ve Anısal

Bellek, durumsuz bir sohbet botunu gerçek bir ajandan ayıran şeydir. Ajanların, görevin kapsamına bağlı olarak farklı bellek türlerine erişmesi gerekir — ve bunları doğru biçimde birbirine bağlamak, yığındaki en zor mühendislik problemlerinden biridir.

Bağlam İçi Bellek (Çalışma Belleği)

Etkin istem penceresi içindeki her şey çalışma belleğidir. Hızlıdır ve sıfır gecikme sunar, ancak oturumlar arasında kaybolur ve token maliyeti yaratır. Üretim ajanları, bağlam içi belleği mevcut görev yörüngesi, son araç çıktıları ve etkin plan için kullanır. Birkaç turdan eski her şey dışsallaştırılmalıdır.

Dışsallaştırılmış, uzun süreli bilgi için ajanlar bir vektör veritabanını sorgular. İşlem hattı oldukça basittir: kaynak belgeleri parçalara ayırın, OpenAI'ın text-embedding-3-large veya Cohere'ın Embed v3 gibi bir modelle gömün (embed) oluşturun, vektörleri saklayın ve ardından sorgu anında yaklaşık en yakın komşu aramasıyla en yakın k parçayı getirin. Pinecone, Weaviate, Qdrant ve pgvector (Postgres üzerinde) 2026'da baskın seçeneklerdir. Her birinin sorgu gecikmesi, filtreleme yeteneği ve yönetilen-kendi barındırma maliyeti açısından farklı ödünleşimleri vardır. En iyi AI not alma ve bilgi yönetimi araçları gibi araçlar giderek daha çok tam olarak bu erişim mimarisi üzerine inşa ediliyor — kullanıcı notlarını gömüyor ve anahtar kelime aramasına güvenmek yerine bunları bağlamsal olarak yüzeye çıkarıyor.

\n\n

Anısal ve Prosedürel Bellek

\n

Anısal bellek, geçmiş ajan çalıştırmalarına ait kayıtları depolar — hangi eylemlerin yapıldığını, hangilerinin başarılı olduğunu, hangilerinin başarısız olduğunu. Bu genellikle bir vektör deposu yerine yapılandırılmış bir veritabanıdır (Postgres, DynamoDB); çünkü sorgulamayı semantik benzerliğe göre değil oturum kimliği ve zaman damgasına göre yaparsınız. Yeniden kullanılabilir beceri tanımları ve araç şemaları olan prosedürel bellek ise yapılandırma dosyalarında veya orkestratörün çalışma zamanında başvurduğu özel bir kayıt defterinde yaşar.

\n\n

Orkestrasyon: Kontrol Düzlemi

\n

Orkestrasyon katmanı, mimarinin ilginçleştiği yerdir. LLM'nin ne zaman çağrılacağına, hangi aracın çalıştırılacağına, hataların nasıl yönetileceğine ve bir görevin gerçekten ne zaman tamamlandığına bu katmandaki kod karar verir. Bu, LLM'nin kendisi değildir — LLM'nin etrafındaki iskeledir.

\n\n

Çerçeveler: LangChain, LlamaIndex ve AutoGen

\n

LangChain, büyük ölçüde geniş entegrasyon ekosistemi sayesinde en yaygın dağıtılan orkestrasyon çerçevesi olmaya devam ediyor. LlamaIndex, erişim ağırlıklı ve belge tabanlı ajanlar için daha güçlü. Microsoft'un AutoGen'i, uzmanlaşmış ajanların birbirine devrettiği çoklu ajan konuşmalarını mümkün kılar — karmaşık iş akışları için iyi ölçeklenen bir kalıptır. Ham çerçeve seçimi, araç arayüzlerinizi ve durum yönetiminizi ne kadar temiz tanımladığınızdan daha az önemlidir. Özensiz durum yönetimi, herhangi bir model seçiminden daha fazla üretim olayına yol açar.

\n\n

Çoklu Ajan Kalıpları

\n

Tek ajanlı döngüler basit görevler için işe yarar. Araştırma sentezi, otomatik yazılım geliştirme, çok adımlı veri işlem hatları gibi karmaşık görevler, bir planlama ajanının hedefi alt görevlere ayırdığı ve uygulayıcı ajanların alt görevleri paralel olarak ele aldığı çoklu ajan mimarilerinden fayda görür. Planlama ajanı, LLM'nin akıl yürütme yeteneğinden yararlanır; uygulayıcılar ise genellikle daha hafif, daha hızlı ve daha ucuz modellerdir. Anthropic'in etkili ajanlar geliştirmeye yönelik araştırması, orkestrasyon katmanınızı tasarlamadan önce okumaya değer, istem zincirleme, yönlendirme ve paralelleştirme dahil birkaç güvenilir kalıp sunuyor.

\n\n

Durum Makineleri ve Yapılandırılmış Çıktılar

\n

Yapılandırılmamış LLM çıktıları, ajan işlem hatlarında sessizce başarısız olur. Çözüm, yapılandırılmış çıktıları zorlamaktır — bir Pydantic modeline karşı doğrulanan JSON şemaları veya orkestratörün belirleyici şekilde ayrıştırdığı araç çağrısı formatları. Bir durum makinesi kullanmak (LangGraph tam da bunun için tasarlanmıştır), ajanın yürütme yolunu ortaya çıkan ve opak olmak yerine açık ve hata ayıklanabilir kılar. Üretimde bir şey bozulduğunda gizem değil iz istersiniz.

\n\n

Araç API'leri ve Dış Entegrasyonlar

\n

Araçları olmayan bir ajan sadece bir sohbet botudur. Araçlar, ajanların kod yazmasını, veritabanlarını sorgulamasını, REST API'lerini çağırmasını, web'de gezinmesini, e-posta göndermesini ve iş akışlarını tetiklemesini sağlayan şeydir. Araç katmanı genellikle her biri bir ad, şema ve işleyiciyle tanımlanan çağrılabilir işlevler kayıt defteri olarak tanımlanır.

\n\n

Araç Şemalarını Tanımlama ve Sürümleme

\n

Araç şemaları, LLM ile çalıştırma ortamınız arasındaki sözleşmedir. Kesin olmalıdırlar — belirsiz parametre açıklamaları modelin argüman uydurmasına neden olur. Şemaları minimal tutun: bir aracın açığa çıkardığı parametre sayısı azaldıkça modelin yanlış yapabileceği şey de azalır. Şemalarınızı açıkça sürümleyin; bir şema değişikliği, eski arayüzü kullanmayı öğrenmiş herhangi bir ajan için kırıcı bir değişikliktir. Dahili araçları hızla geliştiren ekipler için Retool'ın AI destekli uygulama oluşturucusu, hazır entegrasyon bloklarının kurumsal düzeyde güvenilirlikten ödün vermeden bu kablolamayı nasıl hızlandırabileceğini gösteriyor.

\n\n

Kimlik Doğrulama, Hız Sınırları ve Hata Toleransı

\n

Her dış API çağrısı bir arıza yüzeyidir. Token süresinin dolması, hız sınırları, ağ zaman aşımları ve hatalı biçimlendirilmiş yanıtların tümü üretimde yaşanır. Sağlam bir araç katmanı, her çağrıyı yeniden deneme mantığıyla (üstel geri çekilme ve rastgele dağılımla), zaman aşımı uygulamasıyla ve LLM'nin üzerinde akıl yürütebileceği yapılandırılmış hata mesajlarıyla sarar. API kimlik bilgilerini bir sır yöneticisinde — AWS Secrets Manager, HashiCorp Vault — saklayın; asla günlüğe kaydedilen ortam değişkenlerinde değil.

\n\n


\n\n

Çalıştırma Ortamları ve Dağıtım

\n

Ajanın fiilen nerede çalıştığı, ne çalıştırdığı kadar önemlidir. Çalıştırma ortamları, güvenlik sınırlarını, ölçeklenebilirlik limitlerini ve operasyonel yükü belirler. Doğru seçim, görev süresine, yalıtım gereksinimlerine ve iş yükünün ne kadar durum bilgisi taşıdığına bağlıdır.

\n\n

Sunucusuz ve Konteynerleştirilmiş Çalışma Zamanları

\n

Kısa ve durumsuz ajan görevleri, sunucusuz işlevlere (AWS Lambda, Google Cloud Run) iyi eşlenir. Ana ceza, soğuk başlatma gecikmesidir. Dakikalarca süren uzun soluklu ajan döngüleri — birkaç dakika çalışan bir araştırma ajanını düşünün — yaşam döngüsünü sizin kontrol ettiğiniz Kubernetes veya ECS üzerinde konteynerleştirilmiş çalışma zamanlarına ihtiyaç duyar. Birçok ekip hibrit çalıştırır: orkestratör uzun ömürlü bir hizmettir; bireysel araç çalıştırmaları sunucusuz çağrılardır. Bu, kontrol düzleminin erişilebilirliğini korurken maliyetleri düşük tutar.

\n\n

Kod Çalıştırmayı Sandbox İçine Alma

\n

Kod yazan ve çalıştıran ajanların uygun şekilde sandbox içine alınması gerekir. Bir LLM'ye doğrudan üretim kabuğunuza erişim vermek bariz şekilde felakettir. Standart kalıp, her çalıştırma için geçici bir konteyner (Docker, Firecracker mikroVM'leri veya E2B'nin kod yorumlayıcı sandbox'ı) başlatmaktır; ağ çıkışı yalnızca onaylı uç noktalarla sınırlandırılır ve dosya sistemi erişimi geçici bir birime kapsamlanır. Görev tamamlandıktan sonra sandbox imha edilir. Kalıcı durum yok, yanal hareket yok.

\n\n

Gözlemlenebilirlik ve Değerlendirme

\n

Göremediklerinizi iyileştiremezsiniz. Üretim ajan yığınlarının, yalnızca uygulama günlüklerini değil, her LLM çağrısı, araç çağrısı ve bellek erişimi genelinde dağıtılmış izlemeye ihtiyacı vardır. LangSmith, Arize AI ve Helicone'un tümü ajana özgü gözlemlenebilirlik sağlar. İzlemenin ötesinde, bir değerlendirme koşumuna da ihtiyacınız vardır: her dağıtıma karşı çalıştırdığınız, beklenen davranışlara sahip bir dizi test senaryosu. Ajanlar deterministik değildir; regresyon testi, tam dize eşleşmelerini değil olasılıksal iddiaları gerektirir.

\n\n

Modern Bir Üretim Yığını: Ekiplerin Gerçekte Dağıttıkları

\n

Tüm bunları tutarlı bir resim halinde bir araya getirelim: 2026'da bir üretim ajan sistemi genellikle muhakeme çekirdeği olarak barındırılan bir sınır modelini (veya vLLM arkasında kendi bünyesinde barındırılan açık ağırlıklı bir modeli) çalıştırır. LangGraph veya özel bir durum makinesi orkestrasyonu yönetir. Erişim, OpenAI gömüleriyle Qdrant veya Pinecone kullanır. Dış araçlar, tipli Python işlevleri olarak tanımlanır, bir araç kayıt defterinde sarılır ve yapılandırılmış JSON çıktıları aracılığıyla çağrılır. Tüm sistem Kubernetes üzerinde çalışır; kısa araç çağrıları için sunucusuz çağrılar ve orkestratör için uzun ömürlü pod'lar kullanılır. LangSmith veya benzer bir platform her izi yakalar. Veri katmanı — kullanıcı belgeleri, bilgi tabanları, yapılandırılmış kayıtlar — hem vektör deposunu hem de anısal bellek veritabanını besler. IngestAI gibi platformlar üzerine inşa edilen ajanlar genellikle kaputun altında aynı katmanlı mimariyi benimser ve bunu yönetilen bir API yüzeyi aracılığıyla sunar; böylece kurumsal ekipler altyapı tesisatı yerine uygulama mantığına odaklanabilir.

\n\n

Belge Tabanlı Ajanlar

\n\n

Yaygın bir üretim kalıbı, belge tabanlı ajandır: bir PDF, sözleşme, rapor veya bilgi makaleleri koleksiyonu üzerinde akıl yürütebilen bir ajan. Pazardaki en iyi AI belge yönetimi araçları esasen bu kalıbın özelleşmiş uygulamalarıdır — belgeleri bir erişim deposuna gömer, konuşma tabanlı bir arayüz sunar ve belirli alanları yüzeye çıkarmak için yapılandırılmış çıkarım kullanır. Sıfırdan inşa etmek size daha fazla kontrol verir; amaca yönelik bir araç satın almak hız kazandırır. Mimari her iki durumda da aynıdır.

\n\n

Ölçeklendirme Dikkatleri ve Yaygın Arıza Modları

\n

Bir ajan sistemini ölçeklendirmek, geleneksel bir web API'sini ölçeklendirmekle aynı şey değildir. Arıza modları farklıdır ve genellikle teşhis edilmesi daha zordur.

\n\n

Token Bütçesi ve Maliyet Kontrolü

\n

Kontrol dışı ajan döngüleri gerçek bir maliyet riskidir. Bir görevin tamamlanıp tamamlanmadığını yanlış hesaplayan bir ajan, bir zaman aşımı sizi kurtarmadan önce yüzlerce LLM çağrısıyla döngüye girebilir. Görev başına, oturum başına ve gün başına sert token bütçeleri uygulayın. Maliyet anomalilerini gerçek zamanlı olarak uyarın — aylık fatura geldikten sonra değil. Aynı istemleri anlamsal bir önbellekle (GPTCache, gömü aramalı Redis) önbelleğe almak, tekrarlayan sorgulara sahip iş yüklerinde LLM harcamalarını %30-40 oranında azaltabilir.

\n\n

İstem Enjeksiyonu ve Güvenlik

\n

Kullanıcı tarafından sağlanan verileri işleyen ajanlar, istem enjeksiyonuna — ajanın talimatlarını ele geçiren adversarial girdilere — karşı savunmasızdır. Bu kuramsal bir risk değildir; dağıtılan sistemlerde tekrar tekrar gösterilmiştir. Hafifletmeler arasında girdi temizleme, sistem istemi ile kullanıcı içeriği arasında ayrıcalık ayrımı ve herhangi bir eylem yürütülmeden önce çıktı doğrulaması yer alır. Bir web uygulamasındaki kullanıcı girdisini ele aldığınız gibi her dış girdiyi güvenilmez olarak değerlendirin.

\n\n

Düzgün Bozulma

\n

Kısmi arıza için plan yapın. Bir araç API'sinin çökmesi tüm ajanı çökertmemelidir — orkestratörün etrafından dolaşabileceği yapılandırılmış bir hata döndürmelidir. Araç sarmalayıcılarınızı anlamlı arıza sinyalleri döndürecek şekilde ve orkestrasyon mantığınızı bunları ele alacak şekilde tasarlayın. Düzgün biçimde başarısız olan ve net biçimde raporlayan bir ajan, mutlu yolu kusursuz işleyip ilk beklenmedik yanıtta patlayan bir ajandan üretimde çok daha kullanışlıdır.

\n\n

AI Ajan Altyapı Yığını gençtir, ancak temel kalıplar istikrara kavuşuyor. LLM, bellek katmanı, orkestratör ve çalıştırma ortamı arasında temiz soyutlama sınırlarına yatırım yapan ekipler, ekosistem geliştikçe bileşenleri değiştirmeyi çok daha kolay buluyor. Bugün kullandığınız model, on sekiz ay sonra kullanacağınız model olmayacak. Yığını, bunu umursamayacak şekilde inşa edin.

You might also like

İlgili yazılar