Üretime hazır bir AI agent kurmak yalnızca bir LLM API'sini çağırıp işi bitirmek değildir. Tam bir AI agent altyapı yığını en az altı farklı katmanı kapsar — dil modelleri, bellek sistemleri, vektör veritabanları, orkestrasyon çerçeveleri, harici API'ler ve çalıştırma ortamları — her birinin kendi hata modları ve ölçeklendirme kaygıları vardır. Bu rehber her katmanı adım adım açıklar, gerçek yük altında nasıl etkileştiklerini anlatır ve ekipler binlerce isteği karşılayan agent'ları dağıttığında modern yığınların gerçekte nasıl göründüğünü gösterir. Sıfırdan tasarım yapıyor ya da mevcut bir sistemi denetliyor olun, üretime hazır herhangi bir şeyi teslim etmenin ön koşulu bu yapı taşlarını anlamaktır.
AI Agent Altyapı Yığınının Temel Katmanları
Hangi alanda olursa olsun, her AI agent aynı temel mimarinin üzerine kuruludur. Katmanlar uygulama ayrıntılarında farklılık gösterir — hangi model, hangi veritabanı, hangi çalışma zamanı — ancak mantıksal yapı tutarlıdır. Herhangi bir katmanı atlamak veya yeterince yatırım yapmamak, üretimde hata ayıklaması gerçekten zor olan güvenilirlik sorunları olarak ortaya çıkar.
Dil Modeli Katmanı
LLM, akıl yürütme çekirdeğidir. Sistem talimatları, konuşma geçmişi, getirilen bilgiler ve araç şemalarından oluşan bir bağlam penceresi alır ve doğal dilde bir yanıt ya da yapılandırılmış bir eylem çağrısı üretir. Model seçimi burada son derece önemlidir. GPT-4o, Claude 3.5 Sonnet ve Gemini 1.5 Pro'nun her birinin farklı bağlam sınırları, fonksiyon çağırma güvenilirliği ve gecikme profilleri vardır. Araçları güvenilir şekilde çağırması gereken agent'lar için yapılandırılmış çıktı modları (JSON modu, tool-use API'leri) vazgeçilmezdir; serbest biçimli üretim, ölçekte ayrıştırma hatalarına yol açar.
Bellek Katmanı
Bellek, durumsuz bir sohbet botunu gerçek bir agent'tan ayıran şeydir. Çoğu üretim sisteminin uyguladığı üç ayrı bellek türü vardır. Bağlam-içi bellek, mevcut istem penceresine sığan her şeydir — erişimi ucuz, token açısından pahalıdır. Harici epizodik bellek, geçmiş etkileşimleri bir veritabanında saklar ve talep üzerine getirilir. Prosedürel bellek, öğrenilmiş davranışları genellikle ince ayarlı ağırlıklar veya sistem istemi kalıpları olarak kodlar. Çoğu ekip, bağlam sınırlarına ne kadar erken ulaşacaklarını hafife alır ve hiçbir getirme yedeği oluşturmaz; bu yüzden bellek mimarisi, tek bir orkestrasyon kuralı yazmadan önce tasarlanmalıdır.
Vektör Veritabanları ve Getirme
Retrieval-Augmented Generation (RAG), artık tescilli veya sık güncellenen bilgilere erişmesi gereken her agent için fiilen standarttır. Bir vektör veritabanı — Pinecone, Weaviate, Qdrant veya Postgres üzerinde pgvector — belgelerinizin gömme vektörlerini saklar. Sorgu zamanında agent, kullanıcının niyetini gömer ve en ilgili parçaları bağlam penceresine çekmek için yaklaşık en yakın komşu araması çalıştırır. Parçalama stratejinizin, gömme modelinizin ve yeniden sıralama adımınızın kalitesi, genellikle hangi vektör veritabanını seçtiğinizden daha önemlidir. Hibrit arama — yoğun vektör getirmeyi BM25 anahtar kelime eşleştirmesiyle birleştirmek — heterojen derlemler üzerinde saf vektör aramasından tutarlı şekilde daha iyi performans gösterir; bu, araştırma topluluğunun son getirme kıyaslamalarında belgelenmiştir.
IngestAI gibi platformlar, kurumsal ekipler için bu RAG hattının büyük kısmını soyutlayarak özel altyapı gerektirmeden belge alımını, parçalamayı ve gömme üretimini yönetir. Formatlar arası belge anlayışına ihtiyaç duyan ekipler için Anara, çok formatlı belgeleri downstream agent tüketimi için düzenleyen benzer bir katman sunar.
Orkestrasyon: Sistemin Beyni
LLM akıl yürütme çekirdeğiyse, orkestrasyon katmanı sinir sistemidir. Bir aracı ne zaman çağıracağına, sonucu nasıl işleyeceğine, ne zaman bir alt agent'a yönlendireceğine ve ne zaman nihai bir yanıt döndüreceğine karar verir. Burada LangChain, LlamaIndex, AutoGen ve CrewAI gibi çerçeveler devreye girer. Her biri farklı bir felsefeyi benimser: LangChain, açık kontrol akışıyla birleştirilebilir zincirleri tercih eder; AutoGen, çoklu agent konuşma döngülerini etkinleştirir; CrewAI, agent'ları tanımlanmış devir teslimleriyle bir ekipteki roller olarak modeller.
Tek-Agent ve Çoklu-Agent Orkestrasyonu
Tek-agent döngüsü — planla, hareket et, gözlemle, tekrarla — sınırlı bir araç setiyle odaklanmış görevler için iyi çalışır. Görevler paralel iş akışları veya alana özgü uzmanlık (eşzamanlı yasal inceleme, kod üretimi, veri analizi) gerektirdiğinde, çoklu agent mimarileri işi dağıtır. Orkestratör, görevleri uzmanlaşmış alt agent'lara atar ve sonuçları toplar. Takas karmaşıklıktır: Agent B'nin halüsinasyonunun Agent C'nin bağlamını zehirlediği çoklu agent bir sisteminde hata ayıklamak, çoğu ekibin çok geç eklediği sağlam günlüklemeyi gerektirir.
Araç ve Fonksiyon Çağırma
Modern LLM'ler, araçları tipli şemalar olarak tanımlamanıza olanak tanıyan bir fonksiyon çağırma arayüzü sunar. Model bir aracı ne zaman çağıracağına karar verir, yapılandırılmış bağımsız değişkenler iletir ve akıl yürütmesine devam etmeden önce sonucu alır. Üretimdeki bir agent'ta araç envanteri genellikle web araması, kod çalıştırma, veritabanı sorguları, takvim API'leri ve dahili mikro hizmetleri içerir. Araç setini küçük ve sistem isteminde iyi belgelenmiş tutmak, halüsinasyonlu araç çağrılarını önemli ölçüde azaltır. OpenAI'nin resmi fonksiyon çağırma belgeleri, araç şemalarını doğru yapılandırma konusunda referans kaynak olmaya devam etmektedir.
API'ler ve Harici Entegrasyonlar
Çoğu agent tek başına kullanışlı değildir — değerlerini harici sistemlerle etkileşimden alırlar. Bu, REST ve GraphQL API'lerinin, webhook'ların, OAuth akışlarının ve hız sınırı yönetiminin altyapı kaygıları haline gelmesi demektir. İyi tasarlanmış bir agent yığını, her harici entegrasyonu birinci sınıf bir bağımlılık olarak ele alır: sürümlenmiş, izlenmiş ve üstel geri çekilme ile yeniden deneme mantığına sarılmış. JSON gövdesinin içinde hata yükü ile 200 döndüren sessiz API hataları, ince agent hatalarının yaygın bir kaynağıdır.
Kimlik Doğrulama ve Gizli Anahtar Yönetimi
Üçüncü taraf API'leri çağıran agent'ların kimlik bilgilerine ihtiyacı vardır. Gizli anahtarları döndürme politikaları olmadan istemlere veya ortam değişkenlerine sabit kodlamak her ölçekte güvenlik açığıdır. Standart model, çalışma zamanında kısa ömürlü kimlik bilgilerinin alındığı bir gizli anahtar yöneticisidir — AWS Secrets Manager, HashiCorp Vault veya GCP Secret Manager. Kurumsal SaaS araçlarıyla entegre olan agentik uygulamalar kuran ekipler için bu, genellikle dağıtımı yavaşlatan ilk güvenlik inceleme noktasıdır.
Akış ve Asenkron Yanıtlar
Gecikme algısı, agent kullanıcı deneyiminde önemlidir. Orkestratör arka plan araç çağrılarına devam ederken LLM'den istemciye token çıktısının aktarılması asenkron bir mimari gerektirir — genellikle API ağ geçidi katmanında WebSockets veya Server-Sent Events. Herhangi bir şeyi oluşturmadan önce tam yanıtları bekleyen sistemler, toplam gecikme karşılaştırılabilir olsa bile yavaş hissedilir. Baştan itibaren akış için tasarım yapmak, sonradan uyarlamaktan çok daha ucuzdur.
Çalıştırma Ortamları ve Çalışma Zamanı Altyapısı
Kod yazan ve çalıştıran agent'lar — veri analizi ve otomasyon agent'larında yaygın bir model — korumalı çalıştırma ortamlarına ihtiyaç duyar. LLM tarafından üretilen güvenilmeyen kodu doğrudan bir ana makinede çalıştırmak apaçık bir güvenlik felaketidir. Standart çözümler, konteynerize korumalı alanlar (sıkı ağ ve dosya sistemi kısıtlamalarıyla Docker), daha hafif yalıtım için WebAssembly çalışma zamanları veya saniye altı soğuk başlangıçlarla kısa ömürlü işlem sağlayan E2B veya Modal gibi yönetilen hizmetlerdir.
Ölçeklendirme ve Gözlemlenebilirlik
Düşük istek hacmiyle çalışan tek bir agent basit bir sunucusuz fonksiyon olarak çalışabilir. Ölçekte, oturum yakınlığı ile yatay ölçeklendirmeye (böylece durumsal agent konuşmaları aynı örneğe düşer veya bir oturum deposunu paylaşır), uzun süren görevler için kuyruk tabanlı iş yükü dağıtımına ve kapsamlı gözlemlenebilirliğe ihtiyacınız vardır. Her LLM çağrısını, araç çağrısını ve getirme adımını LangSmith, Weights & Biases veya OpenTelemetry uyumlu araçlarla izlemek, üretimde gecikme artışlarını ve beklenmeyen davranışları teşhis etmenin tek yoludur. Bunu atlayan ekipler, uygun izlerle dakikalar içinde çözecekleri sorunlar için haftalarca hata ayıklama harcar.
Maliyet Yönetimi
Token maliyetleri hızla birikir. Kullanıcı başına beş LLM çağrısı yapan, her biri 10.000 token'lık bir bağlamla çalışan çok adımlı bir agent, çoğu ekibin tasarım sırasında tahmin ettiğinden daha hızlı bir şekilde bütçeyi tüketir. Yardımcı olan stratejiler: belirleyici girdiler için tekrarlanan getirmeleri ve LLM yanıtlarını önbelleğe almak, yönlendirme veya sınıflandırma adımları için daha küçük modeller kullanmak ve geçmişi modele beslemeden önce agresif bağlam sıkıştırması yapmak. Agent çalıştırması başına erken bir maliyet paneli oluşturmak hızla karşılığını verir.
Modern Yığın Örnekleri
Bunun bir araya getirilmiş hali nasıl görünür? Yaygın bir orta ölçekli üretim yığını: akıl yürütme modeli olarak GPT-4o, orkestrasyon için LangChain veya LangGraph, getirme için Pinecone veya pgvector, kısa süreli oturum belleği için Redis, uzun süreli epizodik depolama için Postgres veritabanı ve araç çalıştırma için AWS Lambda veya Modal üzerinde konteynerize Python fonksiyonları. API ağ geçidi genellikle asenkron uç noktalar ve SSE akışı ile FastAPI'dir. Gözlemlenebilirlik, izleri Datadog'a aktaran LangSmith üzerinden çalışır.
Bu tür bir yığının üzerine kurulan ve agent'ları ürün olarak sunan ekipler için, alttaki AI bileşenlerini nasıl değerlendireceklerini anlamak kritik öneme sahiptir. AI kodlama asistanlarını değerlendirme rehberimiz, aynı kalite kriterlerinin — gecikme, güvenilirlik, araç kullanım doğruluğu — seçtiğiniz agent bileşenlerine nasıl uygulandığını gösterir. Ve geliştirdiğiniz agent'ın nasıl gelir elde ettiğini düşünüyorsanız, AI agent'ların para kazanması yazısı, tüm bu altyapının üzerinde oturan iş modeli katmanını ele alır.
Ölçeklenebilir Agent Sistemleri için En İyi Uygulamalar
Güvenilir agent'ları hayata geçiren ekipleri, süresiz olarak demo modunda kalanlardan ayıran birkaç kalıp vardır. Birincisi, altyapıya dokunmadan önce agent'ınızın kapsamını acımasızca tanımlayın — her şeyi yapmaya çalışan bir agent'ın bağlam penceresi kaos gibi görünür. İkincisi, her harici bağımlılığı potansiyel bir hata noktası olarak ele alın ve açıkça geri dönüş davranışı oluşturun; bir araç kullanılamadığında zarif bir şekilde düşen agent, sessizce halüsinasyon gören bir agent'tan çok daha güvenilirdir. Üçüncüsü, optimize etmeden önce enstrüman ekleyin — ölçemediğiniz şeyi iyileştiremezsiniz ve LLM çağrı izleri, yalnızca toplu metriklerden görünmeyen optimizasyon fırsatlarını ortaya çıkarır.
İstem ve Sistem Talimatı Sürümleme
Sistem istemleri koddur. Sürüm kontrolünde yaşamalı, bir değişiklik inceleme sürecine sahip olmalı ve uygulama koduyla aynı disiplinle teslim edilmelidir. Sistem istemindeki tek satırlık bir değişiklik, binlerce çağrıda agent davranışını köklü şekilde değiştirebilir. İstemleri gayri resmi yapılandırma dizeleri olarak ele alan ekipler, sonunda üretimde öngörülemeyen regresyonlar olarak kendini gösteren teknik borç biriktirir.
Değerlendirme ve Regresyon Testi
Otomatik değerlendirme hatları — her model veya istem değişikliğine karşı seçilmiş bir test seti çalıştırmak — agent sistemleri için birim testlerinin karşılığıdır. RAGAS (RAG hatları için) ve LLM-as-a-judge kalıpları gibi çerçeveler, her çıktının insan incelemesi olmadan ölçeklenebilir kalite ölçümüne olanak tanır. Bir değerlendirme paketi olmadan yeni bir agent sürümü göndermek, test olmadan uygulama kodu göndermekle aynı şeydir: pişman olacaksınız ve pişmanlık beklediğinizden daha çabuk gelir.
AI agent altyapı yığını gerçekten karmaşıktır, ancak karmaşıklığı yapılandırılmıştır. Her katmanın iyi anlaşılmış sorumlulukları, yerleşik araçları ve büyüyen operasyonel bilgi birikimi vardır. LLM'yi tek önemli şey olarak ele almak yerine tüm yığını anlamaya yatırım yapan ekipler, hata ayıklaması daha hızlı, çalıştırması daha ucuz ve gerçek kullanıcı yükü altında çok daha güvenilir sistemler kurar. Altyapı agent'ın kendisidir; baştan doğru yapın.