Bir açık kaynaklı LLM, eğitilmiş parametreleri ve genellikle çevresindeki eğitim ve çıkarım kodlarıyla birlikte, modelin indirilmesine, incelenmesine, ince ayar yapılmasına ve yeniden dağıtılmasına izin veren bir lisans kapsamında kamuya açık şekilde yayımlanan büyük bir dil modelidir. Fikir, açık kaynaklı yazılım geleneğini takip eder: bir modelin iç işleyişini paylaşarak, bireysel geliştiricilerden büyük şirketlere kadar herkes, yalnızca kapalı API'lere güvenmek yerine model üzerine inşa edebilir. Uygulamada bu etiket geniş bir yelpazeyi kapsar; eğitim verilerini ve tariflerini tamamen yayımlayan tamamen açık sürümlerden, modeli paylaşıp veri ve yöntemleri kısmen tescilli tutan "açık ağırlıklı" sürümlere kadar uzanır.
Açık kaynaklı LLM'ler nasıl çalışır?
Bir LLM eğitmek iki aşamalı bir süreçtir. Önce model, büyük metin derlemleri üzerinde sonraki token'ı tahmin ederek genel dil kalıplarını öğrenir — buna ön eğitim denir. Ardından, yanıtlarının daha yararlı olması için insan geri bildirimi veya özenle seçilmiş örneklerle iyileştirilir; bu aşama eğitim sonrası veya hizalama olarak bilinir. Bir açık kaynaklı LLM sürümünde en önemli yapı, ağırlıklar dosyasıdır: modelin öğrendiklerini kodlayan milyarlarca (veya trilyonlarca) sayısal parametrenin anlık görüntüsü.
Ağırlıklar genellikle Hugging Face gibi bir merkezde yayımlandıktan sonra, yeterli GPU belleğine sahip herkes modeli yerel olarak yükleyebilir, kendi donanımında çıkarım çalıştırabilir, özel bir veri kümesinde ince ayar yapabilir hatta yeni bir alan için ön eğitimine devam edebilir. Mistral gibi küçük topluluk yapımı bir model bir dizüstü bilgisayarda çalışabilirken, 70 milyar parametreli bir model birden fazla üst düzey GPU gerektirir. Ağırlıklar görünür olduğundan, araştırmacılar modeli önyargılar, güvenlik sorunları ve yetenekler açısından da inceleyebilir — kapalı API'lerin izin vermediği bir denetlenebilirlik.
Neden önemlidir?
Açık kaynaklı LLM'ler kuruluşlara maliyet, veri gizliliği ve dağıtım üzerinde kontrol sağlar. Bir hastane, hukuk firması veya devlet kurumu, hassas istemlerin ağdan hiç çıkmaması için modeli kendi sunucularında çalıştırabilir. Sınırlı API erişimine sahip bölgelerdeki geliştiriciler yine de yapay zeka uygulamaları geliştirebilir. Araştırmacılar, modellerin nasıl davrandığını inceleyebilir ve yayımlanmış sonuçları yeniden üretebilir; bu da yapay zeka güvenliği bilimini güçlendirir.
Açık sürümler aynı zamanda kapalı sağlayıcılar üzerinde rekabetçi baskı oluşturur, toplulukların iyileştirmeleri bir araya getirmesine izin vererek inovasyonu hızlandırır ve satıcıya bağımlılığı azaltır. Ödünleşimler gerçektir: açık ağırlıklar yanıltıcı bilgi veya zararlı araçlar için kötüye kullanılabilir ve lisanslama ortamı düzensizdir — bazı "açık" modeller ticari kullanımı kısıtlar veya Open Source Initiative'ın desteklediği klasik açık kaynak tanımından farklılaşan kullanım durumu maddeleri içerir.
Temel örnekler ve lisans türleri
- Meta'nın Llama ailesi — ticari kullanıma izin veren, ancak kullanım durumu kısıtlamaları ve boyuta dayalı bir gelir maddesi içeren lisansla yüksek kaliteli açık ağırlıklı modeller.
- Mistral ve Mixtral modelleri — geniş ticari ve türetilmiş kullanıma izin veren izin verici Apache 2.0 lisansı altında yayımlandı.
- DeepSeek, Qwen ve Yi — kısa sürede Batılı muadillerine kıyasla kıyaslama testlerinde başarı gösteren Çin menşeli açık ağırlıklı modeller.
- Allen AI'ın OLMo'su — yalnızca ağırlıkları değil, eğitim kodunu, verileri ve değerlendirme araçlarını da içeren tamamen açık bir sürüm.
- Pythia ve BLOOM — tekrarlanabilirlik çalışmaları için kapsamlı belgelerle yayımlanmış araştırma odaklı modeller.
Buna açık kaynaklı mı yoksa açık ağırlıklı mı derseniz deyin, pratik kayış önemlidir: bir zamanlar yalnızca birkaç API uç noktasının içinde yaşayan yetenekler artık herhangi bir geliştiricinin klonlayabileceği genel bir dizinde yer alıyor. Kapalı API'ler üzerine inşa etmek ile kendi sunucusunda barındırmak arasında seçim yapan ekipler için belirleyici faktörler genellikle veri yönetişimi, gecikme gereksinimleri, toplam sahip olma maliyeti ve uygulamanın ne kadar özelleştirme gerektirdiğidir.