Bilgisayarla görme, bilgisayarların ve makinelerin dünyadaki görsel bilgileri görmesini, işlemesini ve yorumlamasını sağlayan bir yapay zeka dalıdır. Kameralar, sensörler ve makine öğrenimi modellerini birleştirerek bilgisayarla görme sistemleri, nesneleri algılayabilir, yüzleri tanıyabilir, metin okuyabilir, hareketi takip edebilir ve insan kapasitesinin çok ötesinde bir ölçekte ve hızda görüntüleri ve videoları anlamlandırabilir.
Bilgisayarla Görme nasıl çalışır
Modern bilgisayarla görme, çoğunlukla evrişimsel sinir ağları (CNN'ler) ve daha yakın zamanda dönüştürücü tabanlı mimariler olmak üzere derin öğrenmeye dayanır. Model, milyonlarca etiketli fotoğraf gibi büyük etiketli veri kümeleri üzerinde eğitilir. Eğitim sırasında ağ, tekrarlayan desenleri tanımayı öğrenir: kenarlar, dokular, şekiller ve sonunda tüm nesneler.
Çıkarım zamanında sistem bir görüntü veya video karesi yakalar, bunu eğitilmiş modelden geçirir ve tahminler üretir. Örneğin, bir sokak fotoğrafı verildiğinde model, her pikseli sınıfa göre etiketleyerek yolları, yayaları, trafik işaretlerini ve diğer araçları işaretleyebilir. Aynı işlem hattı, modelin bir görüntüdeki el yazısı veya basılı metni makine tarafından okunabilir karakterlere dönüştürdüğü optik karakter tanıma (OCR) gibi daha basit görevlere de güç verir.
Neden önemlidir
Bilgisayarla görme, fiziksel dünya için yapay zekanın algısal katmanıdır. Radyologların tümörleri tespit etmesine yardımcı olan tıbbi görüntüleme araçlarının, kalabalık sokaklarda gezinen otonom araçların, üretim hatlarındaki kusurları tespit eden üretim sistemlerinin ve ödemeyi otomatikleştiren perakende uygulamalarının temelini oluşturur. Ayrıca telefonlarda yüzle kilit açma, görsel arama, artırılmış gerçeklik filtreleri ve güvenlik gözetimi gibi günlük özelliklere de güç verir. Pikselleri yapılandırılmış verilere dönüştürerek bilgisayarla görme, makinelerin gördüklerine göre hareket etmesini sağlar ve fiziksel ile dijital dünyaların buluştuğu alanlarda otomasyonun önünü açar.
Temel görevler ve türler
- Görüntü sınıflandırma: "kedi" veya "köpek" gibi tek bir etiketin tüm görüntüye atanması.
- Nesne tespiti: ilgili her nesnenin etrafına sınırlayıcı kutular çizilmesi ve tanımlanması.
- Görüntü segmentasyonu: ayrıntılı sahne anlayışı için her pikselin sınıfa göre etiketlenmesi.
- Yüz tanıma: yüz özelliklerinden bir kişinin tanımlanması veya doğrulanması.
- Optik karakter tanıma (OCR): görüntülerden basılı veya el yazısı metinlerin çıkarılması.
- Poz kestirimi ve takibi: insanların veya nesnelerin zaman içindeki konumunun ve hareketinin tespit edilmesi.
Bilgisayarla görme, görsel verilerin bol olması, altta yatan donanımın (GPU'lar ve özel sensörler) olgunlaşması ve ImageNet gibi standartlaştırılmış kıyaslamaların 2010'ların başından bu yana hızlı model gelişimini yönlendirmesi nedeniyle yapay zekanın en yaygın ticari olarak kullanılan dallarından biri haline gelmiştir.