Was ist ein neuronales Netz?

Eine klare, einsteigerfreundliche Erklärung, was ein neuronales Netz ist, wie es funktioniert und warum es die moderne KI trägt.

Ein neuronales Netz ist ein Modell des maschinellen Lernens, das aus Schichten einfacher Recheneinheiten – sogenannten Neuronen oder Knoten – besteht, die untereinander mit anpassbaren Stärken, den Gewichten, verbunden sind. Jedes Neuron nimmt Zahlen entgegen, multipliziert sie mit Gewichten, addiert einen Bias und leitet das Ergebnis durch eine nichtlineare Funktion weiter. Durch das Stapeln vieler solcher Schichten kann ein neuronales Netz lernen, komplexe Eingaben wie Pixel, Wörter oder Audio-Wellenformen auf Ausgaben wie Klassenlabels, übersetzte Sätze oder erzeugte Bilder abzubilden.

Wie ein neuronales Netz funktioniert

Während des Trainings wird dem Netz Beispiele zugeführt (etwa Tausende Fotos, die mit „cat" oder „dog" beschriftet sind) und es erzeugt eine Vorhersage. Eine Verlustfunktion misst, wie falsch diese Vorhersage ist, und ein Algorithmus namens Backpropagation berechnet, wie jedes Gewicht im Netz zum Fehler beigetragen hat. Ein Optimierer – typischerweise eine Variante des Gradientenabstiegs – passt daraufhin jedes Gewicht leicht an, um den Fehler zu verringern. Wird dieser Prozess über viele Beispiele wiederholt, pendeln sich die Gewichte des Netzes auf Werte ein, die nützliche statistische Regelmäßigkeiten in den Daten erfassen.

Die Tiefe eines Netzes spielt eine entscheidende Rolle: Die ersten Schichten lernen tendenziell einfache Merkmale wie Kanten oder Buchstabenzüge, während tiefere Schichten diese Merkmale zu reichhaltigeren Konzepten wie Formen, Wörtern oder Objekten kombinieren. Diese Hierarchie von Repräsentationen ist es, die tiefe neuronale Netze bei wahrnehmungsbezogenen Aufgaben so effektiv macht. Ein viel zitierter Überblick über die Architektur und den Lernalgorithmus findet sich in LeCun, Bengio und Hintons Nature-Übersichtsarbeit von 2015 zum Deep Learning.

Warum es wichtig ist

Neuronale Netze bilden die Grundlage für die meisten KI-Fähigkeiten, die in den 2020er-Jahren zum Mainstream geworden sind – darunter Bildklassifikation, Spracherkennung, maschinelle Übersetzung, Empfehlungssysteme und große Sprachmodelle wie die Modelle hinter Konversationsassistenten. Sie brillieren bei Problemen, bei denen handgeschriebene Regeln brüchig sind, aber große Mengen an gelabelten oder ungelabelten Daten vorhanden sind, da sich dieselbe Architektur mit relativ geringem Code-Aufwand für neue Domänen neu trainieren lässt.

Wichtige Typen

  • Feedforward-Netz (FNN): Die einfachste Form; Signale bewegen sich nur in eine Richtung von der Eingabe zur Ausgabe. Ein mehrschichtiges Perzeptron ist das kanonische Beispiel.
  • Convolutional Neural Network (CNN): Verwendet Filter mit geteilten Gewichten und eignet sich ideal für Bilder und Videos.
  • Recurrent Neural Network (RNN): Besitzt Schleifen, die ein Gedächtnis früherer Schritte bewahren, geeignet für Sequenzen wie Text oder Sensordaten; bei Sprache weitgehend von Transformern abgelöst.
  • Transformer: Eine moderne Architektur, die auf Attention statt auf Rekurrenz basiert. Sie ist das Rückgrat heutiger großer Sprachmodelle und vieler Bildverarbeitungssysteme.
  • Generative Adversarial Network (GAN): Paart einen Generator mit einem Diskriminator, der lernt, echte von gefälschten Samples zu unterscheiden, und wird zur Bildsynthese eingesetzt.

Jede Variante ordnet das grundlegende Rezept aus Neuronen und Gewichten neu an oder spezialisiert es, um zu einer bestimmten Datenart zu passen – doch das zugrunde liegende Prinzip – das Lernen von Gewichten durch Gradientenabstieg auf einer Verlustfunktion – bleibt gleich.

You might also like

Verwandte Beiträge