Wie funktionieren selbstfahrende Autos technisch? (Sensoren, KI, Software)
Selbstfahrende Autos rollen nicht mehr nur durch Forschungslabore, sondern durch echte Innenstädte. Waymo absolvierte 2025 rund 15 Millionen bezahlte Robotaxi-Fahrten in den USA, viermal so viele wie im Vorjahr. Mercedes hat sein Drive-Pilot-System auf 95 km/h freigeschaltet und damit Level 3 erstmals breit alltagstauglich gemacht. Tesla verteilte FSD V13 im Sommer 2025 an die Flotte, mit einem End-to-End-Netz, das frühere Codezeilen durch gelernte Fahrentscheidungen ersetzt.
Hinter diesen Fortschritten steckt ein hochkomplexes Zusammenspiel aus Sensorik, neuronalen Netzen und Steueralgorithmen. Jeder Schritt vom Lichtimpuls eines Lidars bis zum Lenkbefehl der Aktorik muss innerhalb weniger Millisekunden ablaufen. Die folgenden Abschnitte zeigen, welche Bauteile zusammenwirken und wie Software die Welt rund um das Fahrzeug interpretiert.
Die SAE-Stufen als technischer Rahmen
Der Verband SAE International unterteilt Automatisierung in sechs Stufen, beginnend bei Level 0 ohne Assistenz bis Level 5 für vollständige Autonomie ohne menschliche Aufsicht. Aktuelle Serienfahrzeuge bewegen sich überwiegend auf Level 2, weil der Mensch trotz Spurhalte- und Tempoassistenz dauerhaft verantwortlich bleibt. Mercedes erreicht mit Drive Pilot als bislang einziger Großserienhersteller Level 3 auf deutschen Autobahnen, freigegeben bis 95 km/h. Robotaxis von Waymo fahren in San Francisco, Phoenix und Los Angeles ohne Sicherheitsfahrer und gelten damit als Level 4 in geografisch begrenzten Zonen.
Die Stufen bestimmen direkt den technischen Aufwand. Ein Level-2-System darf mit weniger Redundanz auskommen, weil der Fahrer als Rückfallebene dient. Ab Level 3 verdoppeln Hersteller kritische Komponenten wie Bordnetz, Lenkung und Bremsanlage. Versagt ein Pfad, übernimmt sofort der zweite und führt das Fahrzeug kontrolliert in den sicheren Halt.
Kamera, Lidar, Radar und Ultraschall im Einsatz
Kameras liefern hochauflösende Farbbilder und erkennen Verkehrsschilder, Ampelfarben sowie Gesten anderer Verkehrsteilnehmer. Tesla setzt mit acht Kameras rund um den Wagen rein auf optische Erfassung, ohne aktive Sensoren. Lidar tastet die Umgebung mit Laserpulsen ab und erstellt eine dreidimensionale Punktwolke, in der Abstände auf wenige Zentimeter genau stimmen. Waymos sechste Generation nutzt vier Lidar-Einheiten mit einer Reichweite bis 300 Meter und 13 Kameras, davon eine 17-Megapixel-Optik für Stoppschilder aus über 500 Metern Entfernung.
Radar arbeitet mit Funkwellen und liefert robuste Geschwindigkeitsdaten auch bei Regen, Nebel oder Schnee. Sechs Radarsensoren sichern bei Waymo den Mittelbereich, während Ultraschallsensoren beim Einparken Hindernisse im Nahfeld unter zwei Metern detektieren. Jede Technologie hat blinde Flecken, weshalb die meisten Hersteller mehrere Verfahren kombinieren. Tesla bildet mit der reinen Kameralösung weiterhin die Ausnahme im Markt.
Sensorfusion als Herzstück der Wahrnehmung
Sensorfusion bündelt die rohen Daten der einzelnen Quellen zu einem konsistenten Umfeldmodell. Algorithmen rechnen die Messungen in ein gemeinsames Koordinatensystem um und gleichen Zeitstempel auf den Mikrosekundenbruchteil ab. Erkennt eine Kamera einen Fußgänger, prüft das System parallel, ob Radar und Lidar an derselben Stelle ein Objekt mit passender Höhe und Bewegung sehen. Die Übereinstimmung erhöht die Sicherheit der Klassifikation und reduziert Fehlalarme drastisch.

Moderne Fusionsverfahren arbeiten zunehmend auf Feature-Ebene statt erst nach getrennter Objekterkennung. Neuronale Netze verarbeiten Pixel, Punktwolken und Radardaten gleichzeitig in einer sogenannten Bird’s-Eye-View-Repräsentation. Tesla wandelt 2D-Kamerabilder in eine dreidimensionale Belegungsmatrix um. Aus dieser Matrix lässt sich für jeden Würfel im Raum ablesen, ob er besetzt ist und in welche Richtung sich der Inhalt bewegt.
Neuronale Netze und maschinelle Wahrnehmung
Tiefe neuronale Netze übernehmen die Hauptarbeit bei der Bilderkennung, Segmentierung und Bewegungsvorhersage. Tesla betreibt nach eigener Auskunft 48 spezialisierte Netze parallel, die zusammen einen einzigen Steuerstrang bilden. FSD V13 verarbeitet Rohvideo direkt zu Lenkwinkel, Gas- und Bremsbefehlen, wodurch rund 300.000 Zeilen klassischer Programmlogik wegfielen. Das Training erfordert pro Zyklus etwa 70.000 GPU-Stunden auf Teslas Dojo- und Nvidia-Clustern.
Die Netze lernen aus Millionen menschlicher Fahrszenen, wie sich Fahrzeuge, Radfahrer und Tiere typischerweise verhalten. Über sogenannte Transformer-Architekturen behalten sie zeitliche Zusammenhänge im Blick und sagen Trajektorien für mehrere Sekunden im Voraus. Waymo ergänzt seine Wahrnehmung mit eigenen Foundation Models, die aus Milliarden Roadmiles Erfahrung schöpfen. Beide Ansätze profitieren davon, dass jeder gemeldete Beinahe-Unfall sofort als Trainingsbeispiel zurück in die Modellpipeline fließt.
Hochauflösende Karten und präzise Lokalisierung
Hochauflösende Karten enthalten Spurmarkierungen, Bordsteinhöhen und Ampelpositionen mit zentimetergenauer Auflösung. Waymo befährt jedes neue Einsatzgebiet mehrfach mit Vermessungsfahrzeugen, bevor Robotaxis ohne Sicherheitsfahrer rollen dürfen. Mercedes hinterlegt für den Drive Pilot ähnlich detaillierte Karten der gesamten 13.191 Kilometer langen deutschen Autobahn. Diese Karten dienen als zusätzliche Sicherheitsebene, falls Sensoren kurzzeitig durch Spritzwasser oder Gegenlicht eingeschränkt werden.

Zur Lokalisierung kombiniert das Fahrzeug GNSS-Signale mit Inertialsensoren, Raddrehzahlen und Landmarken aus Lidar oder Kamera. Der Abgleich von Echtzeit-Sensordaten mit der Karte liefert Positionen mit einer Genauigkeit unter zehn Zentimetern. Tesla verfolgt eine andere Linie und verzichtet weitgehend auf vorab kartiertes Material, um global ohne Aktualisierungspflicht zu skalieren. Beide Strategien haben Konsequenzen: kartenbasierte Systeme arbeiten innerhalb ihres Gebiets sehr robust, kartenfreie Systeme reagieren flexibler auf Baustellen und neue Straßenführungen.
Aktorik und Entscheidungsfindung in Echtzeit
Aus dem Umfeldmodell entsteht eine Trajektorie, also ein zeitlich gestaffelter Pfad mit Position, Geschwindigkeit und Lenkwinkel. Planungsmodule bewerten Hunderte möglicher Manöver pro Sekunde und wählen das sicherste Profil aus. Ein nachgelagerter Regler übersetzt die Soll-Trajektorie in elektrische Signale für Lenkmotor, Bremsdruckregler und elektrischen Antriebsstrang. Die gesamte Kette vom Sensorpixel bis zum Aktor liegt typischerweise unter 100 Millisekunden.
Sicherheit verlangt zusätzliche Schutzschichten oberhalb der Hauptlogik. Ein unabhängiger Watchdog prüft fortlaufend, ob Sensoren plausible Werte liefern und ob die geplante Trajektorie physikalisch stimmig bleibt. Bei Mercedes übernimmt ein zweiter Computer die Kontrolle, falls der erste ausfällt, und führt das Fahrzeug auf den Standstreifen. Waymos Robotaxis besitzen vergleichbare Rückfallpfade samt Fernüberwachung durch menschliche Operator, die im Zweifel per Funk eingreifen.
Fazit zur Technik selbstfahrender Autos

Welche Architektur am Ende dominiert, hängt weniger von einer einzelnen Komponente ab als von der Disziplin, mit der Hersteller Sicherheitsreserven, Daten und Software über Jahre weiterentwickeln.