Ultraschall-Tracking: Wie der TV heimlich mit dem Handy spricht

Autore: Francesco Zinghinì | Data: 11 Marzo 2026

Stellen Sie sich folgendes Szenario vor: Sie sitzen abends auf dem Sofa, der Smart-TV läuft im Hintergrund und zeigt einen Werbespot für ein neues Auto. Sie greifen zu Ihrem Smartphone, öffnen eine völlig unbeteiligte App oder einen Webbrowser, und plötzlich prangt dort eine Anzeige für exakt dasselbe Fahrzeug. Viele Nutzer vermuten in solchen Momenten, dass ihre Geräte sie aktiv abhören und gesprochene Worte analysieren. Die technische Realität ist jedoch weitaus eleganter, ressourcenschonender und gleichzeitig faszinierender. Das Geheimnis hinter dieser scheinbaren Magie nennt sich Ultraschall-Tracking (auch Ultrasonic Cross-Device Tracking genannt). Diese Technologie bildet die unsichtbare Brücke zwischen den Bildschirmen in Ihrem Haushalt und nutzt physikalische Prinzipien, die sich der menschlichen Wahrnehmung vollständig entziehen.

Die physikalische Grundlage: Das Spektrum jenseits des Hörbaren

Um zu verstehen, wie Ihr Smart-TV mit Ihrem Smartphone oder Tablet kommuniziert, ohne dass Sie es bemerken, müssen wir einen Blick auf die Akustik werfen. Das menschliche Gehör ist im Idealfall in der Lage, Frequenzen zwischen 20 Hertz (Hz) und 20.000 Hertz (20 kHz) wahrzunehmen. Mit zunehmendem Alter und durch alltägliche Lärmbelastung sinkt die obere Hörschwelle bei den meisten Erwachsenen jedoch drastisch ab, oft auf Werte um die 15 kHz bis 17 kHz.

Genau diese biologische Limitierung macht sich die Werbe- und Technologieindustrie zunutze. Handelsübliche Lautsprecher, wie sie in jedem Smart-TV verbaut sind, können Frequenzen bis zu 20 kHz problemlos wiedergeben. Ebenso sind die Mikrofone in modernen Smartphones, Tablets und Laptops technisch in der Lage, diese Frequenzen aufzuzeichnen. Das sogenannte Near-Ultrasonic-Band (der Bereich zwischen 18 kHz und 20 kHz) ist somit der perfekte Kanal für eine verdeckte Datenübertragung. Der Fernseher sendet in diesem Frequenzband kurze, codierte Audiosignale aus – sogenannte Audio-Beacons. Für das menschliche Ohr herrscht absolute Stille, doch für die elektronischen Geräte im Raum ist es ein lautes, klares Signal.

Signalverarbeitung: Wie Daten in Schallwellen versteckt werden

Ein Audio-Beacon ist kein kontinuierlicher Ton, sondern ein komplexes, moduliertes Signal, das digitale Informationen trägt. Ähnlich wie bei den alten Einwählmodems, nur eben in einem unhörbaren Frequenzbereich, werden Nullen und Einsen in Schallwellen übersetzt. Technisch wird hierbei häufig die Frequenzumtastung (Frequency-Shift Keying, FSK) oder die Phasenumtastung (Phase-Shift Keying, PSK) eingesetzt.

Wenn ein Werbespot, eine Fernsehserie oder sogar eine bestimmte Webseite auf dem Smart-TV geladen wird, ist in der regulären Tonspur dieses hochfrequente Wasserzeichen eingebettet. Das Signal enthält eine eindeutige Identifikationsnummer (ID). Das Smartphone, das auf dem Couchtisch liegt, lauscht im Hintergrund. Sobald eine App mit den entsprechenden Berechtigungen (oft versteckt in den Nutzungsbedingungen von scheinbar harmlosen Spielen oder Wetter-Apps) dieses Signal über das Mikrofon auffängt, demoduliert es den Ton, extrahiert die ID und sendet diese zusammen mit der eigenen Geräte-ID über das Internet an einen zentralen Server. Der Server weiß nun mit absoluter Sicherheit: Das Smartphone X befindet sich im selben Raum wie der Smart-TV Y, auf dem gerade der Inhalt Z läuft.

Die Rolle der Künstlichen Intelligenz bei der Datenverarbeitung

Die bloße Übertragung eines Ultraschallsignals ist jedoch nur der erste Schritt. Wohnzimmer sind akustisch chaotische Umgebungen. Hintergrundgespräche, Straßenlärm, das Bellen eines Hundes oder das Rauschen einer Klimaanlage erzeugen ein massives Störrauschen. Hier kommt Künstliche Intelligenz ins Spiel. Um die schwachen, hochfrequenten Signale aus dem akustischen Chaos herauszufiltern, setzen Entwickler auf fortschrittliches Maschinelles Lernen.

Die Audiodaten werden oft mittels einer Schnellen Fourier-Transformation (FFT) in ein Spektrogramm umgewandelt – eine visuelle Repräsentation der Frequenzen über die Zeit. Speziell trainierte Neural Networks (neuronale Netze), insbesondere Convolutional Neural Networks (CNNs), die eigentlich für die Bilderkennung entwickelt wurden, analysieren diese Spektrogramme in Echtzeit. Sie sind darauf trainiert, die spezifischen Muster der Audio-Beacons selbst bei extremem Hintergrundrauschen mit einer Genauigkeit von nahezu 100 Prozent zu identifizieren. Diese KI-gestützte Signalverarbeitung findet oft direkt auf dem Endgerät (Edge Computing) statt, um Latenzen zu minimieren und Bandbreite zu sparen.

Von der Erkennung zur Vorhersage: Der Aufbau des Identity Graphs

Sobald die Verbindung zwischen den Geräten hergestellt ist, beginnt die eigentliche Magie der Datenanalyse. Werbenetzwerke nutzen die gesammelten Datenpunkte, um einen sogenannten Identity Graph (Identitätsgraphen) zu erstellen. Dieser Graph kartiert, welche Geräte zu welcher Person oder welchem Haushalt gehören. Wenn Ihr Smart-TV ein Ultraschallsignal aussendet und sowohl Ihr Smartphone als auch das Tablet Ihres Partners dieses Signal empfangen, weiß der Algorithmus, dass diese drei Geräte einen Haushalt bilden.

Moderne AI-Systeme nutzen diese Graphen für prädiktive Modellierung. Sie analysieren nicht nur, was Sie sehen, sondern auch wie Sie darauf reagieren. Wenn der Smart-TV das Signal für einen Reise-Werbespot aussendet und Sie fünf Minuten später auf Ihrem Smartphone nach Flügen suchen, lernt das System die Kausalität. Es entsteht ein hochdetailliertes Profil Ihrer Interessen, Gewohnheiten und Kaufabsichten, das weit über das hinausgeht, was herkömmliche Cookies im Webbrowser jemals erfassen könnten.

Die Integration von Generative AI und LLMs in Echtzeit-Werbung

Die technologische Entwicklung bleibt jedoch nicht bei der bloßen Datenerfassung stehen. Die Kombination von Ultraschall-Tracking mit modernster Sprach- und Textverarbeitung eröffnet völlig neue Dimensionen der Personalisierung. Wenn das Ultraschallsignal verrät, welche spezifische Dokumentation oder Talkshow Sie gerade auf dem Smart-TV ansehen, kann das System im Hintergrund das Transkript dieser Sendung abrufen.

Hier kommen große Sprachmodelle (LLM) ins Spiel. Ein System, das auf einer ähnlichen Architektur wie ChatGPT basiert, kann das Transkript der laufenden Sendung in Millisekunden analysieren und den semantischen Kontext verstehen. Diskutieren die Protagonisten im Fernsehen gerade über nachhaltige Ernährung? Das LLM erkennt dieses Thema sofort. Daraufhin wird Generative AI eingesetzt, um in Echtzeit einen maßgeschneiderten Werbetext oder ein dynamisches Bild zu generieren, das perfekt zu diesem Kontext passt. Diese hochpersonalisierte, KI-generierte Anzeige wird dann nahtlos auf Ihr Smartphone ausgespielt – genau in dem Moment, in dem Sie emotional durch das Fernsehprogramm auf das Thema eingestimmt sind. Es ist eine Symbiose aus physikalischer Sensorik und kognitiver Textgenerierung.

Datenschutz und Sicherheit: Wer kontrolliert den unsichtbaren Datenstrom?

Die technische Brillanz des Ultraschall-Trackings wirft unweigerlich gravierende Fragen hinsichtlich des Datenschutzes auf. Da die Signale für den Menschen unhörbar sind, findet das Tracking völlig transparent und ohne offensichtliche Indikatoren statt. Der Nutzer hat keine physische Möglichkeit zu bemerken, dass sein Smart-TV gerade mit seinem Smartphone kommuniziert.

Aus rechtlicher Sicht, insbesondere unter der europäischen Datenschutz-Grundverordnung (DSGVO), ist diese Praxis hochgradig reguliert. Apps, die über das Mikrofon nach Audio-Beacons lauschen, müssen die explizite Zustimmung des Nutzers einholen. Das Problem liegt jedoch oft in der Intransparenz der Berechtigungsanfragen. Wenn eine App Zugriff auf das Mikrofon verlangt, gehen die meisten Nutzer davon aus, dass dies für Sprachnachrichten oder Telefonate notwendig ist – nicht jedoch für das permanente Scannen nach hochfrequenten Werbe-Signalen.

Sicherheitsexperten raten daher zu einer strengen Kontrolle der App-Berechtigungen. Betriebssysteme wie iOS und Android haben in den letzten Jahren nachgebessert und zeigen mittlerweile kleine Indikatoren (wie einen orangefarbenen oder grünen Punkt auf dem Bildschirm) an, wenn das Mikrofon aktiv ist. Zudem verbieten die Richtlinien der großen App-Stores mittlerweile den Einsatz bestimmter Ultraschall-Tracking-SDKs (Software Development Kits), wenn diese nicht klar deklariert sind. Dennoch bleibt es ein ständiges Katz-und-Maus-Spiel zwischen Werbetechnologen und Datenschützern.

Fazit

Die Vernetzung unserer digitalen Welt hat längst die Grenzen sichtbarer Kabel und bekannter Funknetzwerke wie WLAN oder Bluetooth überschritten. Das Ultraschall-Tracking demonstriert auf eindrucksvolle Weise, wie physikalische Phänomene, die außerhalb unserer menschlichen Wahrnehmung liegen, genutzt werden, um eine nahtlose Kommunikation zwischen Geräten zu etablieren. Ihr Smart-TV ist nicht einfach nur ein Empfänger für Fernsehbilder, sondern ein aktiver Sender in einem hochkomplexen, unsichtbaren Netzwerk.

Durch den Einsatz von fortschrittlichen Algorithmen, neuronalen Netzen und generativen Sprachmodellen wird aus einem simplen, unhörbaren Piepton ein mächtiges Werkzeug zur Analyse und Vorhersage menschlichen Verhaltens. Während diese Technologie aus ingenieurtechnischer Sicht ein Meisterwerk der Signalverarbeitung darstellt, erfordert sie gleichzeitig ein hohes Maß an technischer Aufklärung. Nur wer die unsichtbaren Mechanismen seiner Geräte versteht, kann bewusste Entscheidungen über seine digitale Privatsphäre treffen und die Kontrolle darüber behalten, welche Echos im eigenen Wohnzimmer unbeantwortet bleiben sollen.

Häufig gestellte Fragen

Was ist Ultraschall-Tracking und wie funktioniert diese Technik genau?

Beim Ultraschall-Tracking sendet ein Smart-TV hochfrequente Töne aus, die für das menschliche Ohr aufgrund der biologischen Limitierung völlig unhörbar sind. Smartphones oder Tablets im selben Raum empfangen diese speziellen Signale über ihre eingebauten Mikrofone und leiten die Daten weiter. Auf diese Weise können Werbenetzwerke erkennen, welche Geräte zu einem Haushalt gehören, und geräteübergreifend stark personalisierte Werbung ausspielen.

Warum zeigt mein Handy plötzlich Werbung zu dem an, was gerade im Fernsehen läuft?

Dies liegt an versteckten Audio-Signalen im Frequenzbereich zwischen 18 und 20 Kilohertz, die der Fernseher während einer Sendung oder eines Werbespots aussendet. Bestimmte Apps auf dem Smartphone lauschen im Hintergrund auf diese Töne und verknüpfen die Geräte miteinander. Dadurch weiß das System exakt, welche Inhalte Sie konsumieren, und präsentiert sofort thematisch passende Anzeigen auf dem mobilen Bildschirm.

Welche Daten zeichnet das Smartphone beim Fernsehen eigentlich auf?

Das mobile Gerät zeichnet in der Regel keine privaten Gespräche auf, sondern sucht gezielt nach unhörbaren digitalen Wasserzeichen in der regulären Tonspur des Fernsehers. Diese hochfrequenten Signale enthalten lediglich spezifische Identifikationsnummern von Werbespots oder bestimmten Sendungen. So wird das Nutzerverhalten präzise analysiert und ein detailliertes Profil erstellt, ohne dass gesprochene Worte im Raum verstanden oder dauerhaft gespeichert werden müssen.

Wie kann ich mich vor dem geräteübergreifenden Tracking über Audio-Signale schützen?

Der effektivste Schutz besteht darin, die Mikrofonberechtigungen aller installierten Apps auf dem Smartphone regelmäßig und streng zu kontrollieren. Entziehen Sie Anwendungen, die kein Mikrofon für ihre eigentliche Kernfunktion benötigen, konsequent die Zugriffsrechte. Achten Sie zudem auf die farbigen Warnpunkte auf dem Display, die sofort signalisieren, sobald das Mikrofon im Hintergrund aktiv genutzt wird.

Welche Rolle spielt Künstliche Intelligenz bei dieser Art der Datenüberwachung?

Moderne Algorithmen und maschinelles Lernen filtern die extrem leisen Hochfrequenzsignale zuverlässig aus lauten Umgebungsgeräuschen im Wohnzimmer heraus. Zusätzlich analysieren fortschrittliche Sprachmodelle in Echtzeit die inhaltlichen Themen der laufenden Fernsehsendung. Auf Basis dieser Informationen generiert die KI sofort maßgeschneiderte Werbetexte, die perfekt zur aktuellen emotionalen Stimmung des Zuschauers passen.