Deepfakes – eine neue Gefahr für die IT-Sicherheit?
von Tina Siering
Was sind Deepfakes?
Deepfake ist ein zusammengesetzter Begriff aus „Deep“ für sogenannte tiefe neuronale Netze und „Fake“ für Fälschung. Deepfakes sind also gefälschte Medieninhalte, die durch Methoden der Künstlichen Intelligenz und Machine Learning generiert werden. Für die Erstellung von Deepfake-Inhalten werden entsprechende Software-Produkte mit Video- und Audiomaterial einer Zielperson „gefüttert“. Die Software wird so trainiert, den Gesichtsausdruck, die Tonalität der Sprache oder auch Gestiken des Opfers zu imitieren. Mit genügend Ausgangsmaterial ist es derzeit schon möglich, einer Person jeden beliebigen Satz „in den Mund zu legen“ – oder den Kopf der einen Person auf den Körper einer anderen zu transferieren.
Welche technologischen Entwicklungen machen Deepfakes möglich?
Für die Erstellung von hochwertigen Fälschungen braucht es drei Dinge: Ausreichend Rechenleistung, genügend Ausgangsmaterial in Form von Audio-, Video- oder Bilddaten und autonom lernende, neuronale Netze. Die Rechenleistung ist dabei die geringste Herausforderung, selbst aktuelle leistungsstarke Desktop-PCs können Audio- oder Video-Deepfakes generieren. Für gefakte Bilder reicht sogar ein handelsübliches Smartphone, wie frei verfügbare „Face Swap“ Apps in den App-Stores zeigen. Das Ausgangsmaterial für Deepfakes ist heutzutage ebenfalls leicht zu erhalten, insbesondere wenn Personen des öffentlichen Lebens ins Visier genommen werden sollen. Social-Media-Plattformen bieten hier umfangreiche Daten. Stellt denn wenigstens der Zugang zu neuronalen Netzen, zu Machine Learning und effizienter Künstlicher Intelligenz eine Hürde da? Keineswegs, denn selbst anspruchsvolle Video-Fälschungen lassen sich mittlerweile ohne tiefe Kenntnisse der Technik und Methoden automatisiert mit frei verfügbarer Open-Source Software erstellen. Mehr über die Technik hinter den Deepfakes haben wir in diesem Blogbeitrag zusammengefasst.
Gehören Deepfakes bald zum Standard-Repertoire von Cyberkriminellen?
Malware, Spyware, Ransomware, Phishing und DDoS-Angriffe – und jetzt auch noch Deepfakes? Fakt ist, dass Cyberkriminelle keine technische Möglichkeit auslassen, ihre Opfer zu manipulieren, zu täuschen und „über den Tisch zu ziehen“. Deepfakes erweitern das Spektrum der Cyberkriminellen um hochgefährliche Möglichkeiten. Von überzeugenden Social-Engineering-Angriffen in großem Maßstab über die Umgehung von Bilderkennungs- oder Stimmbiometrie-Schutzmechanismen bis hin zu Desinformationskampagnen und Erpressungen erweitern Deepfakes das Repertoire der Cyberangreifer. Die Allgegenwärtigkeit manipulierter Bilder stellt Polizei und Behörden schon seit geraumer Zeit vor große Herausforderungen. Neu ist hingegen der Einsatz gefälschter Video- und Audiomaterialien. Bis vor kurzem waren gefälschte Videoaufnahmen oder Audio-Files so gut wie unmöglich. Diese Zeiten sind vorbei.
Im Krieg ist die Wahrheit das erste Opfer. Die Propagandaabteilungen der im aktuellen Ukraine-Konflikt beteiligten Parteien nutzen modernste Techniken, um die Gegenseite zu verunsichern oder Reaktionen zu provozieren. Ministerin Giffey ist nicht das erste, aber zumindest in Deutschland prominenteste Opfer einer möglichen Deepfake-Kampagne geworden. Frau Giffey sprach rund 30 Minuten via Videochat mit einem gefälschten Vitali Klitschko – und wurde erst skeptisch, als ihr Gegenüber unter anderem forderte, dass deutsche Sicherheitsbehörden doch bitte dabei helfen sollen, junge ukrainische Männer zurück in die Ukraine zu befördern. Ob Deepfake oder ein in technologischer Hinsicht weniger anspruchsvoller „Shallowfake“ (ein Neu-Arrangement bestehender Video-Daten): Das Beispiel zeigt eindrucksvoll, wie leicht sich auch erfahrene Personen täuschen lassen.
Auch die beiden Regierungschefs von Russland und der Ukraine werden im Rahmen von Deepfake-Videos als Propagandainstrument eingesetzt. In den sozialen Netzwerken macht ein Video die Runde, auf denen ein künstlich generierter Präsident Selensykyj eine überzeugende Rede hält: „Es gibt kein Morgen mehr. Zumindest nicht für mich. […] ich rate euch, die Waffen niederzulegen und zu euren Familien zurückzukehren. In diesem Krieg lohnt es sich nicht zu sterben.“
Ein vergleichbares Video von Präsident Putin ließ nicht lange auf sich warten. In dem ebenfalls hochprofessionell produzierten Deepfake-Video verkündet Putin, dass der Krieg beendet sein und man „Frieden mit der Ukraine“ geschlossen habe.
Von beiden Seiten folgten umgehend Dementis, und zumindest das Selenskyj-Video wurde auf Facebook gelöscht. Was bleibt ist der fade Beigeschmack, dass die Propaganda im Krieg mit Künstlicher Intelligenz um eine mächtige Waffe reicher geworden ist.
Die Möglichkeiten der Manipulation in Bild, Video, Text und Wort
Deepfakes sind so gefährlich, weil sie bisher als vertrauenswürdig geltende mediale Inhalte in hoher Qualität fälschen können. War man bisher sicher, durch das Gesicht in einem Video oder durch die Stimme in einem Audio-File eine Person zuverlässig erkennen zu können, ändert sich dies durch Deepfakes drastisch. Doch wie genau lässt sich die Wirklichkeit mit Deepfakes manipulieren?
Gesichter fälschen
Gesichter lassen sich mit dem Einsatz von KI auf unterschiedliche Weisen manipulieren. Gängige, ausgereifte Verfahren sind hier das Face Swapping und das Face Reenactment.
Beim Face Swapping wird aus der Eingabe eines Gesichts einer Person das Gesichtsbild einer anderen Person erzeugt – mit der identischen Mimik, Blickrichtung und Gesichtsbeleuchtung.
Beim Face Reenactment geht es um die Manipulation von Kopfbewegungen, Lippenbewegungen oder auch Mimik einer Person. Hierfür werden 3D-Modelle der Gesichter der Opfer anhand eines Videostreams erzeugt, die der Cyberkriminelle im Hintergrund dann beliebig mit seinem eigenen Videostream kontrollieren kann.
Stimmen fälschen
Für die Manipulation von Stimmen wird entweder zu einem vorgegebenen Text ein Audio-Signal erzeugt, das sich wie die Zielperson anhört (Text-to-Speech), oder es wird ein Audiosignal zu einer Zielstimme konvertiert (Voice Conversion)
Texte fälschen
Texte lassen sich mittlerweile durch neuronale Netze vollautomatisch erstellen. Grundlage sind KI-Modelle, Textdatenbanken und ausreichend Rechenleistung. So entstehen umfangreiche Texte, bei denen nicht mehr unterschieden werden kann, ob sie wirklich von einem Menschen oder durch KI geschrieben worden sind.
So nutzen Kriminelle Deepfake-Technologien
Bedrohungen durch Deepfakes sind mittlerweile auch für Laien mit einem technischen Grundverständnis realisierbar. Die Manipulation von Identitäten durch Deepfakes ermöglicht unzählige Bedrohungsszenarien:
- Deepfakes erlauben die einfache Überwindung bisher als sicher geltender, biometrischer Systeme – und das stellenweise in Echtzeit! Besonders Fernidentifikationsverfahren wie Videoidentifikation oder Spracherkennung über Telefon lassen sich durch mediale Inhalte austricksen.
- Im Bereich des Social Engineerings werden Deepfakes für gezielte Phishing-Angriffe genutzt. Gängig sind hier beispielsweise Angriffe mit gefälschten Stimmen von Führungskräften, um Geldtransaktionen auszulösen.
- Desinformationskampagnen sind ein weiteres Anwendungsgebiet für Deepfakes. Manipulierte Medieninhalte werden hier benutzt, um Personen des öffentlichen Lebens in Misskredit zu bringen oder bestimmte Stimmungslagen bei der Bevölkerung auszulösen.
- Deepfakes lassen jede Person jede beliebige Aussage treffen. So kann der Ruf einer Person durch die Veröffentlichung von Unwahrheiten aller Art dauerhaft geschädigt werden.
So schützen sich Unternehmen vor der neuen Gefahr durch Deepfakes
Deepfakes sind gefährlich, keine Frage. Dennoch gibt es auch in diesem Bereich der Cyberkriminalität zuverlässige Gegenmaßnahmen für Unternehmen und Organisationen. Eine der zielführendsten, effizientesten Maßnahmen gegen Deepfakes ist die regelmäßige Durchführung von Security Awareness Trainings. Wenn alle Mitarbeiter und Mitarbeiterinnen eines Unternehmens sich der Gefahren durch gefälschte Medieninhalte bewusst sind und wissen, wie man die Fälschungen erkennt, ist das meiste Potenzial der Deepfake-Angriffe bereits verschossen.
Im Rahmen von Schulungen lässt sich vermitteln, dass trotz der hohen Qualität moderner Deepfakes immer noch teilweise deutliche Artefakte erkennbar sind, die eine Fälschung als solche kennzeichnen. Insbesondere bei Echtzeit-Angriffen besteht für die Angreifer keine Möglichkeit, diese Artefakte umfassend zu beseitigen. Ob sichtbare Übergänge bei Face-Swapping, verwaschene Konturen an Zähnen oder Augen, eine auffällig begrenzte Mimik oder unstimmige Belichtungen sind klare Anzeichen dafür, dass ein Gesicht gefälscht wurde. Bei Audio-Deepfakes sind es die falsche Aussprache von Worten, eine monotone Sprachausgabe oder eine falsche Sprechweise, die auf eine Fälschung hinweisen.
Fazit
Die Technologie zur Fälschung medialer Inhalte ist bereits heute schon ausgereift – und wird sich in den kommenden Jahren durch die Fortschritte im Bereich der künstlichen Intelligenz nochmals weiterentwickeln. Die manuelle Erkennung von Deepfakes wird, so viel ist sicher, nochmals deutlich schwieriger werden. Das erfordert im Bereich der IT-Security perspektivisch KI-basierte Gegenmaßnahmen, die bereits in der Entwicklung sind. Bis es soweit ist, helfen vor allem umfassende Security Awareness Trainings, um das eigene Unternehmen vor Deepfake-Angriffen zu schützen.