Digitale Graphologie

Zeige mir, wie du tippst, und ich sage dir, wer du bist: Unbewusste Gewohnheiten verraten, wer gerade Tastatur oder Maus benutzt.

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Redakteure kennen das Problem: Wenn der Autor dieses Artikels seine Arbeit per E-Mail bei den Telepolis-Kollegen eingereicht hat, besteht deren erster Job oft darin, den Text von gar zu vielen Bindestrichen zu befreien. Eine individuelle Angewohnheit - so wie hier Sätze mit einem kleinen Zeichen zu strukturieren. Derlei Techniken lassen sich aber auch dazu nutzen, Texte bestimmten Autoren zuzuordnen. Das kann für Historiker interessant sein: Wie zum Beispiel bei den strittigen Artikeln der "Federalist Papers".

Drei Autoren haben diese 1787 und 1788 erschienene Artikelserie gemeinsam verfasst - waren sich im Nachhinein allerdings nicht mehr einig, wer welchen Teil geschrieben hatte. Mittlerweile gelang es Forschern, durch Analyse von bis zu 1000 Eigenheiten des Schreibstils die Autorenschaft der meisten Artikel zu klären.

Die Technik ist damit eine Fortsetzung der aus Krimis und Gerichtsthrillern bekannten Handschriftenanalyse. Entsprechend breit ist auch das Interesse der Forensiker daran - denn das Internet ist voller Texte, deren Verfasser ihre Autorenschaft aus guten oder weniger guten Gründen verschleiern möchten. Ahmed Abbasi and Hsinchun Chen von der University of Arizona haben zum Beispiel die Inhalte von Diskussionsforen mit extremistischen Inhalten, die in englischer und arabischer Sprache verfasst waren, verglichen.

Dabei achteten sie auch auf technische Besonderheiten wie die Verwendung von Zeichensätzen, Farben und speziellen HTML-Befehlen. Es stellte sich heraus, dass Online-Botschaften einerseits besonders viel Rauschen enthalten - Vertipper, Abkürzungen, falsche Zeichensetzung. Andererseits setzt manch Internetuser gerade diese Eigenheiten systematisch ein, was die Betrachtung vereinfacht. Außerdem gibt es Besonderheiten wie etwa automatisch angehängte Signaturen oder Grüße, die Tipps für die Analyse liefern.

Die arabische Sprache erschwert die Arbeit der Forscher, weil Wörter sehr oft durch Vorsilben von Stammwörtern abgeleitet werden - das verkleinert den Umfang des maschinell verwertbaren Wortschatzes. Chen und Abbasi analysierten die gesammelten Daten mit zwei verschiedenen Klassifikationsverfahren: C4.5 (das auf Entscheidungsbäumen basiert) und SVM („Support Vector Machine"). Dabei erwies sich das SVM-Verfahren als deutlich überlegen: Damit erreichten die Wissenschaftler eine Treffsicherheit von 97 Prozent (Englisch) beziehungsweise fast 95 Prozent (Arabisch). In einer anderen Arbeit untersuchten Chen und Kollegen auch noch Nachrichten in chinesischer Sprache, die sich mit 93-prozentiger Genauigkeit klassifizieren ließen.

Vergleich verschiedener Charakteristiken englischer und arabischer Forentexte (Bild: Abbasi / Chen)

Schreibrhythmus und Dynamik der Maus-Unterschrift

Nicht nur das Ergebnis der Arbeit an der Tastatur lässt sich für die Identifikation verwenden - auch der Schreibrhythmus selbst eignet sich dafür. Schon mehrere Forscherteams schlagen derartige Daten zur Ergänzung etwa des typischen Login-Prozesses vor: Ein Kollege, der das Passwort seines Mitarbeiters aufgeschnappt hat, würde dann trotzdem dessen Rechner nicht benutzen können. Daniele Gunetti untersucht mit anderen Wissenschaftlern der Turiner Universität die Technik systematisch.

Die Forscher konnten nicht nur zeigen, dass die Technik funktioniert. „Wir haben auch bewiesen”, sagt Gunetti, "dass die Erkennung unabhängig von der Sprache ist, in der der Anwender gerade tippt". Ob Englisch, Italienisch oder Deutsch, unser Tipp-Rhythmus ändert sich offenbar nicht, wenn wir in eine Fremdsprache wechseln. Außerdem zeigte sich, dass das Tipp-Profil sehr langlebig ist. „In einem unserer Experimente ließen wir zwischen dem Anlegen des Profils und der Erkennung des Users anderthalb Jahre verstreichen“, so der Forscher. Zurzeit arbeiten die Italiener daran, weitere Freiwillige in ihre Experimente einzubeziehen. Außerdem beabsichtigen sie, ähnlich wie Abbasi und Chen zusätzlich zur Tasten-Dynamik auch den getippten Text stärker in die Analyse einzubeziehen

Nun ist die Tastatur nicht das einzige Eingabegerät: Peter McOwan von der London Queen Mary University schlägt vor, Maus-Gesten als Unterschrift zu nutzen. Dabei muss es sich nicht zwangsläufig um klassische Namenszüge handeln. Es reicht allerdings nicht, nur die grafische Umsetzung zu analysieren. Eine von McOwan und Kollegen entwickelte Java-Software zeichnet deshalb die komplette Dynamik der Maus-Unterschrift auf: Wo setzt der User an, wie flüssig zeichnet er welchen Bogen seiner Signatur. Dazu merkt sich das Programm, wie lange der Anwender die Maustaste gedrückt hielt und wie schnell er sie erneut drückte.

Beispiele von Maus-Unterschriften (Bild: Peter McOwan)

Im Experiment mit 41 Usern, die die Details der von ihnen zu fälschenden Unterschrift kannten, wies die Software trotzdem 95 Prozent der nicht autorisierten Zugriffe ab. Dabei zeigte sich, dass Namenszüge sicherer sind als Signatur-Bilder: die meisten Anwender haben ihre Unterschrift eben über Jahre trainiert und können sie mit erstaunlicher Konstanz reproduzieren, selbst mit der Maus.

Wie bei jeder Autorisierungs-Technologie lassen sich auch Mausklicks nicht nur zum Login einsetzen, sondern auch zum Identifizieren von Usern gegen deren Willen. Entsprechende Techniken wünscht sich zum Beispiel manch Verkäufer im Web, um seine Besucher wiederzuerkennen. Die Motive dafür müssen nicht einmal übler Natur sein: Es wäre zum Beispiel ganz praktisch, gekaperte Ebay- oder Amazon-Accounts an den untypischen Aktivitäten ihrer neuen, illegalen Besitzer zu erkennen. Der Website-Betreiber könnte dann eine zusätzliche Identifikation abfragen, wenn jemand, der sich normalerweise am Samstagnachmittag auf Online-Shoppingtour begibt, plötzlich am Montagmorgen auf der Website auftaucht.

Die US-Forscher Balaji Padmanabhan und Yinghui Yang haben bei der Untersuchung derartiger Clickstream-Daten allerdings festgestellt, dass ein Website-Betreiber zunächst mindestens 30 Sessions eines Anwenders aufzeichnen muss, um derartige Diagnosen stellen zu können. Und selbst dann sind diese nur zu 80 Prozent korrekt: selbst für Marketingzwecke ist das zu wenig. Zumal ja in Form des Cookies ein weit einfacheres Mittel zur Verfügung steht, das viele User klaglos akzeptieren.