Wir kennen das: Unser Gegenüber hat meist ein untrügliches Gespür dafür, ob wir ihm aufmerksam zuhören – oder eben nicht. Denn die menschliche Mimik, Gestik und Körpersprache ist ziemlich aufschlussreich, zumindest für den Menschen. Der studierte Systemanalytiker Dmitrii Fedotov wollte nun wissen, was es braucht, damit auch ein Computer per automatischer Gefühlserkennung (im Englischen Affective Computing) diese Aufmerksamkeit messen kann. Er promoviert am Institut für Communications Engineering der Universität Ulm und kooperierte für seine Forschungsarbeit eng mit drei Moskauer Wissenschaftlerinnen des Unternehmens Neurodata Lab mit Firmensitzen in Italien, der Schweiz, Russland und den USA.
Erster Schritt: Der Mensch wird charakterisiert
Für das Forschungsprojekt hat Neurodata Lab erst einmal einen riesigen Datenkorpus aus Videomaterial auf einer so genannten Emotion Miner Plattform zusammengestellt. Szene für Szene wurde dafür systematisch „von Hand“ von Menschen gesichtet und nach bestimmten Kriterien charakterisiert. Welche Emotionen zeigen Sprecher und Zuhörer? Ist der Zuhörer aufmerksam oder unkonzentriert? Insgesamt verarbeiteten sie dabei mehr als 26 000 Filmfragmente aus 981 Videos. Wozu der ganze Aufwand? „Man braucht diese von Menschen erhobenen Daten als Referenzdaten, um später herauszufinden, wie genau der Computer in der Lage ist, menschliche Gefühle und mentale Zustände zu erfassen“, erklärt die Psychologin Olga Perepelkina, Chief Research Officer bei Neurodata Lab.
Zweiter Schritt: Die Maschine lernt
Für die automatische Aufmerksamkeitserkennung haben sich mehrere Verfahren etabliert, um mimische und gestische Hinweise sowie Körperhaltungen zu erfassen. Vereinfacht ausgedrückt werden hier Lippen- oder Augenbewegungen untersucht sowie Gesichtsausdrücke oder die emotionale Färbung gesprochener Sprache („Audio“-Faktor). Auditive Merkmale sind hier Stimmqualität, Tonspektrum, Stimmenergie, Sprachfluss und Tonhöhe. Dazu haben die Forscher allein für die Gesichtserkennung ein neuronales Netzwerk mit den Bilddaten von mehr als 10 000 Gesichtern gefüttert.
Kombination Lippen und Audio reicht meistens
„Wir wollten nun herausfinden, welche Kombination an Modalitäten bei der automatischen Aufmerksamkeitserfassung am effektivsten ist“, so Fedotov. Der Ulmer Wissenschaftler hat dafür alle möglichen Zwei- und Dreifachkombinationen von fünf verschiedenen Erkennungsweisen (Augen, Lippen, Gesicht, Körper und Audio) statistisch kombiniert.
Das Ergebnis: Am effektivsten im Verhältnis zum Aufwand erwies sich dabei die Zweierkombination aus „Lippen“ und „Audio“. Gut 70 % aller Fälle lassen sich damit richtig zuordnen; ein Ergebnis, das für die automatisierte Aufmerksamkeitserkennung richtig gut ist. „Für die Praxis heißt dies, dass eine automatische Aufmerksamkeitserkennung, die sich auf die auditiven Merkmale der gesprochenen Sprache konzentriert ausreicht, um zuverlässig zu sagen, ob der Zuhörer aufmerksam ist. Wenn der Zuhörer schweigt, helfen andere Merkmale wie Gesichts- und Körperbewegungen“, sagt Fedotov.
Wer sich in Fragen der Aufmerksamkeit künftig nicht vom Computer ertappen lassen will, wäre mit dem Sprichwort vom silbernen Reden und goldenen Schweigen gut beraten. Doch spannend ist die Frage, welche internen Befehle der Rechner ausführt, wenn sein Gegenüber ihn tatsächlich ignoriert. Würde er sich mehr um uns bemühen? Schneller laden? Oder, ganz beleidigt und damit dem Menschen noch ähnlicher, den genervten Anrufer am hinteren Ende der Call-Center-Warteschlange ein wenig zappeln lassen?