Sprachanonymisierung – Jun.-Prof. Dr.-Ing. Ingo Siegert über KI und sichere Assistenzsysteme

0305siegert2 (c)jana dünnhaupt(ovgu)

© Jana Dünnhaupt

Staffel 3 , Folge 5

Sprache ist allgegenwärtig und wird zunehmend zum Steuerelement für technische Geräte wie Smarthome-Systeme. Doch wie lässt sich diese Steuerung anonymisieren, um Nutzende in ihrer individuellen Sprachidentität zu schützen? In dieser Folge von KI Insights begrüßen wir erneut Jun.-Prof. Dr.-Ing. Ingo Siegert, Juniorprofessor für Mobile Dialogsysteme an der Universität Magdeburg, zu Gast. Er forscht zur Stimmenanonymisierung im Kontext klinischer Patientendaten und erklärt gemeinsam mit Moderator David Döring die Herausforderungen bei der Entwicklung von Sprachmodellen: von Datenschutz und der Bedeutung individueller Sprachmerkmale bis hin zu den technischen Voraussetzungen für funktionierende Sprachassistenzsysteme. Außerdem sprechen sie über die Rolle von Frequenzanalysen, Emotionen und ethische Grundsätze bei der Datenerhebung, insbesondere bei personenbezogenen Sprach- und Textdaten aus dem klinischen Bereich.

Moderation: David Döring
Schnitt & Text: Julia Fritz

Transkript Stafel 3, Folge 05 Ingo Siegert
00:00:04 SPEAKER_00
Willkommen bei KI Insights, ein Podcast vom Projekt ZAKKI an der Hochschule
Magdeburg -Stendal. Hier teilen ExpertInnen verschiedenster Disziplinen ihre Einblicke
in die facettenreiche Welt der künstlichen Intelligenz. In der dritten Stafel erwarten Sie
spannende Data Science Use Cases aus Forschung und Industrie, datengetriebene
Ansätze und Techniken des maschinellen Lernens sowie gesellschaftliche Fragen rund
um das Thema KI.

00:00:30 SPEAKER_01
Hallo, ich bin David Döring. Und heute bei mir ist Juniorprofessor für mobile
Dialogsysteme Ingo Siegert von der Otto von Guericke-Universität Magdeburg.
Willkommen zurück. Vielen Dank, dass ich nochmal hier bin. Möchtest du dich kurz
nochmal vorstellen?

00:00:46 SPEAKER_02
Genau, also Ingo Siegert, Juniorprofessor für mobile Dialogsysteme. Was ist das
eigentlich? Also Siri, Alexa und Co. besser machen und zwar so besser machen, dass
die auch von Leuten in Alltagssituationen benutzbar sind. nicht nur als sprachgesteuerte
Fernbedienung benutzbar sind, sondern wirklich auch Alltagsprobleme lösen können.
Das ist das, was ich sozusagen in meiner Forschung mache. Nebenbei mache ich auch
Lehre für verschiedene Bereiche in Bezug auf kognitive Systeme, digitale Signalanalyse
für Medizintechnik und auch darüber hinausgehende Sachen wie Wie kann ich
eigentlich Fairness und Bias in KI gut bewerten? Wie kann ich coole Seminare anbieten,
wo Studis mal Chatbots bauen können? Das sind so Sachen, wo ich eine Lehre mache.
Und privat dreht sich eigentlich alles darum, irgendwie Probleme zu sehen und
irgendwie gucken, wie man die cool lösen kann. Ich habe ein bisschen angefangen,
meine Wohnung mit Smart Home auszurichten, um ein paar Prozesse zu vereinfachen.
Klappt noch nicht immer, aber das sind so Sachen, mit denen ich mich gerne
beschäftige. Klingt spannend. Da gibt es zwischen uns auf jeden Fall viele
Überschneidungen.

00:01:47 SPEAKER_01
zwischen uns auf jeden Fall viele Überschneidungen. Ich würde einfach mal mit der
Leitfrage starten. Was ist KI für dich? KI ist ein super spannendes Tool und Werkzeug,

00:01:55 SPEAKER_02
ist ein super spannendes Tool und Werkzeug, das sich dadurch auszeichnet, dass man
es in vielen Fällen nochmal genau verstehen muss, wie es anzuwenden ist. Dass es hilft
an den Stellen, wo wir selber nicht wissen, warum gewisse Entscheidungen auf eine
gewisse Art und Weise getrofen werden oder wo sich Systeme oder Prozesse auf eine
bestimmte Art und Weise verhalten, zu gucken, woran kann das liegen. Und das dann
sozusagen anwenden auf neue Bereiche. Also KI ist für mich sozusagen eine
werkzeugende Methodik, die wir noch verstehen müssen, die wir besser machen
müssen, um Probleme zu lösen. Da gehe ich mit.

00:02:29 SPEAKER_01
Heute bist du hier für ein Projekt, mit dem du dich schon länger beschäftigst, wo auch KI
im Einsatz ist. Und zwar zum Thema Stimmenanonymisierung. Worum geht es da genau
oder was für ein Problem möchtest du eigentlich lösen?

00:02:42 SPEAKER_02
Das Kernproblem hast du schon genannt. anonymisieren wollen, wenn sie mit Systemen
sprechen. Da fragt man sich erstmal, warum muss man das machen? Aber ich stelle dir
mal vor, dass man in der Bahnhofshalle im Museum sprachgestützt irgendwelche
Systeme bedienen kann. Da ist es ja eigentlich nur wichtig, dass die Systeme verstehen,
was man von denen will. Es ist aber nicht unbedingt wichtig, dass die wissen, dass jetzt
David Döring oder Ingo Siegert, sondern dass die die Aufgabe lösen. Dass es also damit
nicht mehr möglich ist, so eine Art Profl anzulegen, an welchen Warnhöfen taucht David
Düring auf und kauft sich eine Fahrkarte oder in welches Museum geht Ingo Siegert, um
dort sich Dinge anzugucken. Das ist sozusagen ein Aspekt. An vielen Stellen ist natürlich
die Stimme auch ein sehr wichtiges biometrisches Merkmal, was manchmal auch eine
Weiterverwertung von Daten erschwert. Wenn wir jetzt zum Beispiel in Richtung
Medizindaten gehen, Sprachpathologien, also verändert sich die Stimme durch
bestimmte Operationen oder wie verändert sich die Stimme aufgrund von
Neurodegenerativen Erkrankungen. Da gibt es super viele Modelle, die vielleicht auch
eine Vorhersage trefen können, ab wann eine Krankheit wirklich einsetzt oder ab wann
die so stark ist, dass gewisse Beeinträchtigungen des Lebens da sind. Die Modelle
haben das Problem, dass sie daran kranken, zu wenig Daten zu haben, um damit
arbeiten zu können. Das liegt vor allem daran, dass ich die Daten, die ich innerhalb einer
Einheit eines Krankenhauses, einer Versorgungsstation erhebe, nicht mit anderen Daten
zusammenbringen kann, um bessere Modelle zu trainieren. Weil dort natürlich die
Sprecherinformation immer drin ist. Wenn ich die Daten anonymisieren kann, habe ich
dieses Problem gelöst und kann dann mehr Daten, bessere Daten zusammenbringen.

00:04:21 SPEAKER_01
Wenn du von Modellen redest, du meinst KI -Modelle.

00:04:25 SPEAKER_02
Genau, da meine ich KI -Modelle. Also was man klassisch so in Filmen sieht, wenn es
um Anonymisierung von Bankräubern oder Kriminellen geht, ist das immer so, dass die
irgendein Filtermechanismus darüber jagen. Dann klingt die Stimme tiefer oder dann
klingt die Stimme höher oder dann ist die verrauschter. Das sind alles Sachen, die kann
ich wieder… Die kann ich wieder zurückrechnen. Dann kann ich wieder die
Originalstimme hören. Worum es bei uns geht, ist, dass wir quasi ein KI -Modell
entwickeln wollen, was Originalsprache einer Sprecherin, eines Sprechers aufnimmt.
Dort die individuellen Sprechercharakteristiken extrahiert, gegen andere universelle
oder sehr unähnliche Sprechercharakteristiken austauscht und am Ende wieder einen
Audio -Stream. der noch das gleiche sagt, aber von einer anderen Sprecherin, einem
anderen Sprecher eingesprochen ist. Also es geht darum, diesen Voiceprint, der
sozusagen das eineindeutige, das Besondere, das Speziellere für bestimmte
SprecherInnen ausmacht, auszutauschen.

00:05:22 SPEAKER_01
Könnte man mit der Technologie auch unsere Stimmen zum Beispiel gleich klingen
lassen?

00:05:26 SPEAKER_02
Ja, also man könnte Aufnahmen von dir nehmen, Aufnahmen von mir nehmen und
unsere Stimme austauschen. Das, was ich sage, auf einmal von dir eingesprochen wird
oder das, was du sagst, von mir gesprochen wird. Das geht relativ gut. Was man auch
relativ gut hinbekommt, nicht unbedingt in Echtzeit, ist, dass die Stimme auch genau
das in der gleichen Art und Weise, wie du es gesagt hast, sagen würde. Also in der
gleichen Rhythmus, in der gleichen Tonalität. Das würde auch klappen. Das klappt noch
nicht in Echtzeit, aber ein bisschen Versatz ist da drin, aber das sind auch
Möglichkeiten. Also es ist quasi so ähnlich wie ein Text -to -Speech -System, also ein
System, was aus Sprache wieder Text macht. Das ist sozusagen ein Teil davon, weil da
geht es ja auch darum, ich habe schon eine gewisse Grundsprecher. Identität, die halt
Texte spricht und wir benutzen dann noch ein zweites Modell, das halt diese
Informationen aus dem Audio Stream rauszieht und da noch diese Sprecher einen
Sprecheraustausch macht.

00:06:16 SPEAKER_01
Also du gehst da ja jetzt schon so über verschiedene Charakteristika von Sprache. Was
zählt denn da so dazu?

00:06:22 SPEAKER_02
zählt denn da so dazu? Genau, das ist ja auch das Gebiet, aus dem ich komme. Also
Sprachinhalt ist natürlich die Ebene, die wir alle immer benutzen, damit wir uns
verständigen können. Was noch hinzukommt, ist dann sowas wie Emotionalität, also
wie drücke ich gewisse Dinge aus, Tonalität spreche ich sehr schnell oder sehr langsam,
betone ich bestimmte Sachen, kommt dann noch mit rein, Rhythmus, Melodie. Die
ganzen Sachen sind sehr entscheidend, um auch einer Stimme nicht nur einen
bestimmten Stimmabdruck zu geben, sondern auch einen bestimmten Sprechausdruck
mit dazu zu geben. Was zeichnet… deiner Meinung nach Sprache,

00:06:54 SPEAKER_01
zeichnet… deiner Meinung nach Sprache, hier speziell auch im Sinne von Daten, jetzt
gegenüber, ich sage jetzt mal klassischer Statistik aus? Oder vielleicht auch, wo gibt es
deiner Meinung nach Gemeinsamkeiten? Die ganz große Gemeinsamkeit ist,

00:07:09 SPEAKER_02
ganz große Gemeinsamkeit ist, dass, wenn man jetzt guckt, wie kann ich Sprache
technisch beschreiben, ich eigentlich sehr, sehr nah dran bin an einem statistischen
Modell. Was dafür genommen wird, ist, dass man sagt, okay, ich habe eine Anregung,
das ist zum Beispiel ein Rauschen, das wird durch eine gewisse Art von Modulation
verändert, bei der ich dann mit sehr guten Methoden aus der Statistik testen kann, wie
gut stimmt mein Modell, was jetzt die Sprache erzeugt mit dem realen Sprachsample
überein, um das dann sozusagen anzugleichen und Fehler auszumerzen. Also eigentlich
benutzen wir für sehr viele Anwendungen in der klassischen Sprachanalyse statistische
Methoden, die halt Mischverteilungen modellieren, die Distanzen zwischen
Mischverteilungen berechnen und versuchen, das zu minimieren. Problem ist dann
meistens nur, dass ich halt nicht einfach nur eine stationäre Mischverteilung habe,
sondern sehr viele sich über die Zeit noch ändern und damit quasi die
Berechnungsmethodiken einfach komplizierter werden.

00:08:10 SPEAKER_01
Wenn du jetzt über Sprachen redest, also wenn die analysiert werden, Wie kann ich mir
das technisch vorstellen? Sind das einzelne Datenpunkte, wie man das jetzt in einem
Audioprogramm sieht, wo dann die Ausschläge einzeln betrachtet werden oder werden
die noch irgendwie vorher vorverarbeitet?

00:08:29 SPEAKER_02
Klassisch das, was wir sozusagen an Daten reinstecken, sind erstmal die einzelnen
Ausschläge über die Zeit, die halt quasi darstellen, okay, wie laut ist zum gewissen
Zeitpunkt die Information aufgenommen worden. Meistens wird das sofort übersetzt in
die Frequenzanalyse, also wie stark sind bestimmte Frequenzanteile in einem
bestimmten Sprachabschnitt oder einem bestimmten Zeitabschnitt gesagt worden. Das
ist sehr hilfreich, um zum Beispiel sehr schnell unterscheiden zu können, bricht dort ein
Mann, eine Frau oder ein Kind, weil sich bei denen sehr stark die Grundfrequenzen von
unterscheiden. Also Frauen haben meistens eine höhere Stimme, Kinder eine noch
höhere Stimme, das kann ich sehr gut unterscheiden. Und dann kann ich auch
hinzufügen noch Informationen. die mir diese Änderung in der Frequenz sehr gut
beschreiben können. Das sind dann meistens davon abgeleitete Merkmale, wo es halt
darum geht, zusätzlich zu der Anregungsfrequenz noch die Veränderung im Vokaltrakt
irgendwie zu modellieren. Das ist eigentlich nur eine Art von Filter, der für verschiedene
Frequenzbereiche mir sagt, wie stark dieser Filterbereich oder wie stark dieser
Frequenzbereich entsprechend modelliert wurde. Wenn du jetzt so eine Audioaufnahme
bekommst und die verarbeitet wird,

00:09:37 SPEAKER_01
du jetzt so eine Audioaufnahme bekommst und die verarbeitet wird, machst du erstmal
irgendwie Vokalabbildungen daraus? Oder wie muss ich das verstehen? Also eigentlich
geht es gar nicht darum,

00:09:45 SPEAKER_02
eigentlich geht es gar nicht darum, Vokalabbildungen zu machen, sondern es geht
darum, eine Frequenzanalyse zu machen, um quasi Spektrogramme als Bilder zu
bekommen. Das sind dann meistens so eine Art Heatmaps, die einem zeigen, auf der x –
Achse ist die Zeit, auf der y -Achse sind die Frequenzen. Und dann kann man sehen,
welche Frequenzabschnitte wie stark zu einem bestimmten Zeitpunkt aktiv waren. Dann
habe ich quasi ein Spektrogramm. bei dem ich über die Zeit der Aufnahme auf der x –
Achse für die y -Achse, die die Frequenzen darstellt, zeigen kann, wie stark war, welcher
Frequenzanteil zu welchem Zeitpunkt aktiv. Um dann zu sehen, hat sich die
Grundfrequenz geändert? Das sind dann meistens aktivere Bereiche, die meistens heller
dargestellt werden in den unteren Frequenzen. Oder wie ist das bei den oberen
Frequenzen passiert, die dann meistens Vokale und Konsonanten ausdrücken,
manchmal aber auch so ein bisschen Emotionalität. Also wenn sich die Stimme
überschlägt, dann sieht man auch, Sehr starke Veränderungen in dem Spektrogramm
oder auch nicht. Und das ist eigentlich das, was man heutzutage in das KI -Modell
reingibt. Und das kann dann lernen, wie sich verschiedene Sprecher in einem
Spektrogramm voneinander unterscheiden, wie sich verschiedene Vokale oder
Konsonanten im Spektrogramm voneinander unterscheiden oder was auch immer ich
unterscheiden muss. Problem dafür ist, wie immer, ich brauche sehr viele Daten, bei
denen ich genau weiß, was da passiert ist und wie es sich ändert.

00:11:03 SPEAKER_01
Wie kann ich mir das vorstellen? Wie viele Daten werden da so normalerweise
gebraucht für solche KI -Modelle, wie du sie jetzt beschrieben hast bisher? Das hängt
davon ab,

00:11:12 SPEAKER_02
hängt davon ab, wie viel Vorwissen ich in die KI -Modelle reingeben kann und wie groß
die Variation innerhalb der Daten ist, die ich abbilden möchte. Wenn es also darum geht,
zum Beispiel sehr deutlich ausgeprägte Emotionen voneinander zu unterscheiden. von
Sprecherinnen, die ich festgelegt habe, die ich zu mir ins Turnstudio einlade und die
dann Aufnahmen machen mit sehr explosiven Emotionen, also jemand, der sehr, sehr
ärgerlich spricht, der sehr, sehr ängstlich spricht, der sehr, sehr gelangweilt spricht,
dann reichen 20 Minuten Sprachmaterial aus, um diese emotionalen Unterschiede sehr
deutlich voneinander unterscheiden zu können. Wenn es aber darum geht, dass ich das
für alltägliche Probleme machen möchte. Also ich habe sehr viele verschiedene
SprecherInnen, die sehr unterschiedlich sprechen. Die Emotionen sind nicht mehr so
deutlich ausgeprägt. Ich habe Hintergrundgeräusche, ich habe verschiedene
Aufnahmeszenarien. Dann reden wir hier schon von mehreren Stunden
Aufnahmematerial, das ich dafür brauche, um das gut unterscheiden zu können. Das
skaliert natürlich, wenn ich dann noch mehr Variationen drin haben möchte in dem Alter
der SprecherInnen, in der Sprache des Materials, das ich betrachten möchte. in der
Vielfalt der emotionalen Reaktionen, dann brauche ich da hundert oder tausende von
Stunden von Sprachmaterial. Und das ist immer das Problem, so viel hat man meistens
gar nicht, weil Sprache irgendwie zu sammeln ist super aufwendig.

00:12:33 SPEAKER_01
Also da kam jetzt schon so ein bisschen raus, du hast auch ein eigenes Tonstudio, womit
du diese Daten sammelst?

00:12:38 SPEAKER_02
Genau, also wir haben bei uns am Institut eine Sprecherkabine, sozusagen ein sehr, sehr
kleines Tonstudio, was ja den großen Vorteil hat, dass ich dort wirklich eine echofreie
Kammer habe, wenn man da drin steht und Aufnahmen macht. ist das manchmal ein
bisschen seltsam, weil die Stimme hört sich auf einmal komplett anders an. Man hat gar
keinen Raumklang mehr, der irgendwie noch einen Einfuss hat. Das machen wir vor
allem, um Sprachaufnahmen in kontrollierten Bedingungen zu verändern, also
Hintergrundgeräusche einzuspielen, gewisse Art von Raumklang mit zu verändern oder
Umgebungsneues oder Bevel einzuspielen. Sonst versuchen wir halt wirklich auch
realere Aufnahmen zu kriegen, wo wir dann natürlich gucken müssen, wie gut können
wir das kontrollieren.

00:13:16 SPEAKER_01
Wenn ich das richtig verstehe, also nicht alle Aufnahmen kommen von dir selber.

00:13:20 SPEAKER_02
Nee, genau. Also wir versuchen schon auch eine große Varianz in den Daten
herzukriegen, sonst hätte man ja nur meine mittelalte weiße Stimme, die jetzt Daten
einspricht. Das hilft, um vielleicht mich zu erkennen, aber nicht um ein möglichst
robustes Modell, was in allen Situationen funktioniert, zu haben.

00:13:35 SPEAKER_01
Woher bekommt ihr sonst so noch andere Daten?

00:13:39 SPEAKER_02
Auf der einen Seite versuchen wir selber Daten zu erstellen, wo wir halt sagen, gut, okay,
für ein gewisses Problem designen wir uns ein Experiment, das wir zum Beispiel letztens
hatten. Wir wollten wissen, wie gut können eigentlich Spracherkenner Sprache
erkennen, wenn Personen wirklich körperlich belastet sind. Bisher gibt es dazu schon
ein paar Datensätze, die haben aber wirklich eigentlich untersucht, wie gut können
Menschen, wenn sie körperlich belastet sind, noch Texte vorlesen. Das ist nicht
unbedingt das Gleiche, wenn die jetzt spontan Befehle geben müssen oder spontan mit
anderen Personen reden müssen. Also haben wir dafür ein Experiment designt, wo wir
halt Leute einmal bei uns auf ein Laufband gestellt haben, mit einem EKG überwacht
haben, wie stark ist die Belastung und haben die dann Befehle sagen lassen. Und das
gleiche haben wir nochmal gemacht, indem wir sie bei uns durchs Treppenhaus gejagt
haben und dann immer von einem Büro zum anderen mittelschwere Pakete ausliefern
mussten. Das kann man machen, da kriegt man vielleicht mit mittelgroßem Aufwand so
30 Personen zusammen, die halt diese Aufgabe erfüllen. Das reicht aus, um so erst
Analysen durchzuführen, aber es reicht natürlich nicht aus, um ein komplettes Modell
zu trainieren. Dafür, auch im Sinne der Reproduzierbarkeit und Vergleichbarkeit mit
anderen Forschungsgruppen, gibt es sogenannte Benchmark -Datensätze. Das sind
meistens dann in einem größeren Kontext erhobene Daten, die dann genutzt werden für
eine gewisse Aufgabenstellung und die dann auch von vielen verschiedenen
Forschungsgruppen genutzt werden, um halt Modellverbesserungen,
Konzeptverbesserungen auch miteinander vergleichen zu können.

00:14:58 SPEAKER_01
Wie würdest du einschätzen, wie ist der Wert von so zusätzlichen Tonaufnahmen für
dich? Also wie viel Aufwand würdet ihr betreiben, um weiteres zu bekommen? Das hängt
immer davon ab,

00:15:08 SPEAKER_02
hängt immer davon ab, für welche Fragestellungen wir untersuchen wollen und ob es
dafür auch schon geeignete Daten gibt. Wenn es jetzt darum geht, vielfältige
Sprachdaten zu erhalten von verschiedenen Sprechern in verschiedenen Umgebungen
mit Emotionen, denn gibt es dafür schon super viele Datenbanken, die man benutzen
kann, die man auch verbinden kann, um Daten zu erhöhen. Wenn es aber darum geht,
zum Beispiel Sprachmaterial von marginalisierten Geschlechtern zu bekommen, da gibt
es kaum Daten zu. Das muss man selber aufnehmen. Oder wenn es darum geht, Daten
zu bekommen von Personen, die unterschiedliche Zustände haben, dass sie zum
Beispiel krank sind und gesund sind oder die eine gewisse Aufgabe erfüllen, gerade mit
der deutschen Sprache manchmal, dann ist es schwierig, da gute Daten zu bekommen,
weil da gibt es noch nicht so viel. Dann lohnt es sich auch für uns, da mal Aufwand
reinzustecken und die Daten zu erheben. Die Schwierigkeit dabei ist natürlich, dass das
Erheben von Daten nicht nur damit verbunden ist, dass ich irgendwo ein Mikrofon
hinhänge und Daten aufnehme, sondern ich muss überlegen, okay, wie kann ich dafür
sorgen, dass ich die richtigen Daten bekomme, dass die Personen auch die richtigen
sind, dass ich keine anderen Efekte habe, die ich vielleicht nicht kontrollieren kann, die
einen Einfuss auf die Datenqualität haben können. Und in dem Moment, wo ich sage,
ich möchte Daten erheben für eine gewisse Aufgabe, muss ich halt auch immer einen
Ethikantrag stellen, damit ich die Daten auch aufheben kann. sauber benutzen kann.

00:16:29 SPEAKER_01
Wahrscheinlich brauchst du dann auch immer noch Vergleichswerte. Also zum Beispiel,
wenn jetzt von einer kranken Person was aufnehmen möchtest, brauchst du natürlich
auch den gesunden Zustand der Person.

00:16:38 SPEAKER_02
Genau. Und das müssen wir natürlich auch gucken. Entweder wir können das selber
einschätzen oder wir holen uns Expertinnen dazu, die uns dann unterstützen. Zum
Beispiel bei den EKG -Aufnahmen. Das haben wir mit der Arbeitsmedizin zusammen
durchgeführt. Es gibt halt auch manchmal standardisierte Fragebögen, die man
austeilen kann, wo die Personen selber bewerten können, die zu gewissen Sachen
stehen oder sowas.

00:16:57 SPEAKER_01
Du hast vorhin auch Beispiele genannt, wie Stimmen, die wütend sind oder Stimmen,
die traurig sind. Ich schätze mal nicht, dass ihr das wirklich simuliert. Das wird ja
wahrscheinlich eher so passieren, dass das dann Schauspieler sind. Wie groß ist da
deiner Meinung nach der Einfuss zwischen Schauspielern und, ich sag jetzt mal, echten
Stimmenaufnahmen? Ja,

00:17:16 SPEAKER_02
wenn es jetzt wirklich darum geht, ich möchte dediziert eine gewisse Emotion haben,
die sehr expressiv ist. Denn in den Anfangszeiten wurde immer auf Schauspielerinnen
zurückgegrifen, weil die natürlich sehr gut da drin sind. eine gewisse Emotion auch
natürlich rüberzubringen. Später ist man dazu übergegangen, Situationen zu schafen,
die gewisse Emotionen hervorrufen, um das dann dafür zu nutzen, dass Personen in
einer gewissen Art und Weise auch emotional reagieren. Das geht manchmal ganz
einfach. Man setzt die bei uns vor einem Computer, dann müssen die irgendeine
Aufgabe lösen und dann macht der Computer nicht das, was die Personen gerne wollen,
das der Computer macht und dann werden die leicht. Und je weiter man das treibt,
desto mehr Verärgerung kann man in die Stimme setzen. Oder man kann damit auch
Verwirrung bringen oder sowas in der Art. Das ist dann, wenn man das akustisch mal
vergleicht, relativ ähnlich zu dem, was die Schauspielerinnen eingesprochen haben, nur
nicht so stark expressiv. Wenn es natürlich darum geht, dass man irgendwie wirklich
Emotionen im natürlichen Alltag haben will, wo es vor allem so um feine Nuancen geht,
dann wird das Experiment halt aufwendiger, weil ich dafür sorgen muss, dass wirklich
Leute längerfristig an irgendeiner Aufgabe machen und damit arbeiten. Dann ist das
Problem, dass ich am Ende gar nicht mehr genau weiß, okay, wann ist denn welche
Emotion aufgetreten? Und dann brauche ich zusätzliche Experten, Annotatoren, Rater,
die dann diese Daten anhören und bewerten. An der Stelle für die und die Zeit ist die und
die Emotion dort aufgetreten. Und dann muss ich halt vorher genau kodifzieren, woran
kann ich das erkennen, wie möchte ich das gerne bewertet haben. Das ist auch
nochmal super Aufwand, den man dort reinstecken kann. Aber wenn man solche Daten
einmal hat, sind die natürlich sehr wertvoll, weil dann auch sehr… feine Nuancen in
Emotionalitäten enthalten sind.

00:18:54 SPEAKER_01
Jetzt nehmen wir mal an, du hast jetzt erfolgreich die Daten gesammelt. Was passiert als
nächstes? Also wenn du jetzt sagst, du trainierst KI -Modelle damit, was für KI -Modelle
trainierst du? Beziehungsweise unterscheiden die sich jetzt groß von zum Beispiel
großen Sprachmodellen, die ja jetzt allgemein bekannt sind oder eben vielleicht auch
klassischeren Modellen aus der Datenanalyse?

00:19:15 SPEAKER_02
Das kommt so ein bisschen darauf an, was für einen Anwendungsfall man machen
möchte. Also wenn ich jetzt sagen möchte, ich hätte gerne ein Modell, was mir
Emotionen unterscheidet, dann nimmt man heutzutage auch Modelle, die so ähnlich
funktionieren wie große Sprachmodelle. Sprich, das sind Neuronalnetze mit tiefen
Strukturen. Denen gebe ich dann die Sprachdaten als Spektrogramm, sprich als
Übersicht, wie ändert sich über die Zeit die Frequenz von der Aussage. und trainiere das
Modell dann so, dass es diese Dinge gut unterscheiden kann. Ein bisschen
Parameteranpassung noch, verschiedene Epochen dafür nehmen. Das ist sozusagen
die Idee dabei. Wenn es darum geht, dass ich zum Beispiel ein Modell haben möchte,
was selber zum Beispiel Sprache generiert, dann nehme ich halt die klassische Virtual
Autoencoder mit einem Decoder -Encoder -Part. wo es dann darum geht, dass im ersten
Bereich Stimmen generiert werden und im zweiten Teil quasi geguckt wird, wie natürlich
klingen die Stimmen. Also ist das zweite Modell in der Lage, die künstlich erzeugten
Stimmen von realen Stimmen Samples zu unterscheiden. Und beide Modelle werden
halt dann so trainiert, dass sie möglichst optimal werden. Sprich, im ersten Teil geht es
darum, kann ich gut Stimmen generieren? Und solange das zweite Modell in der Lage ist,
den Unterschied noch zu machen, muss das erste Modell trainiert werden und das
zweite Modell wird halt immer weiter darauf trainiert. diese Unterschiede auch wirklich
für kleine Nuancen zu erkennen und das sozusagen anzupassen.

00:20:37 SPEAKER_01
Also mit anderen Worten, die KI -Modelle, die du da benutzt, die verbessern einander.
Während das eine versucht zu erkennen, ist jetzt hier die synthetisierte Stimme, ist sie
jetzt wirklich synthetisch oder ist sie echt? Und das andere versucht sozusagen, das
erste wiederum immer wieder auszutricksen. Genau,

00:20:46 SPEAKER_02
sie echt?

00:20:51 SPEAKER_02
Genau, vielen Dank. Besser hätte ich es nicht ausdrücken können. Gut.

00:20:54 SPEAKER_01
Was ist deiner Meinung nach dein wichtigstes Erkenntnis aus diesem Projekt? dem
gesamten Bereich so Stimmenanonymisierung, womit du dich beschäftigt hast?

00:21:05 SPEAKER_02
Personen, die wissen, wofür Daten benutzt werden und was damit passiert, die sind
eher bereit, Daten auch bereitzustellen, aber sie müssen halt den Systemen auch
vertrauen. Und das ist manchmal die Schwierigkeit, dass gerade, wenn es irgendwo
heißt, da wird ein KI -Modell benutzt, dass dann die Angst manchmal überwegt, oh Gott,
was macht das KI -Modell jetzt mit meinen Daten? Und dass man halt zusätzlich zu der
eigentlichen methodischen Entwicklung auch dafür sorgen sollte, dass mehr
Bewusstheit darüber herrscht, was ist eigentlich das KI -Modell, was macht das auch
anders und warum braucht es vielleicht auch viele Daten, die aber am Ende vielleicht
gar nicht mehr relevant sind oder länger gespeichert werden. Also manchmal ist es fast
gefährlicher, die Daten irgendwo zu speichern und dann guckt da jeder irgendwie, hören
sich das Expertinnen an, als das in einem KI -Modell zu machen. Das ist manchmal so
ein bisschen die Schwierigkeit.

00:21:56 SPEAKER_01
Gut, das ist ja ungefähr auch das, was wir mit dem Zaki erreichen wollen. Genau,

00:22:00 SPEAKER_02
das ist sehr ähnlich dazu.

00:22:02 SPEAKER_01
Wohin geht deiner Meinung nach die nächste Entwicklung in dem Bereich?

00:22:08 SPEAKER_02
Boah, das ist super schwierig vorherzusagen. Ich glaube, was jetzt als nächstes
passieren wird, ist, dass wir gerade Sprachmodelle irgendwie mehr einsetzen in
unterschiedlichen Feldern. Und was als nächstes passieren müsste, ist eigentlich, dass
die wieder portabler werden, also dass die auch… besser auf Systemen genutzt werden
können, ohne immer Cloud -Infrastruktur oder riesen GPU -Rechner dafür zu brauchen.
Und dass es einfacher wird, die auch auf die eigenen Anwendungsfälle irgendwie
anzupassen. Das wären so die Entwicklungen, wo ich denke, da wird noch viel
passieren.

00:22:39 SPEAKER_01
Und womit beschäftigst du dich jetzt aktuell konkret?

00:22:42 SPEAKER_02
Also was wir festgestellt haben, ist bei der Anonymisierung geht es eigentlich darum zu
sagen, ich bin am Ende nicht mehr in der Lage, den Original… Sprecher,
Originalsprecherin zu erkennen, weil der neue Stimmabdruck des analysierten
Sprechers weit genug weg ist vom Originalen. Es gibt aber noch nicht viel Forschung
dazu, wie viel weit genug weg eigentlich wirklich weit genug weg ist. Anders versuchen
wir gerade zu gucken, wie sich eigentlich so die Intra – und Inter -Voiceprint -Variabilität
über verschiedenste Aspekte verändert.

00:23:13 SPEAKER_01
Gut, danke. Dann wünsche ich euch damit noch weiter viel Erfolg. und bedanke mich für
die Unterstützung beim Podcast. Sehr gerne. Vielen Dank für die Einladung.

00:23:24 SPEAKER_00
Der KI Insights Podcast ist eine Initiative des Projekts Zaki, der zentralen Anlaufstelle für
innovatives Lehren und Lernen interdisziplinärer Kompetenzen der KI der Hochschule
Magdeburg -Stendal, gefördert vom Bundesministerium für Bildung und Forschung.

Weitere Artikel zum Thema