© Stockphoto - Projekt ZAKKI
Innovativer Mixture-of-Experts-Ansatz, frei zugängliches Modell, hohe Rechenleistung – das chinesische KI-Modell DeepSeek-R1 zeigt im Vergleich zum Llama-Modell von Meta deutliche Leistungssteigerung, polarisiert andererseits aber stark in Bezug auf Datenschutz und Sicherheit. In dieser Folge von KI Insights diskutieren Prof. Dr.-Ing. Sebastian von Enzberg und David Döring aus dem Projekt ZAKKI die technischen Details hinter DeepSeek und veranschaulichen in einem Live-Test die Grundprinzipien des Reasoning- und Chain-of-Thought-Ansatzes. Außerdem sprechen sie über die Bedeutung von Open Source im Kontext von KI, die Gefahr wertebedingter Einschränkungen und über die aktuellen Bedenken zur Sicherheit Nutzendendaten.
Moderation: Sebastian von Enzberg, David Döring
Schnitt & Text: Julia Fritz
Transkript Stafel 3, Folge 03 mit Sebastian von Enzberg und David Döring
00:00:04 SPEAKER_00
Willkommen bei KI Insights, ein Podcast vom Projekt ZAKKI an der Hochschule
Magdeburg -Stendal. Hier teilen Expertinnen verschiedenster Disziplinen ihre Einblicke
in die facettenreiche Welt der künstlichen Intelligenz. In der dritten Stafel erwarten Sie
spannende Data Science Use Cases aus Forschung und Industrie, datengetriebene
Ansätze und Techniken des maschinellen Lernens sowie gesellschaftliche Fragen rund
um das Thema KI.
00:00:31 SPEAKER_01
Herzlich willkommen zum Podcast KI Insights vom Projekt ZAKKI. Mein Name ist
Sebastian von Enzberg. Ich bin heute hier mit David Döring aus dem Projekt von ZAKKI,
unser Experte für das Lab AI Analytics. Herzlich willkommen. Hallo. Wir hatten heute
uns einmal vorgenommen, eine Folge zu machen zum Thema DeepSeek, vor allem, weil
das DeepSeek -Modell, DeepSeek R1 -Modell, um genau zu sein, in den letzten Wochen
durch die Medien ging und da einige Diskussionen und auch Beiträge, auch
Zeitungsartikel und Teamsbeiträge entstanden sind, die auf das Thema eingehen. wo wir
uns gedacht haben, okay, da fehlt teilweise vielleicht auch ein bisschen der technische
Hintergrund, um das zu verstehen. Die gehen teilweise vielleicht auch nicht ganz richtig
mit den technischen Gegebenheiten um und wir wollten das mal als Gelegenheit
nutzen, das etwas einzuordnen und zwar auf einem grundlegenden technischen Level,
was auch ein bisschen fernab ist vielleicht dieses News -Gedanken, sondern halt
wirklich auf die Technologie dahinter eingeht. Zunächst einmal, was war denn aus
deiner Sicht der Grund, weshalb das DeepSeq -Model, also insbesondere das DeepSeq
R1 -Model so in den Medien durch die Decke ging und so krass diskutiert wurde?
00:01:35 SPEAKER_02
Zuallererst würde ich sagen, dass genau wie bei ChatGPT auch der Release einer
kostenlosen App da ganz weit vorne ist. An der Stelle dann eben eine kostenlose App,
die eben ein Reasoning -Model kostenlos zur Verfügung stellt, was ja sozusagen bei
ChatGPT noch ein Premium -Feature immer war. Dazu dann wahrscheinlich auch eine
ganze Menge an Marketing, um eben diese App in sehr kurzer Zeit Ende Januar zu
pushen.
00:02:02 SPEAKER_01
Ja, wir haben auch nochmal nachgeschaut, das DeepSeq R1 Lite Release, also die erste
Version, die der Öfentlichkeit zur Verfügung gestellt wurde, war sogar im November
letzten Jahres, also im November 2024 bereits. Das ist ja dann doch gut zwei Monate
nach dem ersten Release, dass das volle R1 Modell released wurde und zwar aber auch
Open Source released wurde. Vielleicht sollten wir das mal erklären. Was heißt denn, du
hast gerade gesprochen von der DeepSeq App, dass es da eine App gibt. Das kann sich
sicherlich jeder vorstellen. Das ist ein Programm, was man sich auf sein Smartphone…
Tablet laden kann und nutzen kann. Jetzt habe ich aber auch gesagt, das Modell wurde
auch Open Source released. Was heißt das denn eigentlich?
00:02:38 SPEAKER_02
Zur Erklärung, hinter solchen Modellen stecken ja nach wie vor immer eigentlich nur
große Matrizen, also große Mengen an Zahlen. Während zum Beispiel die GPT -Modelle
von OpenAI, deren Matrizen, also diese Zahlenmengen, sind eben der Öfentlichkeit
nicht bekannt. Das heißt, es ist eben nicht so gut nachvollziehbar, was sie eigentlich tun.
DeepSeek hingegen hat eben diese Matrizen, die da im Hintergrund existieren, als
sogenannte Gewichtungen öfentlich gemacht und das erlaubt uns einerseits, ja auf
einer mathematischen Ebene so ein bisschen nachzuvollziehen, welche
Entscheidungen passieren dort in diesem Modell. Das wird typischerweise nicht
gemacht, weil das sehr tief dort reingehen würde. Was aber viel wichtiger ist, das erlaubt
es, eben auch freien Programmen diese Gewichtungen zu laden und dann das Modell
auszuführen.
00:03:32 SPEAKER_01
Okay, das heißt also, da steckt ein künstliches neuronales Netz dahinter und du hast
gesagt, dass es einfach sehr viele lineare Algebra in der Matrixoperation, mit denen das
berechnet wird. Und die Berechnungsgrundlage, also die Zahlenwerte dafür, die sind
einfach frei verfügbar, die kann sich jeder runterladen. Das heißt aber nicht, dass die
Daten dahinter jetzt verfügbar sind. Also vielleicht ist das nochmal auch spannend zu
erklären, was heißt jetzt, Was bedeutet es, die Gewichte verfügbar zu haben? Das heißt
ja nicht, dass Daten oder Trainingsdaten bekannt sind, ja? Soweit ich weiß,
00:04:01 SPEAKER_02
sind im Vergleich jetzt zu dem Lama -Modell, wo jetzt der Metakonzern, also der Konzern
hinter Facebook, relativ ofen darüber ist, auf welchen Daten trainiert wurde, ist das bei
DeepSeek nicht so umfänglich der Fall.
00:04:16 SPEAKER_01
Das ist ja auch sehr spannend. Es ging ja sehr durch die Nachrichten auch, dass es ein
Open -Source -Modell ist, also dass es jeder Herunterladung nutzen kann. Du hast
gerade gesagt, Meta, also der Facebook -Mutterkonzern und das Lama -Modell, das gibt
es ja auch schon seit Jahren. Das heißt also auch Open -Source -Modelle sind eigentlich
auch nichts Neues. Also auch das ist ja nicht unbedingt berichtenswert. Genau.
00:04:36 SPEAKER_02
Der Unterschied ist vielleicht, dass die Größe jetzt deutlich zugenommen hat. Der
Rechenaufwand hinter der Erstellung dieses Open -Source -Modells ist eben deutlich
größer. Also es wurde dafür, dass im Prinzip etwas, was Konzerne normalerweise geheim
halten, weil sie das eben selber anbieten wollen als Service, Also diese Gewichtungen,
die zu erzeugen, kostet sehr viel Geld, kostet sehr viel Rechenressourcen. Und je mehr
Gewichtungen es eben sind, also je größer dieses Modell ist, desto mehr Kosten
entstehen dann natürlich. Und desto wahrscheinlicher ist es dann natürlich, dass der
Konzern dahinter diese Gewichtungen geheim hält, um dann eben das Ganze einfach
nur als Online -Service anbieten zu können. Weil in dem Moment, wo die Gewichtungen
rausgegeben werden, und von jemand anderem benutzt werden, um ein Open -Source –
Modell eben zu betreiben, kann der Konzern dahinter eigentlich nichts mehr daran
verdienen. Und das Besondere eben für die Open -Source -Welt jetzt ist, dass die
Gewichtungen von DeepSeq eben frei sind, obwohl es so ein großes Modell ist, während
das Lama -Modell deutlich kleiner war bisher.
00:05:42 SPEAKER_01
Also ganz konkret, das DeepSeq -Modell ist ja ein 400B -Modell, das bedeutet, es ist
400… oder 405, um genau zu sein, 405 Milliarden Gewichte dahinter stecken. Ich meine,
das letzte Lama -Modell ist in der größten Version 70 Milliarden groß. Also 70 Milliarden
im Vergleich zu 405 Milliarden, was jetzt das Diebseek -Modell mitbringt. Du hast auch
davon gesprochen, dass es sehr viel Rechenzeit bedeutet. Ich habe nebenbei mal die
sogenannten Modellkarten aufgemacht. Das ist auch sehr spannend, weil auf diesen
Modelkarts oder Modellkarten auch ein bisschen die Randbedingungen des Trainings
genannt werden. Ich habe es tatsächlich jetzt nur für das Lama -Modell, also dieses 70 –
Milliarden -Modell einmal nachgeschlagen. Da stecken 7 Millionen Stunden Rechenzeit
dahinter. Wenn man diese 7 Millionen mal durch 24 teilt, hat man so die Tage. Wenn
man das durch 365 teilt, kommt es raus, ich mache das jetzt mal live, knapp 800 Jahre,
die das gerechnet hat. Das kann man natürlich reduzieren, indem man nicht nur eine
GPU nimmt, sondern… entsprechend einige Tausend davon nimmt, dann kann man
diese 800 Trainingsjahre in eine menschenhandelbare Zeit überführen. Genau.
00:06:47 SPEAKER_02
Und das skaliert dann natürlich größer bei größeren Modellen wie zum Beispiel
DeepSeek oder auch OpenAI -Modelle.
00:06:55 SPEAKER_01
Genau. Aber ein guter Indikator, wie viele Jahre eine GPU rechnen würde. Pro Kern 700
Watt Verbrauch. Also man kann auch, und das ist auch sogar öfentlich zugänglich, den
CO2 -Ausstoß, der bei Training passiert ist, sich anschauen. Also über 2000 Tonnen.
CO2 -Äquivalent, die dann ausgestoßen wurden. Das ist hier so ein bisschen die
Angaben, die von Meta tatsächlich auch öfentlich gemacht werden, um diesen
Hintergrund zu verstehen. Jetzt war aber auch groß eine Diskussion, dass DeepSeq mit
deutlich weniger Kosten trainiert wurde. Also die Zahlen sind so ein Zehntel der
Ressourcen oder Kosten wurden aufgebracht für das Training des Modells im Vergleich
zu dem Lama -Modell. Da stecken ja auch ein paar neue Grundansätze der Architektur
dahinter. Also sprich die Architektur. des neuronalen Netzes sieht etwas anders aus.
Das kann man vielleicht ganz kurz mal ansprechen, weil ich glaube, da gehen wir selten
in die Mathematik dann auch ein, um das zu erklären. Und wir haben ja eben schon
gesagt, neuronale Netze sind große Matrizenoperationen. Hinter dem Leipzig -Modell
stecken ja ein paar neue Modellansätze, wie zum Beispiel ein Mixture of Experts -Ansatz.
Vielleicht können wir mal versuchen, das in ganz einfachen Worten runterzubrechen,
ohne da zu tief reinzugehen. Ich glaube, dass der Name von Mixture of Experts das an
sich sogar schon relativ gut erklärt.
00:08:03 SPEAKER_02
von Mixture of Experts das an sich sogar schon relativ gut erklärt. Anstatt sozusagen ein
sehr, sehr, sehr großes Modell zu trainieren, was prinzipiell eben alles kann, werden
einzelne Teile dieses Modells im Grunde gezielt auf verschiedene Beispiele trainiert.
Zum Beispiel steckt dann dort ein Experte zum Thema Programmierung drin oder es
steckt ein Experte zum Thema Mathematik dort mit drin. Und dieser Mixture of Experts
Ansatz, der setzt im Grunde nur… Ein Modell dort ringsherum, was diese ganzen
Expertenmodelle ja enthält, nur entscheidet, für welchen Teil der Antwort welcher
Experte sozusagen genutzt werden soll. Also man kann sich das durchaus vorstellen,
dass dort einfach mehrere Experten an einem Tisch sitzen und anstatt dass ein einziger
das Wissen von allen hat, hat man einfach mehrere, die gemeinsam eine Lösung fnden.
Das ist tatsächlich auch ein Ansatz, der im Open -Source -Bereich schon länger jetzt
auch benutzt wurde, weil das eben die Möglichkeit bietet, auch auf relativ
kostengünstiger Heimhardware sozusagen Feintuning auf sehr kleinen Modellen zu
machen und dann eben viele Leute parallel ihre Experten entwickeln können und die
dann zu einem großen Modell kombiniert werden. Und das ist ziemlich genau auch das,
wo ich von ausgehe, dass Diebseek das gemacht hat.
00:09:29 SPEAKER_01
Ja, genau. Das hast du eigentlich sehr anschaulich gesagt. Also man trainiert nämlich
nicht mehr, das ist das eine allwissende riesige Netz, sondern diese 405 Milliarden
Gewichte sind eigentlich kleine Experten, die einfach deutlich einfacher trainierbar sind.
Und auch das ist nichts Neues. Also ich glaube, Mistral hatte mit dem Mixtral -Modell,
das ist jetzt einen der ersten so einen Mixtral -Expert -Ansatz, schon open -sourced, wer
da mal nachschlagen will. Also Mixtral ist vor knapp einem Jahr oder nur ein
Dreivierteljahr.
00:09:55 SPEAKER_02
vor knapp einem Jahr oder nur ein Dreivierteljahr. ziemlich weit in der Open -Source –
Community rumgegangen, wurde sehr, sehr, sehr beliebt, eben wegen diesen
Möglichkeiten. Und ein Vorteil, der sich daraus eben auch ergibt, diese Modelle sind
relativ einfach erweiterbar, indem man einfach weitere Experten trainiert und die dann in
das Modell mit einfiegt. Okay, das ist extrem spannend,
00:10:15 SPEAKER_01
spannend, was da im Training eigentlich dahinter steckt. Als Anwender, also wir, die
das… benutzen, ist dieses Training aber wahrscheinlich gar nicht so interessant. Also
sehr spannend zu wissen, dass da mehrere Experten im Hintergrund agieren, aber damit
haben wir als Endanwender ja gar nichts zu tun. Wir nehmen diese Gewichte sozusagen,
lassen es laufen und können es nutzen. Aber auch in der Art des Denkens, also in dem,
was man als Nutzer am Ende sieht, gibt es ja auch eine ganz wesentliche Neuerung,
auch das ist nichts Neues, aber eben einmal in einem Open -Source -Modell
zusammengebracht und zwar das Stichwort Reasoning. Und wer Diebzig schon mal
ausprobiert hat, An der Stelle kann ich vielleicht auch den Hinweis einmal machen. Also
über unsere Zaki -Seiten und kiuni .h2 .de müssten Sie jetzt auch schon Zugrif haben
auf das Chat -Modell. Und da kann man unter anderem auch unter der Academic Cloud
DeepSeek einmal ausprobieren. Wir können ein paar Beispiele vielleicht auch nochmal
verlinken. Und da sieht man ganz gut, wenn man eine Anfrage stellt, also einen Prompt
stellt, dann antwortet das System nicht gleich, sondern es denkt erstmal. Kannst du das
nochmal kurz erklären, was passiert in diesem Nachdenken und wieso nennt man das
Reasoning?
00:11:17 SPEAKER_02
Also das ist eigentlich ein Ansatz, der nannte sich früher, sage ich jetzt mal, also vor zwei
Jahren. Das ist schon so unglaublich lange her. Da nannte sich das eher noch Chain of
Thought. Da ging es eben darum, dass bei einer Antwort nicht einfach nur die Antwort
gegeben werden soll, was etwas ist, wo typischerweise Modelle hintendieren. Da
wurden dann stattdessen Prompts so geschrieben, dass das Modell zuerst die Antwort
begründen soll. und danach dann die Antwort geben soll. Das führte typischerweise
schon dazu, dass die Ergebnisse deutlich akkurater waren. Also dieses Chain of Thought
Prompting war in den Prompting -Strategien für lange Zeit, wenn man eine sehr hohe
Genauigkeit erzielen wollte, war das der Ansatz. Das Problem vom Chain of Thought und
auch das gleiche Problem eben vom Reasoning ist, dass es natürlich sehr viele Tokens
verbraucht. weil es eben erstmal einen langen Text generiert und dann aus diesem
langen Text eine kurze Antwort zusammenfasst. Und genau das ist auch das, was bei
Reasoning -Modellen passiert. Also OpenAI hat auch ein Reasoning -Modell. Das ist das
GPT -Decke, das O1 -Modell. Ja, genau. Und DeepSeek R1 hat eben auch so ein
Reasoning drin. Und das bedeutet einfach nur, dass dieses Modell gezielt darauf trainiert
wurde, eben diesen Chain of Thought oder eben dieses Reasoning zu machen und
daraus dann direkt automatisch das Ergebnis zu generieren, komplett ohne, dass man
das spezifsch erprumpen muss.
00:12:49 SPEAKER_01
erprumpen muss. Kann man sich als Mensch, glaube ich, auch gut vorstellen, dass man
jetzt nicht einfach nur eine Antwort gibt, sondern erst nochmal darüber nachdenkt,
vielleicht das Problem in Teilprobleme zerlegt. und dadurch im Prinzip schrittweise auf
die Antwort kommt, also versucht sich die Antwort herzuleiten. Und das hat natürlich
riesige Vorteile. Zum einen kann man komplexere Probleme dadurch lösen, wenn man
Schritt für Schritt denkt. Zum anderen hast du ja auch so eine Art Verifkation teilweise
mit eingebaut, dass man halt die Zwischenergebnisse auch nochmal hinterfragt. Und
ich glaube, das kann man sich auch als Mensch gut vorstellen, wenn man seinen
eigenen Denkprozess in dieser Art und Weise refektiert. Dann kommt man zu einem
besseren Ergebnis. Und genau das macht man mit diesem Chain of Thoughts. Und das
ist auch etwas, das können Sie auch mit bisherigen Chatbots ausprobieren. Also auch
das ist etwas, das kann man auch ein Modell ohne Reasoning einfach bitten. Nachdem
es das Ergebnis gibt, einfach nochmal hinterfragen, wie bist du eigentlich zu dem
Ergebnis gekommen? Und dann kriegt man auch ein normales Modell dazu, das zu
hinterfragen.
00:13:38 SPEAKER_02
Genau, es hinterfragt dann aber nur. Und das Besondere am Chain of Swords ist eben,
dass das Hinterfragen vor der Antwort passiert. Genau,
00:13:45 SPEAKER_01
das wäre jetzt genau der Punkt, der neu ist. Man würde es jetzt nicht über Prompting
machen, sondern du hast auch erzählt, dass das… mit antrainiert wurde, dieser
Denkprozess. Und das ist ja nicht das Vortraining, sondern so ein sogenanntes
Feintuning. Also es wurde halt feingetunt darauf, Schlussfolgerungsketten zu geben. Das
heißt also, es macht eigentlich immer eine Schlussfolgerungskette, ja?
00:14:04 SPEAKER_02
Sollte es zumindest fast immer tun. Also ich habe es auch schon in meinem
Ausprobieren. Direkt mit der API mehrfach gehabt, dass es das gar nicht getan hat. Das
lag dann aber eher daran, dass ich teilweise sehr technische Prompts gestellt habe. Da
überspringt es das dann ganz einfach, weil im Endefekt steckt immer noch genau die
gleiche Thermik dahinter, die eben auch diesen Chain of Swords überspringen können.
Auch ein paar politische Fragen,
00:14:27 SPEAKER_01
Fragen, da kommen wir vielleicht gleich nochmal drauf. Es gibt ein paar politische
Fragen, die man stellen kann, die auch verhindern, dass dieser Denkherzess angestoßt
wird. Ein anderer Aspekt, den du auch genannt hast, es werden mehr Token verbraucht,
hast du gesagt. Das heißt ja, es wird einfach mehr Text produziert, logischerweise durch
den Gedankengang. Wieso ist das ein Problem, wenn jetzt sehr viele Token, also sehr
viel Text im Hintergrund generiert wird?
00:14:48 SPEAKER_02
Also für alle Leute, die schon mal jetzt eine bezahlte Version, wo man dann tatsächlich
für das Benutzen bezahlen musste. Alle, die jetzt mit einer API zum Beispiel schon mal
gearbeitet haben, die wissen auch, dass das Erzeugen von Tokens nun mal das teure ist.
Der erste Schritt ist sozusagen, dass ein Modell… bei einer Eingabe sozusagen das
Bestehende, was bereits drin ist, in Tokens umwandelt und die als Kontextinformation
reingibt. Das ist meistens noch relativ günstig, aber auch da bezahlt man schon für
Tokens. Anschließend generiert es dann eben eine Antwort und das generieren das eben
der aufwendige Rechenprozess dabei. Und hier muss man eben wirklich verstehen,
dass jedes Token nacheinander generiert wird, wie wir das auch immer wieder, wenn es
um das Thema Sprachmodelle geht, nur wiederholen können. Und sozusagen ein
komplett neuer Rechenprozess wird für jeden einzelnen Token angestoßen. Das wird
schon sehr teuer und teuer sozusagen einfach in der Rechenleistung, die dafür benötigt
wird. Damit ist auch noch nicht Schluss, weil im Grunde sind diese ganzen generierten
Tokens, die sind ja dann natürlich in der Historie auch noch drin. Das heißt, wenn ich
jetzt also eine weitere Frage stelle, dann habe ich wieder mehr Kontextinformationen,
die vorverarbeitet werden müssen. Auch das ist wieder mehr Rechenleistung, die
benötigt wird und der Rechenaufwand schaukelt sich dann natürlich hoch.
00:16:07 SPEAKER_01
Das heißt, für das Antworten wird mehr Rechenzeit gebraucht. Also das merkt man
auch, die Antwort braucht länger. Man bekommt nicht sofort eine Antwort, sondern das
kann mehrere Sekunden dauern für eine Antwort. Wie du gesagt hast, es kostet auch,
verbraucht Ressourcen, Energie natürlich auch. Genau, der Kontext -Window ist eine
begrenzte Einheit. Die Systeme haben eine Grenze, wie viel in diesen Kontext -Window
passt. Die Gesamtmenge an Text wird natürlich damit auch reduziert. Das ist vielleicht
auch ein bisschen im Kontrast zu sehen. Wir hatten ja eben darüber gesprochen, dass in
den Nachrichten ganz groß verkündet wurde, dass es mit viel weniger Aufwand und
Kosten trainiert wurde. Da muss man halt auf der anderen Seite aber auch sehen, okay,
die sogenannte Inferenz, also das Nutzen, also das tatsächliche Führen des Gesprächs,
ist dafür aber deutlich aufwendiger. Prinzip einfach, dieses Prinzip des Schlussfolgerns.
00:16:56 SPEAKER_02
Ja, also es kommt immer auch darauf an, womit man es vergleicht. Also das Prinzip des
Schlussfolgerns an sich ist aufwendiger. Jetzt gegenüber anderen Reasoning -Modellen,
gegen die man es ja dann vergleichen sollte, ist es dann natürlich ähnlich aufwendig. Mit
dem Vorteil, dass eben das DeepSeq -Modell im Vergleich jetzt zu großen Reasoning –
Modellen generell schon relativ efizient ist, eben wieder durch dieses Thema Mixture of
Experts. Das heißt, wenn Expertenbereiche gar nicht gebraucht werden für eine Antwort,
dann wären die gar nicht angestoßen. Das geht etwas schneller. Und das ganze Thema
Distilling kommt auch noch dazu. Also was typischerweise betrieben wird, ist gar nicht
dieses große Deep Seek -Modell. Also das große Deep Seek -Modell, das ist zwar das,
was sozusagen diese ganzen Benchmarks gebrochen hat, also was oft gewinnt
gegenüber anderen älteren Modellen, was aber viel einfacher zu betreiben ist und auch
viel einfacher weiterzuentwickeln ist. sind sogenannte Distillmodelle. Da wurden
einfach anhand von automatisch generierten Textbeispielen und Antworten und eben
auch automatisch generiertem Reasoning von DeepSeq wurden sozusagen kleine
Versionen auf Basis von zum Beispiel dem Lama -Modell,
00:16:59 SPEAKER_01
Also das
00:18:08 SPEAKER_02
dem Gwen -Modell, auch dem Mistral -Modell, glaube ich, wurden sozusagen kleinere
Versionen antrainiert, die mit deutlich weniger Leistung betrieben werden können auch.
Okay, also wirklich so,
00:18:18 SPEAKER_01
so, wie Ihr Name schon sagt, ein Distillationsprozess, wo sozusagen die die Essenz des
Gelernten vom Lehrer, also von dem großen Modell, auf kleinere Modelle übertragen
wurden, was den Riesenvorteil hat, dass man diesen Chain of Thought -Prozess, der
antrainiert wurde, eben auch auf kleinere Modelle übertragen kann, also quasi diesen
Efekt dann vielleicht auch auf seinem Rechner, also wenn man eine gute Grafkkarte
hat, auch auf seinem Rechner einmal ausprobieren kann. Also eine ganze Reihe
Ansätze, die jetzt, die auch neu passiert sind, also um nochmal zusammenzufassen, wir
hatten Das Mixture of Experts als Ansatz, also sehr viele kleine Experten zu haben, statt
eines großen Allwissenden. Wir hatten dieses Reasoning der Schlussfolger und jetzt
auch noch diese Möglichkeit zu destillieren, also Wissen stark zu komprimieren. Also
sehr spannend, da mal einen Einblick zu haben, was im Hintergrund passiert. Dann ist ja
eine Frage auch, womit dieses Reasoning eigentlich antrainiert wurde. Und es gibt einige
Beispiele, die man sehen kann, dass das Modell, also auch das DeepSeek -Modell,
denkt, es ist gar nicht Diebseek, sondern auch manchmal denkt, es wäre eigentlich
ChatGPT. Vielleicht können wir darauf auch nochmal eingehen, wo kommt eigentlich
dieses Schlussfolger her? Womit wurde es antrainiert? Es gibt da verschiedene Ansätze.
Wir wollen da vielleicht gar nicht zu sehr ins Detail gehen, wie das Feintuning am Ende
passiert, aber vielleicht nur auf diesen Aspekt, inwiefern wurde denn da von ChatGPT
kopiert, wenn man davon sprechen kann?
00:19:35 SPEAKER_02
Genau, also OpenAI benutzt ja sozusagen da eine Methode, die nennt sich eben
Feintuning auf Human Feedback. Das basiert eben darauf, dass Menschen dort die
Antworten schrei geschrieben haben einmal und auf solchen Beispielen dann trainiert
wurde. Die Daten stammen eben zum Beispiel auch überall vom Internet, eben aber
auch von Angestellten von OpenAI. DeepSeq hat vermutlich, also sehr wahrscheinlich,
dort ein Feintraining auf Machine -Feedback sozusagen gemacht. Man könnte das schon
fast mit dem eben gerade erwähnten Distillation -Prozess vergleichen. Und zwar wurde
dieses Chain -of -Sword -Reasoning, beziehungsweise dieses Reasoning wurde genutzt
wahrscheinlich von OpenALs O1 -Modell, also dem GPT -O1 -Modell, dass eben dieses
Reasoning sehr gut kam und dann wurden einfach sehr viele Beispiele für Reasoning
generiert und anhand davon dann das Reasoning auch in DeepSeq. R1 rein trainiert.
00:20:35 SPEAKER_01
Das heißt, dieses Feintuning ist auch einfach automatisiert passiert über eine andere KI,
die am Ende so ein bisschen diese Bewertung mitgegeben hat. Also nicht die Ergebnisse
direkt, sondern die Bewertung ist eigentlich durch ein zweites KI -Modell passiert oder
beispielsweise Chatwip, der einfach mit drin steckt. Genau, also da könnte man jetzt
sagen,
00:20:49 SPEAKER_02
könnte man jetzt sagen, dass natürlich eigentlich nicht erlaubt ist im Sinne von OpenAI’s
Vertrag, den man eingeht, wenn man dort eben die API oder… eben ChatGPT benutzt.
Andererseits ist das natürlich ein Problem, das betrift nur OpenAI. Also im Prinzip ist
das ein Vertragsbruch, den die Leute beim Trainieren von DeepSeek begangen haben.
Eventuell kann es da dann von OpenAI irgendwelche Schadensersatzforderungen
geben. Das betrift aber natürlich die Nutzenden überhaupt nicht.
00:21:21 SPEAKER_01
Da kann man natürlich jetzt auch mal zurückblicken und überlegen, inwiefern OpenAI
selbst bei den Trainingsdaten geschaut hat. Und wenn man sich anschaut, wie viele
Rechtsstreitigkeiten mit Verlagen, Zeitungen es Richtung OpenAI gibt. Zumindest auf der
moralischen Bewertung ist das da vielleicht auch nicht viel besser passiert. Was aber
die Hörenden sicherlich auch interessiert ist, was bedeutet das jetzt am Ende für die
Benutzung? Also vielleicht auch, was haben wir für Erfahrungen gemacht? Wäre
vielleicht nochmal ganz interessant. Und es gibt sicherlich ja auch Anfragen, wo dieses
Chain of Thought auch gar nicht nötig ist. Also einfache Anfragen, denke ich, die kann
man auch viel schneller und einfacher mit klassischen Language Models trefen. Ich
kann ja mal mit meiner persönlichen Erfahrung so einsteigen, vielleicht kannst du auch
nochmal ergänzen, dass ich tatsächlich im Alltag… Wenn ich jetzt wirklich einfache
Zusammenfassungsaufgaben habe, einfache Nachfragen, Ideengenerierung, was ich im
Alltag habe oder einfach ein Gesprächspartner, der mir Feedback gibt, dass ich in den
meisten Fällen, ich würde mal grob schätzen, 80, 90 Prozent der Fälle eigentlich mit
einem klassischen Sprachmodell. Ganz konkret ist das das Lama 3 -Modell, was wir
auch bei uns auf der Hochschule nutzen oder anbieten zum Nutzen. dass ich damit
eigentlich schon gut zurechtkomme. Also ich ganz selten den Bedarf habe für dieses
Reasoning, weil ich bei, glaube ich, diesen komplexeren Dingen auch oft selber
natürlich auch noch wissen will oder auch Hoheit über den Denkprozess haben will und
dann eher dazu tendiere, dass ich ein einfaches Modell nehme und dann, wie wir eben
gesagt haben, diesen Denkprozess induziere. Also einfach diese Rückfragen selber
mache, weil ich dadurch viel mehr Kontrolle über den Denkprozess habe. Das ist so
meine Erfahrung und dann kommt auch dazu diese Wartezeiten in den Denkprozess.
Das ist extrem spannend zu sehen, was da passiert. Aber aus menschlicher Sicht fnde
ich es auch oft inefizient. Es sind viele Verifkationsschritte, die technisch extrem
spannend sind, aber aus menschlicher Sicht auch inefiziente Denkprozesse, die vor
allem Zeitkosten den Nutzen aber nicht so hoch machen. Das ist jetzt so meine
persönliche Erfahrung.
00:22:41 SPEAKER_00
diese Rückfragen
00:23:07 SPEAKER_02
Da bin ich auch ganz der Meinung. Also wenn man wirklich interaktiv mit so einem
Chatmodell arbeitet, ist meiner Meinung nach das Reasoning gar nicht so vorteilhaft. Es
kann aber natürlich Vorteile bieten. Also ganz klar, es erhöht die Genauigkeit bei sehr
vielen Bereichen. Also gerade so im mathematischen Bereich, gerade wenn es um
Buchstabierprobleme geht, erhöht es die Genauigkeit schon signifkant. Das heißt…
Trotzdem nicht, dass die Modelle jetzt besonders gut darin sind, unseren Erfahrungen
nach, glaube ich. Aber sie sind schon deutlich besser sozusagen als die Modelle, die
eben ohne dieses Reasoning daherkommen. Und dementsprechend schneiden solche
Reasoning -Modelle, wenn sie eben das Reasoning benutzen dürfen, in diversen Tests
auch immer viel, viel besser ab. Also wo das Ganze wirklich… Interessant wird, ist, wenn
man wirklich so, ich sage mal, eine Aufgabe hat, die eben in sehr, sehr viele
Unteraufgaben typischerweise unterteilt werden muss. Wenn ich jetzt sozusagen einen
Prompt stelle, der wirklich komplexe Prozesse involviert. Also interessant werden kann
das Ganze zum Beispiel, wenn ich nicht einfach nur einen Zusammenfassungsprozess
haben möchte, sondern eine komplexe Frage zum Beispiel zu einem Dokument stelle
und dieses Dokument dort hochlade. dann muss sozusagen dieses meine Frage erstmal
zerlegt werden in die Informationen, die eben für das Beantworten meiner Frage relevant
sind. Dann werden die einzelnen Informationen anhand des Dokuments rausgesucht
und beantwortet, um dann daraus die eigentliche Antwort am Ende zu generieren, die
mir als Nutzen dann wieder entgegengebracht wird. Wenn ich Chain of Thought
Prompting benutze, kann ich das auch ganz einfach machen. Reasoning eigentlich auch
keinen großen Vorteil, besonders weil ich oft den Denkprozess dann auch
nachvollziehen will. Wo es aber interessant wird, ist in dem Moment, wo man das
sozusagen in andere Programme dann integriert, die eben vollautomatisiert
irgendwelche Informationen zum Beispiel aus Dokumenten auslesen sollen. Und da
wird dann eben das Reasoning vielleicht interessanter.
00:25:13 SPEAKER_01
Ich habe mal sehr plastisch vielleicht zwei Beispiele mitgebracht. Wer sich ein bisschen
mit dem Thema beschäftigt, den Strawberry -Prompt, da ist die Frage, wie oft kommt der
Buchstabe R im Wort Strawberry vor? Klappt tatsächlich auch im Deutschen, wenn man
fragt, wie oft kommt der Buchstabe E im Wort Erdbeere vor, dann sind das ja viermal,
ganz am Anfang, ganz am Ende und zweimal in der Mitte. Das ist ein klassisches
Beispiel, wenn du das in Lama -Modell fragst, ohne Schlussfolgerung, dann wird es, ich
habe das vorhin schon mal gemacht, mit einer zwei Antworten oder nicht mit der
korrekten Antwort. Und das ist zum Beispiel ein Beispiel, wir lassen es gerade nebenbei
laufen und wir sehen auch, dass es extrem langsam ist. Das nicht destillierte Modell.
Das ist ein Beispiel, da würde das Modell zu einer richtigen Lösung kommen. Es läuft
gerade im Hintergrund sehr langsam. Ich gehe mal stark davon aus. Wir sagen gleich
nochmal, ob das wirklich funktioniert hat. Wir haben vorhin ein anderes Beispiel
gemacht, aber da sollte es einen kreativen Satz bauen, wo die Endbuchstaben des
Satzes am Ende ein Wort ergeben sollen. Also zum Beispiel das Wort Magdeburg
ergeben sollen und so einen Satz bauen. Das hat auch dieses Reasoning -Modell zum
Beispiel nicht geschaft.
00:26:09 SPEAKER_02
Da habe ich aber gegenteilige Beispiele schon gesehen, wo es das gut kann. Das
Hauptproblem hier war einfach, also in unserem Experiment vorher, dass wir wirklich
auf Deutsch gefragt haben und das Reasoning. meistens immer erst mal auf Englisch
startet. Also das Modell ist in sich sozusagen Englisch. Also im Grunde könnte man
sagen, es denkt Englisch. Also der Reasoning -Prozess wird auf Englisch generiert. Das
heißt, es hat dann eine Antwort auf Englisch generiert und dann irgendwann ist diesem
Modell im Reasoning -Prozess aufgefallen, dass die Antwort ja wahrscheinlich auf
Deutsch sein soll, wenn die Frage auf Deutsch war. Und dann hat es versucht,
sozusagen die bereits generierte Lösung irgendwie schlecht ins Deutsche zu übersetzen
und dann Buchstaben hin und her zu drehen. Das ist einfach ein Problem, wenn man mit
solchen Reasoning -Modellen auf Sprachen, die nicht englisch sind, arbeitet, dann
haben sie eher Probleme. Auch in meiner persönlichen Arbeit, jetzt gerade mit der API,
ist mir häufger aufgefallen, dass das Sprachmodell gerade im Deutschen sehr viele
Schreibfeder macht.
00:27:10 SPEAKER_01
Was man nicht erwarten würde und was ich tatsächlich bei einem Lama -Modell, was
wir bei uns auf dem Server hosten, nicht so stark sehe. Ich hatte tatsächlich auch mal
bei Leipzig ein paar Artefakte von, ich weiß nicht, ob chinesischen oder koreanischen
Schriftzeichen, die dann plötzlich mit in der Antwort involviert waren. Ich glaube, am
Ende hängt es einfach extrem davon ab, was man damit macht. Du hast gerade gesagt,
Englisch versus Deutsch ist ein Problem. Das Schöne ist, Open Source, wir haben es bei
uns auf dem Server, es kann jeder ausprobieren und sich mal ein Gefühl davon machen,
was dahinter steckt. Das bringt mich zu einem ganz wichtigen Punkt, den wir ganz am
Anfang des Gesprächs hatten, und zwar den Unterschied zwischen dem Open -Source –
Modell und der App. Nun gibt es ja extrem große Bedenken hinsichtlich Datenschutz,
wenn man diese App benutzt. Also da wird davon gesprochen, dass extrem viel
mitgeloggt wird, dass deine Tastaturanschläge wirklich im Einzelnen sogar mit
aufgenommen werden und fürs Training verwendet werden. Das ist natürlich ein
Problem, wenn man diese App benutzt. Deshalb können wir, glaube ich, auch nur
warnen davor oder uns zumindest sagen, man muss mit sehr großer Vorsicht diese App
benutzen. Das ist aber jetzt ein Unterschied zu diesen Gewichten, von denen wir eben
gesprochen haben, die Open -Sourced sind. Und vielleicht können wir das nochmal kurz
erklären, dieser Unterschied der App, die gehostet ist. Was heißt das gehostet?
Vielleicht können wir das nochmal erklären. Und dem Modell, was jetzt beispielsweise
in der Academic Cloud oder auch bei uns auf dem Kids -Server läuft.
00:28:22 SPEAKER_02
Um hier nochmal kurz abzuholen, sozusagen, wenn ich von Open -Source rede, dann
meine ich auch wirklich frei. Und generell, wenn ich von freien Modellen rede, meine ich
auch frei im Sinne von Freiheit, also frei verwendbar, frei wiederverwendbar. Und nicht
im Sinne von kostenlos. Zum Beispiel dieses kostenlos verwendbare Modell in der App,
das kann eben Daten sammeln. Und dieses Sammeln von Daten ist sehr wertvoll für
eben diese chinesische Firma, die da dahinter steckt, eben einerseits um neue Modelle
zu trainieren und andererseits wahrscheinlich eben auch aus Überwachungsaspekten.
Das Gleiche gilt eben auch für alle anderen nicht freien Modelle, die kostenlos
angeboten werden. Also zum Beispiel ChatGPT hat relativ gute Datenschutz.
Bestimmungen, die dahinter stecken, aber auch da gilt, theoretisch kann eben die Firma
dahinter von uns Daten sammeln, beziehungsweise die dort eingegebenen Daten auch
an Dritte weitergeben. Technisch wäre das eben möglich. Ob sie das tun, wie weit da
irgendwelche Regierungen dahinter stecken, da will ich jetzt nicht unbedingt Aussage zu
trefen.
00:29:24 SPEAKER_01
Das ist vielleicht auch schwierig, gerade in der politischen Lage jetzt auch. Genau. Bei
dem amerikanischen Anbieter weiß man auch nicht, wie sich vielleicht die wirkliche
Nutzung am Ende weiterentwickeln wird. Also da können wir auch davon ausgehen,
00:29:32 SPEAKER_02
da können wir auch davon ausgehen, dass wir da ein bisschen vorsichtig sein müssen.
Das komplette Gegenstück dazu ist eben das Thema Open Source. Verhindern wir das
schon mal erklärt. Also die Gewichtungen sind frei verfügbar. Das heißt, wir können uns
diese Matrizen runterladen, wir können uns die angucken, wir können die verändern. Wir
können damit im Prinzip alles Mögliche tun, was wir wollen. Und da können auch keine
Daten abgegrifen werden in dem Sinne, ja? Genau. Alles, was da passiert, ist eine
mathematische Berechnung. Und diese mathematische Berechnung, die können wir
auch komplett ohne Internet oder irgendetwas bei uns selbst auf unserem Rechner
ausführen. Nun haben wir typischerweise nicht so viel Rechenleistung in unserem
Rechner, dass wir das tatsächlich lokal ausführen können. Das heißt, wir brauchen in
gewisser Weise einen Rechencluster, einen Server, der das handeln kann. Aber die
komplette Software dahinter, die liegt in unserer Kontrolle. Das heißt, wenn wir nicht
wollen, dass dort Daten gesammelt werden, solange wir das eben selber betreiben,
solange wir diese Berechnungen selber ausführen, auf Hardware, die uns gehört, kann
davon auch keine Information irgendwie nach draußen kommen. Und ich gehe dabei
davon aus, dass eben zum Beispiel die Academic Cloud keine Daten sammelt oder
zumindest keine Daten sammelt und dieser andere weitergibt. Ich kann eben auch von
uns sagen, dass in dem Betrieb, den wir jetzt auf unserem eigenen Server, eben auf ai
.h2 .de, dass wir die Modelle, die wir dort betreiben, selber sozusagen die Berechnungen
ausführen lassen und die Daten werden nur im Sinne der Nutzenden gespeichert. Das
heißt, auch nur die Nutzenden können ihre eigenen Daten dort einsehen. Wir haben
keine Möglichkeit, als Administratoren da wirklich reinzugucken und diese Daten zu
manipulieren, auszulesen. Wir können die nicht weiterverwenden für irgendwas. Alles
davon bleibt im Hochschulnetzwerk und so weiter und so fort. Also das Betreiben von
einem Open -Source -Modell, das ist sehr, sehr, sehr sicher, wenn man eben weiß, wer
die Betreiber sind und eben Zusicherungen von den Betreibern hat, dass die Daten nicht
an Dritter weitergegeben werden.
00:31:27 SPEAKER_01
Genau, also am Ende muss man dem Betreiber vertrauen. Bei DeepSeek als Firma, als
Betreiber äußerste Vorsicht geboten. Bei OpenAI ist natürlich auch einfach auf. Der
Vertrauensbasis, die AGB, können natürlich auch jederzeit geändert werden. Und
natürlich genauso muss man auch der Hochschule und vielleicht der Academy Cloud
trauen. Und zur Not kann man eben selber hosten, auch diese anders destillierte
Modelle, kleinere Modelle zu nutzen, die man eben auch mit deutlich weniger
Rechenzeit, natürlich dann mit Qualitätseinbußen, aber bei sich lokal auf dem Rechner
installieren kann. Da können wir vielleicht auch mal schauen, wie ein paar… Tools und
Werkzeuge dazu verlinken, um das zu müssen.
00:32:01 SPEAKER_02
Es gibt auch verschiedene Hosting -Anbieter zum Beispiel, wo man solche Server sich
mieten kann und da dann eben vollverschlüsselt mit den eigenen Daten arbeiten kann,
ohne dass da irgendwas nach draußen kommen könnte. Vielleicht eine kurze Info.
00:32:13 SPEAKER_01
eine kurze Info. Unser Diebstieg -Modell kommt jetzt langsam zum Ergebnis. Das ist aber
wirklich das volle 400 -Milliarden -Modell. Man kann es so ein bisschen beobachten, wie
es passiert. Und es ist zur richtigen Antwort gekommen, zur Erinnerung, dass wir die
Frage, wie oft kommt der Buchstabe E im Wort Erdbeere vor? Viermal, das passt. Wir
können dann wirklich Buchstabe für Buchstabe jetzt begleiten, was hier rauskommt.
Wie lange hat das jetzt gedauert? Fünf Minuten etwa? Mindestens, ja. Und das kann
nochmal im Vergleich ein AMA -Modell machen. Das können Sie auch gerne selber mal
zu Hause ausprobieren. Wie gesagt, bei den Modellen, das ist alles bei uns gehostet.
Wenn Sie uns vertrauen, eben dann ohne diese Datenschutzbedenken. Neben diesen
Datenschutzbedenken ist ein zweiter kritischer Punkt das Thema, was wir eben
angesprochen hatten, dass einige Ausgaben ofensichtlich von diesem Denkprozess
ausgeschlossen werden. Das ist vielleicht noch so als zweiter kritischer Punkt neben
diesen Datenschutzbedingungen oder Bedenken. Ein Beispiel, wenn man zum Beispiel
fragt, what happened in Tiananmen Square in 1989, also was am Tiananmen Square in
1989 passiert, was in der chinesischen Geschichte natürlich ein sehr kritisches Problem
ist, weil da Aufstände einfach militärisch blutig zerschlagen wurden. dann
erstaunlicherweise fndet dieser Reasoning -Prozess dann nicht statt. Das ist auch
wieder etwas, das ist technisch gesehen nicht neu.
00:33:26 SPEAKER_02
gesehen nicht neu. Also das kannten wir auch schon. Also zum Beispiel
gewaltverherrlichende Inhalte zu generieren, war lange Zeit oder ist auch immer noch
nicht möglich mit den normalen Modellen, auch nicht mit den normalen freien
Modellen, sofern man die nicht extra sozusagen darauf abwandelt, dass sie das tun
können. Das liegt eben daran, dass beim Feintuning -Prozess, also wenn dieses Modell
angepasst wird darauf, oder die Gewichtungen des Modells darauf angepasst werden,
mit Menschen zu interagieren, kann man eben bestimmte Antworten dort reintrainieren,
die auf bestimmte Inhalte gegeben werden sollen. Und da der Reasoning -Prozess eben
auch Teil der Antwort ist, kann man natürlich auch eintrainieren, dass wenn zum
Beispiel nach Tiamenzwer gefragt wird, die Antwort des Reasoning -Prozesses immer
leer sein sollte und dementsprechend auch die Gesamtantwort immer leer sein sollte.
Rein technisch ist das nichts Neues. Wie gesagt, wir haben das schon länger
beobachten können eben bei allen Arten von Modellen, speziell eben bei den
kommerziellen Modellen, dass dort eben auch nichts Negatives über die Firma gesagt
werden kann und so weiter. Was jetzt natürlich neu ist, dass dieses Modell jetzt die doch
sehr fragwürdigen Vorgaben der chinesischen Regierung dort folgt. Da ist meine
persönliche Hofnung, eben dadurch, dass es ein Open Source Modell ist, wird es
hofentlich bald dazu kommen, dass es eben Feintunings dieses Modells gibt, die dann
eben wieder ofen sind, die dann eben nicht eingeschränkt werden durch eben solche
Vorgaben, die dort rein trainiert wurden. Das sollte mit Open Source Modellen sogar
relativ einfach möglich sein. Zum Beispiel könnte man Mixture of Experts mäßig einen
Experten hinzufügen, der sehr viele interessante Informationen hat. zu Problemen der
chinesischen Regelung hat und den dort einfach mit einfügen, dann wäre dieses
Problem sozusagen gelöst. Das ist jetzt, Stand heute noch nicht der Fall. Also es gibt
noch keine wirklich guten Feintunings von Drittanbietern dieses Modells. Ich hofe aber
einfach, dass zumindest die Open -Source -Version davon in näherer Zukunft befreit
werden kann.
00:34:03 SPEAKER_00
Und da der
00:35:29 SPEAKER_01
Also man spricht ja da auch von Alignment oder Ausrichtung von den Modellen, die im
Feintuning passiert. Das heißt, dass automatisch sowas wie moralische Vorstellungen,
Wertevorstellungen einfach mit antrainiert werden. Das heißt nicht, dass jetzt ethische
Texte trainiert werden, sondern das heißt, dass indirekt, also implizit ein Wertesystem
einfach vermittelt wird durch dieses Feintuning. Und wenn sich eben dieser
Wertekompass beim Feintuning von Hersteller zu Hersteller oder vom Entwickler zu
Entwickler verschiebt, dann spiegelt sich das nur wieder. Das ist sehr spannend zu
beobachten. Dahinter müsste man auch nochmal hinterfragen, was halt wirklich hinter
der Sprache steckt. Also das ist ja auch bei Verzerrungen generell so. Wenn man da
auch zum Beispiel an das Thema Gendern in der Sprache denkt, das ist ja auch eine
Verzerrung in der Sprache. Das sind einfach Verzerrungen, die sich dann auch in den
Denkprozessen einfach widerspiegeln und technisch gesehen erstmal sichtbar werden.
Und natürlich muss man jetzt dann natürlich auch einfach hinterfragen, von wem
kommt das Modell? Ist das eine chinesische Firma? Und man kann auch sagen,
natürlich vertreten sie dann auch entsprechend chinesische Werte. Natürlich ist das
Modell dann entsprechend auch antrainiert. Vielen Dank für das extrem spannende
Gespräch. Vielen Dank auch an die Zuhörerinnen und Zuhörer fürs Dabeisein und ich
hofe, dass Sie dann auch bei der nächsten Podcast -Folge dabei sind. Vielen Dank.
Danke.