Medieninhalte • Wissenschaft
Das NarrAItions Projekt vom Leibniz-Institut für Wissensmedien & Deutschen Literaturarchiv Marbach

Nachts

Versunken in die Nacht. So wie man manchmal den Kopf senkt, um nachzudenken, so ganz versunken sein in die Nacht. Ringsum schlafen die Menschen. Eine kleine  Schauspielerei, eine unschuldige Selbsttäuschung, daß sie in Häusern schlafen, in festen Betten, unter festem Dach, in ihren eigenen Betten, in Häusern, die nicht ihnen gehören. Ohne jede Sorge in der Welt, umgeben von gleichen Menschen. Alles in vollkommener Stille, alles im schwachen Licht der Sterne. Sie träumen nicht, sie schlafen nur tief und fest. Sie tun der Welt nichts an. Nur der Wind und die Kälte können sie aufwecken. Der Himmel ist immer noch dunkel, aber jetzt ist er klar.

Was denken Sie – Wurde dieser Text mit Hilfe einer Künstlichen Intelligenz geschrieben? Und wie sicher sind Sie in Ihrer Entscheidung?

Künstlichen Intelligenzen (KI) sind heute in der Lage, komplexe narrative Texte und verschiedenste Gedichte selbst zu verfassen. Forscher*innen des Leibniz-Institutes für Wissensmedien (IWM) untersuchen daher in Kooperation mit Literaturwissenschaftler*innen des Deutschen Literaturarchivs Marbach (DLA), ob eine KI mit bekannten Poet*innen wie Goethe, Schiller oder Hölderlin mithalten kann, und wie diese Gedichte von den Leser*innen aufgenommen werden: Verstehen sie die Texte? Nehmen sie diese ernst und finden sie diese glaubwürdig? Bewerten sie diese als stilistisch gut? Und können Rezipient*innen KI-Texte noch von menschlich geschriebenen Texten unterscheiden?

Zwei aufeinander aufbauende Studien sollten Antworten auf diese Fragen geben. Für die Studien wurde ein Generative Pre-trained Transformer (GPT) Model in Form eines Schreibtools genutzt. GPT-3 ist nach Brown und Mann et al. (2020) aktuell das größte GPT-Sprachmodell, welches mithilfe von Deep Learning menschenähnlichen Text erzeugt. Bei der Architektur des Modells handelt es sich um ein Standard-Transformator-Netzwerk mit der beispiellosen Größe von 175 Milliarden Parametern. Die Datengrundlage bilden 67 Milliarden Bücher und 442 Milliarden Datensets zu Webtexten. In den hier beschriebenen Studien wurde das etwas kleinere GPT-2 Model genutzt, das die Vorversion zu GPT-3 darstellt.

Die Datengrundlage bilden 67 Milliarden Bücher und 442 Milliarden Datensets zu Webtexten.

Die insgesamt 422 Teilnehmer*innen bekamen in den Studien die ersten Zeilen von insgesamt 18 originalen Gedichten verschiedener Dichter*innen und Epochen vorgelegt. Für die Hälfte der Gedichte wurden den Teilnehmer*innen die KI-basierten Fortsetzungen der Gedichte gezeigt, die mit Hilfe der Generative Pre-trained Transformer 2-KI (GPT-2) erstellt wurde. Für die andere Hälfte der Gedichte wurde ihnen entweder eine von Menschen in einem Schreibworkshop geschriebene Fortsetzung (Studie 1) oder die Original-Fortsetzung (Studie 2) gezeigt. Die Originaltexte, die für die zweite Studie verwendet wurden, stammten von Paul Celan, Friedrich Hölderlin, Robert Gernhardt oder Franz Kafka.

Die Teilnehmer*innen sollten bewerten, ob die Fortsetzungen von einem KI-Tool geschrieben wurden oder nicht, und wie sicher sie sich in ihrer Entscheidung sind. Außerdem sollten die Fortsetzungen hinsichtlich ihrer stilistischen Qualität (z. B. gut geschrieben, inspirierend, faszinierend, interessant, ästhetisch) bewertet werden.

Die Ergebnisse der beiden Studien zeigen, dass die Teilnehmer*innen Schwierigkeiten hatten, KI-Texte und von Menschen geschriebene Texte voneinander zu unterscheiden. Insgesamt wurden die Fortsetzungen in Studie 1 zu 59.78 % richtig als KI-Fortsetzungen und zu 66.48 % richtig als Originalfortsetzungen klassifiziert, bzw. in Studie 2 zu 57.96 % richtig als KI-Fortsetzungen sowie zu 59.72 % richtig als von Literaturschaffenden geschrieben identifiziert. Die Teilnehmer*innen gaben zwar stets an, sich in ihren Entscheidungen sehr sicher zu sein, trotzdem lag die Fehlerrate in beiden Studien bei ca. 40 %, was dafürspricht, dass die Teilnehmer*innen ihre eigene Leistung überschätzen. Zudem wurden die KI-Fortsetzungen hinsichtlich ihrer stilistischen Qualität schlechter beurteilt als die von Menschen geschriebenen Fortsetzungen: Die KI-Fortsetzungen wurden als weniger gut geschrieben, inspirierend, faszinierend, interessant und ästhetisch empfunden als die von Menschen (in Schreibworkshops) geschriebenen und die originalen Fortsetzungen. Die oben gezeigte Version von Franz Kafkas „Nachts” wurde ebenfalls von der KI GTP-2 generiert, von den Teilnehmer*innen allerdings am häufigsten als Original-Fortsetzung bzw. von Menschen verfasste Fortsetzung eingeordnet.

Nichtsdestotrotz wird deutlich, dass KI-generierte Texte als glaubwürdig und als authentisch vom Menschen gemacht wahrgenommen werden – zumindest bis zu einem gewissen Grad.

Andere Studien (Graefe et al., 2018; Clerwall, 2014; Köbis and Mossink, 2021) konnten bestätigen, dass KI-generierte Texte als langweilig empfunden werden und im Vergleich zu von Menschen geschriebenen Texten weniger beliebt sind. Die Tatsache, dass KI-generierte Texte in allen fünf gemessenen Dimensionen der stilistischen Qualität und über beide Studien hinweg schlechter bewertet werden, wirft allerdings die Frage auf, warum die Leser*innen trotzdem eine so hohe Fehlerrate bei der Unterscheidung von KI-generierten gegenüber von Menschen generierten Texten zeigen. Man könnte annehmen, dass die wahrgenommene stilistische Qualität als Indikator für eine korrekte Klassifizierung der Texte verwendet werden kann. Doch diese Klassifizierung schien den Teilnehmer*innen NICHT zu besseren Klassifizierungsraten zu verhelfen. Möglicherweise fiel es den Leser*innen schwer, explizit zu sagen, ob ein Text von einem Menschen oder von einer KI verfasst wurde. Bezüglich der stilistischen Qualität – also implizit–- bevorzugten sie jedoch von Menschen geschriebene gegenüber KI-basierten Fortsetzung.

Nichtsdestotrotz wird deutlich, dass KI-generierte Texte als glaubwürdig und als authentisch vom Menschen gemacht wahrgenommen werden – zumindest bis zu einem gewissen Grad. Doch wie werden sich derartige KI-Tools in Zukunft entwickeln? Und ist es möglich, dass von Menschen geschriebene Texte irgendwann gar nicht mehr von KI-generierten Texten unterscheidbar sind?

Bei diesen Überlegungen steht die Frage im Fokus, wofür textgenerierende KIs in Zukunft eingesetzt werden. Sollen sie die Arbeit von Autor*innen und Poet*innen ersetzen? Oder werden sie vielmehr als kreativitätsfördernde Tools oder eventuell sogar als kollaborativer Schreibpartner*innen eingesetzt, die Inspiration und neue Schreibanregungen für das Verfassen von Texten bieten?

In den letzten Jahren wurden bereits einige Tools entwickelt, die Menschen dabei helfen sollen, kreativer zu werden. Wordcraft beispielsweise ist ein kollaborativer Editor für das Schreiben von Geschichten (Coenen et al., 2021) oder CoAuthor, ein weiteres Beispiel, das von Lee, Liang & Yang (2022) vorgestellt wurde, ein Tool zur Unterstützung beim kreativen und argumentativen Schreiben.

In einer Pilotstudie untersuchten die Forscher*innen des IWM und des DLA Möglichkeiten des KI-Tools zur Erstellung von Gedichten und narrativen Texten in einem ko-kreativen Prozess zwischen Mensch und KI. In dieser Studie zeigte sich, dass der Einsatz des GPT2-KI-Tools eine Erweiterung der Kreativität erlaubt, da neue und unerwartete Wendungen und Ideen generiert wurden. Das KI-Tool konnte in dieser Studie aber nicht als Ersatz für den Menschen im Schreibprozess dienen, da es neben passenden und integrierbaren Ideen häufig auch zu gröberen Brüchen, Syntax- oder Logikfehler und Endlosschleifen (Wiederholung eines Wortes in Endlosschleife) kam (Gunser et al. 2021). Dennoch wird man sich bei der rasanten Entwicklung dieser KI-Tools vermehrt die Frage stellen, wer der Autor oder die Autorin eines solchen Textes ist – der Mensch oder die KI? Welche Möglichkeiten haben Literaturschaffende durch KI-Tools? In Zukunft wird es nicht nur spannend, in welchen Kontexten solche KI-Schreibtools genutzt werden können, sondern welche Potenziale und Risiken berücksichtigt werden sollten.

Erste Ergebnisse lassen sich auch hier nochmals genauer nachlesen:

Gunser, V. E., Gottschling, S., Brucker, B., Richter, S., Çakir, D., & Gerjets, P. (2022). The pure poet: How good is the subjective credibility and stylistic quality of literary short texts written with an artificial intelligence tool as compared to texts written by human authors? In J. Culbertson, A. Perfors, H. Rabagliati, & V. Ramenzoni (Eds.), Proceedings of the 44th Annual Meeting of the Cognitive Science Society (44, pp. 1744-1750). University of California, USA:. https://escholarship.org/uc/item/1wx3983m

Team

Prof. Peter Gerjets, Dr. Birgit Brucker und Vivian Gunser von der Arbeitsgruppe Multimodale Interaktion des Leibniz-Institut für Wissensmedien in Tübingen


Prof. Sandra Richter und Dîlan Canan Çakir vom Deutschen Literaturarchiv in Marbach am Neckar

Genannte Literatur:

Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901. https://arxiv.org/abs/2005.14165

Clerwall, C. (2014). Enter the robot journalist: Users' perceptions of automated content. Journalism practice, 8,
519-531.

Coenen, A., Davis, L., Ippolito, D., Reif, E., & Yuan, A. (2021). Wordcraft: a Human-AI Collaborative Editor for Story Writing. First Workshop on Bridging Human-Computer Interaction and Natural Language Processing at EACL 2021. Stroudsburg: PA arXiv:2107.07430.    

Graefe, A., Haim, M., Haarmann, B., & Brosius, H. B. (2018). Readers’ perception of computer-generated news: Credibility, expertise, and readability. Journalism, 19, 595-610.

Gunser, V. E., Gottschling, S., Brucker, B., Richter, S., & Gerjets, P. (2021). Can users distinguish narrative texts written by an artificial intelligence writing tool from purely human text? In C. Stephanidis, M. Antona, & S. Ntoa (Eds.), HCI International 2021 - Posters. HCII 2021. Communications in Computer and Information Science: Vol. 1419 (pp. 520-527). Springer. https://dx.doi.org/10.1007/978-3-030-78635-9_67

Köbis, N., & Mossink, L. D. (2021). Artificial intelligence versus Maya Angelou: Experimental evidence that people cannot differentiate AI-generated from human-written poetry. Computers in Human Behavior, 114, 106553.

Lee, M., Liang, P., & Yang, Q. (2022). CoAuthor: Designing a Human-AI Collaborative Writing Dataset for Exploring Language Model Capabilities. arXiv preprint arXiv:2201.06796.

Ein Beitrag von

und

Wir benötigen Dein Einverständnis, um fortzufahren.

Diese Website verwendet Cookies. Wenn Du der Verwendung von Cookies zustimmst, können wir während Deines Besuchs direkt und über unsere Partner Statistiken erheben.

Weitere Informationen findest Du unter „Erweiterte Einstellungen“.
Einen Link zu den Cookies-Einstellungen findest Du jederzeit in der Fußzeile.
Cookies Einstellungen
Tracking erlauben
Nur notwendige Cookies erlauben