Textdaten – Automatische Textvergleiche
- Numerische Repräsentation von Text und Ähnlichkeitsmaße
Bisher haben wir ausschließlich Bilddaten mit unterschiedlichen Methoden des maschniellen Lernens verarbeitet. Jetzt widmen wir uns dem Bereich der Textdaten, bei dem es ganz andere Herausforderungen zu meistern gilt, jedoch ebenso verblüffende
Ergebnisse unter Anwendung aktueller Verfahren und hinreichend viel Rechenleistung erreicht werden können.Grundsätzlich verbrauchen Textdaten wesentlich weniger Datenplatz als Bilder. Zum Vergleich: Ein einzelnes, unkomprimiertes HD-Bild
(1920x1080 Pixel, 24bit Farbtiefe) verbraucht mit ca. 6MB mehr Speicher als der gesamte Bibeltext (ca. 4MB im ANSI/ASCII-Format). Auch die komprimierten Bilder einer herkömmlichen 12MP-Kamera können jenach Motiv trotz Kompression auf über 4MB Speicherbedarf pro Einzelaufnahme kommen.
Letztlich ist der geringe Speicherbedarf von Text nicht weiter verwunderlich, handelt es sich bei den Schriftzeichen, die unsere Sprache kodieren, bereits um einen verschachtelten Code mit einer entsprechend vergleichsweise hohen Informationsdichte. Und anders als bei der uns zu einem Großteil angeborenen Fähigkeit Bilder interpretieren zu können benötigen wir viele Jahre intensiven Trainings,um auch komplizierte Texte, die über Fachtermini, Mehrsilbenwortungetümer oder auch Verzweigungen, die auch dieses Beispiel eines viel zu sehr in die Länge gezogenen Satzes beinhaltet, verfügen, flüssig lesen zu können.
In dieser Lerneinheit werden wir uns zunächst mit einfachen Methoden zurBerechnung von Ähnlichkeitsmaßen zwischen Texten beschäftigen.
Neben den unten verlinketn Programmierübungen, könnt ihr hier --> mit Textähnlichkeit von Wikipedia-Artikeln üben.
Hier könnt ihr euch das Vorlesungsvideo mit Joachim Haenicke (2019/20) anschauen: --> Zum YouTube Video
Alle anderen Kurse der LINK KI-Schule findet ihr -> hier.
Die LINK-KI-Schule wurde entwickelt von Dr. Joachim Haenicke, Dr. Jan Sölter und Dr. Thomas Rost.
Die Google Colab Notebooks wurden von Jan Neukirchen auf Funktionalität und Aktualität der notwendigen Daten überprüft. Die letze Aktualisierung fand im April 2023 statt.