+49-431-72004160 moin@otus2.com

This post is also available in: English

Warum ist die Künstliche Intelligenz (KI oder auch häufig AI für den englischen Begriff Artificial Intelligence) ein Thema in einem Übersetzungsblog?

Die KI war immer eng mit der maschinellen Übersetzung (MÜ oder häufiger MT für Machine Translation) verknüpft. Anfangs versuchte man in der KI, die Logik menschlichen Denkens in Programmen nachzubauen, die meistens in speziellen Programmiersprachen wie LISP oder Prolog geschrieben wurden.

Ein bekanntes Beispiel für eine frühe KI-Anwendung ist ELIZA, ein Programm, das sich mit einer Person, die Fragen oder Aussagen in ein Terminal eingab, »unterhalten« konnte. Letztendlich bestand es im Wesentlichen aus allgemeinen Phrasen oder Gegenfragen, die dem Menschen vor dem Terminal suggerieren sollten, dass ELIZA ihn »verstand«. Heute würde man ELIZA als Chatbot bezeichnen.

Etwas später erschienen die ersten MT-Anwendungen, z. B. das von der University of Texas at Austin entwickelte und von Siemens erworbene und vertriebene METAL. Hier gab es den gleichen Ansatz: das MT-System sollte wie ein Mensch den zu übersetzenden Text erst verstehen und danach übersetzen. Also musste es grammatikalische Regeln sowohl in der Ausgangssprache als auch in der Zielsprache kennen. Daher nennt man solche MT-System »Rule-Based Machine Translation« (RBMT).

ELIZA und METAL sind Beispiele für KI-Anwendungen, die sehr vielversprechend waren, im Laufe der Entwicklung aber immer komplexer und unbeherrschbarer wurden, was schließlich zur Stagnation und in der Folge zu vernichtenden Kritiken und der weitgehenden Aufgabe dieses Ansatzes führte, so dass die KI nur noch ein Nischendasein fristete.

Die schnell steigende Computerleistung ermöglichte im neuen Jahrtausend eine Wiederbelebung der KI auf komplett anderer Basis. War der erste Versuch ein Bottom-Up-Ansatz, das heißt man versuchte mit vielen Einzelregeln ein Gesamtkonstrukt aufzubauen, dreht man den Spieß jetzt um: Man beginnt den vorhandenen Ergebnissen und versucht dann, diese zu übertragen.

Auch hier ist die maschinelle Übersetzung ein Anwendungsfeld. Es begann mit der statischen maschinellen Übersetzung (SMT), die mit einer klassischen Übersetzung nichts mehr zu tun hat. Ein SMT-System kennt keinerlei linguistische Informationen, weder grammatikalische Regeln noch Wortbedeutungen oder dergleichen. Es bildet Muster aus vorhandenen Textpaaren in Ausgangs- und Zielsprache, also vorhandenen Übersetzungen, und versucht dann, zu wiederholt in der Ausgangssprache vorkommenden Mustern Entsprechungen in der Zielsprache zu finden.

Eine Weiterentwicklung der SMT ist die NMT (Neural Machine Translation). Der Begriff neuronale maschinelle Übersetzung ist ziemlich hochtrabend, da er suggeriert, dass das System wie die Neuronen im menschlichen Gehirn arbeitet, obwohl es von dieser Art der Vernetzung weit entfernt ist. Näheres zur MT in einem getrennten Beitrag.

Da die KI so schwer zu greifen ist, gibt es auch in der Sprachenbranche immer wieder die Behauptung; »…dank unserer KI-gestützten Lösungen…«. Häufig genug erweist sich die »KI« dann als ziemlich banal, z. B. als Chatbot, womit wir wieder bei ELIZA wären.

Woraus besteht denn nun der neue KI-Ansatz? Vereinfacht gesagt aus dem Sammeln großer Datenmengen (Big Data) und dem Programmieren von Analyseregeln. Damit erkennt man schnell zwei Schwachpunkte. Erstens bestimmt die Qualität der Analyseregeln das Ergebnis. Wenn also die Regeln nicht sauber programmiert sind, liefert das System wahrscheinlich unzureichende Ergebnisse.

Viel wichtiger ist, dass die Logik mal wieder zurückschlägt: wenn der Ausgangspunkt einer Schlussfolgerung falsch ist, hat die Schlussfolgerung keine (!) Bedeutung. Wenn man z. B. voraussetzt, dass 1 = 10 ist, dann kann man auch »beweisen«, dass die Zugspitze höher ist als der Mount Everest.

Die heutige KI verfolgt so etwas wie den Schwarmansatz: wenn viele in die gleiche Richtung fliegen, kann das nicht verkehrt sein. Na ja, wenn man sieht, wie viele Amerikaner immer noch Trump glauben, obwohl er nachweislich lügt (gefühlt öfter als er die Wahrheit sagt), dann bekommt man leise Zweifel an diesem Ansatz.

Die gegenwärtige Coronakrise liefert ein gutes Beispiel für die Vorsicht, mit der man die Auswertung großer Datenmengen (Big Data) betrachten muss. Vergleicht man die Zahlen der Ansteckungen, Genesungen und Sterbefälle in den verschiedenen Staaten, dann ergeben sich eklatante Unterschiede, die sich mit besserer medizinischer Versorgung und ähnlichen Faktoren nur schwer erklären lassen. Wenn man sich dann ansieht, wie unterschiedlich diese Daten erhoben werden, kommt man der Sache deutlich näher. Es macht einen riesigen Unterschied, ob man die Altersheiminsassen berücksichtigt oder nicht. Und die Tests sind äußerst sporadisch, zufällig und von Land zu Land unterschiedlich gehandhabt und unterschiedlich häufig. Wer testet z. B. die Bewohner in den Favelas von Brasilien oder in den ländlichen Gebieten der Türkei? Und wenn man berücksichtigt, dass ein Großteil der US-Amerikaner keine Krankenversicherung besitzt oder diese gerade mit seinem Job verloren hat, fragt man sich, wer diese Bürger testet? Damit sind alle Vergleiche irreführend und hinfällig.

Es gibt einen sehr alten Mathematikerspruch: »Ich glaube nur der Statistik, die ich selbst gefälscht habe!« Das Problem mit dem Big-Data-Ansatz der KI ist, dass niemand weiß (nicht einmal die Programmierer!), wie das KI-System zu einem Ergebnis gekommen ist. Es ist eine Black Box. Und wenn man die Zahlengläubigkeit der meisten Menschen kennt, wird einem Angst und Bange.

Ein Physikstudent hat mir die Entfernung Erde-Mond einmal als 36 km angegeben und war davon auch nicht abzubringen. Er hatte es ja ausgerechnet, also musste es stimmen! (Was machen schon die paar fehlenden Nullen.)