Wer Stuart Russels Human Compatible liest, bekommt drei Dinge: Eine Geschichte der Entwicklung der Künstlichen Intelligenz (KI); eine Analyse des Standes dieser Technologie; einen Vorschlag, wie KI so gestaltet werden kann, dass sie für uns Menschen sicher ist.
Die Geschichte der KI beginnt für Russel 1956 am Dartmouth College. Alle Aspekte des Lernens und andere Merkmale der Intelligenz sollten so genau beschrieben werden können, dass eine Maschine dazu gebracht werden kann, sie zu simulieren, lautet damals die Ausgangsthese. Je intelligenter, desto besser? „Ich bin überzeugt, dass das ein Fehler ist, und zwar nicht, weil ich irgendwie befürchte, ersetzt zu werden, sondern aufgrund unseres Verständnisses von Intelligenz an sich.“ (S. 17) Menschen gelten als intelligent, wenn ihre Handlungen darauf ausgerichtet sind, ihre Ziele zu verfolgen. Aber das ist heikel: Nicht selten optimieren wir relativ dumme Algorithmen im globalen Maßstab auf falsche Ziele hin. Klar, immer noch besser, als die KI optimiert sich zugunsten eigener, von ihr selbst gesteckter Ziele.
Aber Ziele können vertrackt sein. Stellen wir uns vor, wir wollen etwas für den Umweltschutz tun, und programmieren eine superintelligente Maschine, um die Übersäuerung der Ozeane aufzuhalten. Die Maschine entwickelt einen neuen Katalysator, der eine extrem rasche Reaktion zwischen Ozean und Atmosphäre fördert und so den pH-Wert der Weltmeere wiederherstellt. Leider wird dabei ein Viertel des Sauerstoffs in der Atmosphäre verbraucht, sodass Menschen langsam und elend ersticken. Auftretende Probleme kann die KI durch Anpassung der Vorgangsweise überwinden. Dazu gehörte auch der Versuch der Menschen, die Maschine auszuschalten. Die Ziele der Menschen können irrtümlich falsch sein. Wie im echten Leben merken wir das aber erst später. (S. 149)
Russel nennt drei Prinzipien für das Programmieren von KI, mit denen die wichtigsten Probleme umgangen werden könnten: Das einzige Ziel der Maschine ist es, die Verwirklichung menschlicher Präferenzen zu maximieren; die Maschine ist unsicher, wie diese Präferenzen genau aussehen, diese Unsicherheit erlaubt es der Maschine, sich ausschalten zu lassen; die maßgebliche Quelle für Informationen über menschliche Präferenzen ist das menschliche Verhalten. Die Maschine muss mit den menschlichen Entscheidungen verbunden bleiben.