Surprise Modelling: Überraschungen aus dem Computer
Microsoft entwickelt ein System, das aus Daten nicht nahe liegende, aber dennoch zuverlässige Prognosen generieren soll.
(via technologyreview.com) Man stelle sich folgende Aufgabenstellung für ein Softwaresystem vor: Gebe in Abhängigkeit von relevanten Faktoren Prognosen darüber ab, wann auf welcher Straße in einer großen Stadt freie Fahrt sein wird, und wo vermutlich ein Verkehrsstau entsteht. Als Datengrundlage seien alle möglichen Informationen gegeben, zum Beispiel anstehende Staatsbesuche, Streiks im öffentlichen Nahverkehr, und natürlich Wochentag und Uhrzeit. Die Programmierung wäre nicht sonderlich schwer: In einem ersten Schritt müsste das Programm anhand von alten Daten auswerten, welche statistischen Auffälligkeiten mit hohem und mit niedrigem Verkehrsaufkommen auf den einzelnen Straßen in der Vergangenheit korrelierten. Durch dieses wohlbekannte Verfahren des „Data Mining“ „lernt“ das System dann, welche Faktoren für das Verkehrsaufkommen relevant sind. Das Problem ist nur: Die meisten Fahrer wissen das im Großen und Ganzen auch selber. Wenn in Paris etwa ein Staatsbesuch ansteht oder die letzte Etappe der Tour de France gefahren wird, man wohl kaum über die Champs Elysèe nach Hause fahren wollen. Von einem elektronischen Assistenten würde man wohl eher Informationen darüber erwarten, was man noch nicht weiß. Nützlich wäre eine Prognose, die der Fahrer selbst nicht treffen würde. Solche „Überraschungen“ zu erkennen, ist die Aufgabe eines Forschungsprojektes bei Microsoft.
Das Prinzip ist eigentlich ganz einfach: Wenn die Wirkung eines einfachen Faktors stark mit einem relevanten Ereignis (Verkehrsstau, bzw. freie Fahrt) korreliert, dann wird der Nutzer der Software das wohl auch wissen. Also muss das System die offensichtlichen von den nicht so leicht erkennbaren Korrelationen unterscheiden und erstere aussondern. Da die interessanten Korrelationen nun aber nicht so stark sind, ist auch die Trefferwahrscheinlichkeit geringer. Tatsächlich existiert aber ein solches System für den Straßenverkehr mit dem Namen SmartPhlow, bereits, und bietet immerhin eine Trefferwahrscheinlichkeit von fünfzig Prozent. Das ist nicht viel, in der Hälfte der Fälle bekommen die Nutzer dann aber auch echte Geheimtipps.