Sogar Computer sind sich ihrer März-Wahnsinns-Klammern nicht sicher
Komplexe Algorithmen sind nur so gut wie die Daten, die sie analysieren.

Der Basketballtrainer der Michigan State University, Tom Izzo(Brent Smith/Reuters)
Bis zu diesem Zeitpunkt im März Madness, mit drei verbleibenden Spielen im NCAA-Basketballturnier der Männer, sind die meisten Brackets ausgeschieden. Mein Untergang ist normalerweise, dass ich mit meinem Herzen wähle. (Michigan State den ganzen Weg ! ) Aber selbst für diejenigen, die coole, kalkulierte, statistikbesessene Roboter in ihrem Bracket-Building-Ansatz sind, ist es schwer, das Ergebnis von 63 Basketballspielen in Folge genau zu erraten. Sehr hart.
Das macht Sinn. 'Sie haben es mit einem 40-minütigen Basketballspiel zu tun, das von 20-Jährigen gespielt und von voreingenommenen Schiedsrichtern geleitet wird', sagte Michael Lopez, Assistenzprofessor für Statistik am Skidmore College. 'Es können zu viele Dinge passieren - tatsächlich passieren zu viele Dinge -, als dass jemand viel mehr als 75 Prozent der Zeit auf der richtigen Seite des Spiels landet.'
Sogar ein komplexer Algorithmus, der entwickelt wurde, um beispielsweise jedes March Madness-Spiel der Geschichte zu untersuchen, hätte seine Grenzen. Denn zum einen lässt sich ein einzelnes Basketballspiel nicht vollständig auf Zahlen reduzieren. Aber auch: 63 Spiele im Jahr sind statistisch gesehen eine winzige Zahl. 'Das heißt, selbst wenn eine Reihe von Wahrscheinlichkeiten genauer als eine andere wäre, wäre es schwierig, bei einer so kleinen Stichprobengröße von Spielen einen Unterschied zu erkennen', sagte mir Lopez. Selbst ein Roboter, der als Basketball-Genie programmiert wurde, würde einfachere bestehende Modelle nicht viel verbessern. Jedenfalls nicht mit den Daten, die wir jetzt verwenden.
Ein einzelnes Basketballspiel kann nicht vollständig auf Zahlen reduziert werden.Lopez hat viel Zeit damit verbracht, über solche Dinge nachzudenken. Letztes Jahr schrieben er und ein anderer Statistiker ein Papier über die zugrunde liegenden Wahrscheinlichkeiten im College-Basketball, um zu bestimmen, wie viel Glück ausmacht. Die Antwort: viel. Das Ende von zwei Elite Eight-Spielen am vergangenen Wochenende – der Sieg von Michigan State über Louisville und der Sieg von Kentucky über Notre Dame – seien perfekte Beispiele, sagte er, weil das Versenken eines verpassten Freiwurfs und das Treffen eines Dreier das Ergebnis in beiden Fällen hätte ändern können.
„Bei diesen beiden Schüssen wurden NCAA-Pools im ganzen Land geschwungen“, erzählte mir Lopez. „Haben die Leute, die Kentucky und Michigan State ausgewählt haben, bessere Entscheidungen getroffen? Und waren die Leute in Notre Dame und Louisville schlecht? Ich würde argumentieren, dass diese letzten Schüsse nur die letzten in einer Reihe von Münzwürfen waren, die schließlich das Ergebnis bestimmten. Bis zu einem gewissen Grad haben die Leute in Kentucky und Michigan State nicht die bessere Wahl getroffen, sondern nur die glücklicheren. Und es ist wirklich schwer, immer und immer wieder Glück zu haben.“ (Der beste Weg, dies zu versuchen, besteht darin, die Wettlinien in Las Vegas im Auge zu behalten. Oder, wie Lopez es mir sagte: „Leute, die Sportwetten betreiben, lassen die Leute nicht auf Sport wetten, es sei denn, sie wissen, dass sie in der auf lange Sicht.')
Warum begrenzt das Glück etwa 75 Prozent? Das ist ungefähr die Obergrenze für die Vorhersagegenauigkeit bei College-Reifen sowie im Profi-Basketball, Profi-Fußball, Profi-Fußball und College-Football, so ein Papier aus dem Jahr 2013 über die Verwendung von maschinellem Lernen zur Vorhersage von Spielergebnissen.
'Es ist schwer zu bestimmen, warum dies der Fall ist', schreiben die Autoren dieses Papiers. Vielleicht, so vermuteten sie, ist dies eine Einschränkung der Art von Daten, die Statistiker normalerweise verwenden, die normalerweise nicht Eigenschaften wie Erfahrung, Führung oder Glück berücksichtigen. 'Es ist aber auch möglich, dass es einfach einen relativ großen Rückstand von College-Basketballspielen gibt, der im wahrsten Sinne des Wortes unberechenbar ist.'
Diese zweite Möglichkeit erscheint Albrecht Zimmermann, einem der Co-Autoren des Papiers von 2013, wahrscheinlicher. „Ich bin überzeugt, dass es grundsätzlich einen (relativ) starken Zufall gibt“, sagte Zimmermann. Und um die Sache noch komplizierter zu machen, ist es aus der Sicht eines Datenwissenschaftlers schwer – wenn nicht unmöglich –, Alternativen zu erkunden. 'Wir können selten zurückgehen und dasselbe Spiel noch einmal spielen', sagte Zimmermann. Aber es gibt vielleicht noch bessere Daten, die gesammelt werden müssen. Das Game-Tracking-System der NBA, SportVU, zeichnet genau auf, wie sich die Spieler über den Platz bewegen, und generiert eine unglaubliche Datensammlung zu einer Zeit, in der einige Teams noch Bleistift-auf-Papier-Schussdiagramme erstellen. Hier ist wie Grantland 's Kirk Goldsberry erklärt das erste Mal öffnete er eine SportVU-Datei:
Alles, was ich sehen konnte, war ein Meer von Dezimalpunkten, nachgestellten Ziffern und Hunderten von XML-Tags, die sporadisch dazwischen verschachtelt waren. Es war sofort klar, dass dies die größten Daten waren, die ich je gesehen hatte. Ich werde mich immer an meine Überraschung erinnern, als mir einfiel, dass alles auf meinem Bildschirm nur wenige Sekunden Spieleraktion aus einem Viertel eines Spiels waren.
Laut den Autoren von ein Papier über defensive Kennzahlen im Profi-Basketball, die auf der diesjährigen MIT Sloan Sports Analytics Conference vorgestellt wurden. Die Übersetzung der Verteidigung eines Teams in 'praktisch zählbare' Zahlen bietet nur einen Einblick in ihre tatsächlichen Fähigkeiten.
Während Steals, Blocks und Rebounds einige nützliche Proxys für defensive Fähigkeiten bieten, stellen sie kleine diskrete Signale innerhalb der ständigen Übertragung des defensiven Spiels dar. Daher sind Charakterisierungen, die auf diesen Ereignistypen beruhen, anfällig für viele Formen von Unsicherheit – kurz gesagt, solche Charakterisierungen sind unzuverlässig.
Und da Teamstatistiken „im Wesentlichen aggregierte Spielerstatistiken“ sind, sagte mir Zimmerman, „sollte jede Verbesserung der Vorhersagegenauigkeit ziemlich hilfreich sein... aber das macht die Aussage nicht weniger wahr.'
In der Zwischenzeit bleiben wir bei der nicht-schlechten-aber-ohne-garantierten Vorhersagemodellierung, die seit langem verwendet wird. Und 'egal wie gut ein Vorhersagemodell ist, das man erstellt', schloss Lopez in seinen Recherchen, 'eine immense Portion Glück ist auch erforderlich, um einen NCAA-Turnierpool zu gewinnen.'
Was bedeutet, dass es möglicherweise nicht beliebt ist, den 7. Michigan State zu wählen, um dieses Jahr alles zu gewinnen. Aber das bedeutet nicht, dass sie es nicht tun werden.