Man muss den Daten kluge Fragen stellen
Terabyte, Petabyte, Zettabyte: Big Data steht für Technologien, mit deren Hilfe wir immer schneller, immer einfacher und immer billiger Daten generieren und auswerten können. Diese Daten machen Strukturen erkennbar, die zuvor im Durcheinander der Welt verborgen blieben: im Verhalten von Menschen ebenso wie in den komplexen Ökosystemen der Natur oder in der Entwicklung von Aktienkursen. Big Data sei sicher kein kurzlebiges Phänomen, manche sprächen bereits von einem Big Data-Zeitalter, konstatierte Jürgen Jost, Direktor am Max-Planck-Institut für Mathematik in den Naturwissenschaften in Leipzig in seiner Einführung zur ZiF-Konferenz 2016.
Die siebte Veranstaltung dieser erfolgreichen Reihe öffentlicher Tagungen war den Chancen und Risiken im Umgang mit großen Datenmengen gewidmet. Jost verwies auf die ganz unterschiedlichen Aspekte des Themas: Big Data-Technologien eröffnen der Wissenschaft ganz neue Möglichkeiten, so wäre etwa die Entdeckung des Higgs-Bosons ohne statistische Analysen großer Datenmengen nicht möglich gewesen. Zugleich aber stellen sich vor allem im Hinblick auf Daten über den Menschen ganz andere Fragen: Was wollen wir wissen? Wer soll was wissen dürfen?
Der Philosoph und Informatiker Barry Smith (Buffalo) warf einen Blick zurück in die Geschichte von Big Data, in die Zeit als Biologen erstmals vor dem Problem standen, Daten aus der Sequenzierung von Erbgut mit biologischen Phänomenen in Verbindung zu bringen. Er erklärte, wie Datenmengen heute organisiert und analysierbar gemacht werden, sodass ein Assistenzprogramm im Handy Fragen beantworten kann, die der Nutzer in natürlicher Sprache stellt. Er erläuterte die Algorithmen, mit denen Unternehmen Kaufverhalten ebenso bewerten können wie Gesundheit oder Fahrverhalten. Und er gab sich betont optimistisch: Letztlich werde Big Data die Welt besser und die Menschen klüger und kreativer machen. Wir sind mitten in einer Revolution, und es ist schwer, den Überblick zu behalten, sagte auch Bernhard Schölkopf, Direktor am Max Planck-Institut für Intelligente Systeme in Tübingen. Er erklärte die Bedeutung von Big Data für eine der wichtigsten Fähigkeiten künstlicher Systeme: das Lernen. Erst seit riesige Mengen von Beispielen zur Verfügung stehen, können künstliche neuronale Netze so trainiert werden, dass sie gute Ergebnisse erzielen. Schölkopf erläuterte, wie die Analyse der Datenströme geschieht, die wir im Internet erzeugen, und welchen Nutzen diese Analyse etwa für Onlinehändler hat. »Datenkapitalismus« nannte er das derzeit entstehende System. Er plädierte nicht nur für einen vorsichtigeren Umgang mit den eigenen Daten, sondern vor allem für eine intelligible Künstlich Intelligenz-Forschung, die das Treiben der Algorithmen für den Menschen verständlich macht.
Nach den technischen Hintergründen kamen auch die Anwendungen nicht zu kurz: Nils Bertschinger, Leiter des Forschungsbereichs Systemische Risiken am Frankfurt Institute for Advanced Study warf einen Blick zurück auf die Finanzkrise des Jahres 2007/2008. Er erläuterte die Rolle des algorithmenbasierten Börsenhandels und zeigte auf, wie stark die Ergebnisse von Modellrechnungen davon abhängen, mit welchen Daten sie gefüttert werden: Legt man Messdaten aus einer Phase ruhigen Marktgeschehens zugrunde, wird die Prognose zu stabil ausfallen. Die Komplexität des Marktgeschehens erfordert bessere Modelle, so Bertschinger, Modelle, die mit mehr Daten arbeiten, die sich aber vor allem durch einen engen Dialog von Modell und Daten auszeichnen. Damit brachte er eine These auf den Punkt, die sich wie ein roter Faden durch die ZiF-Konferenz 2016 zog: Datenmassen alleine sind wenig hilfreich. Man muss wissen, welche Fragen man beantworten möchte.
Kay W. Axhausen, Professor für Verkehrsplanung an der ETH Zürich, zeigte die Möglichkeiten und Grenzen von Big Data für die Organisation selbst organisierender Warteschlangen auf, so seine Definition für den Autoverkehr in Großstädten. Was passiert in einer Stadt, wenn Carsharing gefördert wird oder mehr Busse unterwegs sind? Er betonte aber auch, die Analyse erhobener Daten und die Simulation von Verkehrsflüssen könnten kurzfristig helfen, ersetzten aber keine grundlegenden politischen Entscheidungen und auch nicht die Auseinandersetzung über gesellschaftliche Zielvorstellungen.
Die Autos auf den Straßen sind zahlreich, die Datenmengen, die die Detektorkammern der großen Teilchenbeschleuniger produzieren, sind um vieles größer. Volker Linderstruth, Professor für die Architektur von Hochleistungsrechnern am Frankfurt Institute for Advanced Study, entführte die Teilnehmer in die Welt der subatomaren Partikel. Um deren Spuren zu analysieren, baut Lindenstruth Rechenanlagen mit 500 wassergekühlten Prozessoren. Wie die Redner vor ihm, kritisierte Lindenstruth das Datensammeln um des Sammelns willen. Statt von Big Data müsse eigentlich von Big Data Analytics die Rede sein, so Lindenstruth, denn je größer die Menge der Daten, desto wichtiger sei, sie klug zu analysieren. Das viel beschworene Ende der Theorie, das der Wissenschaft durch Big Data drohe, ist demnach weit entfernt.
09:00 | Prof. Dr. Jürgen Jost / Prof. Dr. Michael Röckner Begrüßung und Einführung |
09:15 | Prof. Dr. Barry Smith Die Datenwelt von morgen |
10:15 | Prof. Dr. Bernhard Schölkopf Lernende Maschinen. Statistische und kausale Regelmäßigkeiten in "Big Data" |
11:15 | Kaffeepause |
11:45 | Prof. Dr. Kay W. Axhausen Big Data und die Mobilität: Welche Verkehrsprobleme können 'Big Data' nicht lösen? |
12:45 | Mittagessen |
14:00 | Prof. Dr. Volker Lindenstruth Quarks und Bytes |
15:00 | Kaffeepause |
15:30 | Prof. Dr. Nils Bertschinger Finanzdaten: Wege aus der Krise? |