Daten nicht! Wie Google Flu Trends fiel Weg kurz
Versuch, Grippewellen zu identifizieren, durch die Verfolgung der Menschen-Google-Suche über die Krankheit noch nicht lebte bis zu seiner ursprünglichen Versprechen, argumentiert ein neues Papier.
Sagen Sie Google Grippe-Trends, ein Versuch, anhand der Suchbegriffe, Grippewellen verfolgen überschätzt drastisch die Zahl der Grippe-Fälle in der Saison 2012-2013 und die neuesten Daten sieht nicht vielversprechend aus, David Lazer, einem Computer und Politologe an der Northeastern University in Boston und seine Kollegen in einem politischen Artikel veröffentlicht Freitag (14. März) in der Fachzeitschrift Science über die Fallstricke von Big Data.
"Gibt es eine riesige Menge an potenziellen dort, aber es gibt auch eine Menge Potenzial, Fehler zu machen" Lazer erzählte Leben Wissenschaft. [6 Superbugs aufpassen]
Google Fehler
Es ist kein Wunder, dass Google Grippe-Trends nicht immer einen Home Run trifft. Im Februar 2013 berichten die Forscher in der Fachzeitschrift Nature, die das Programm Schätzung war über zweimal die Anzahl der Grippe-Fälle wie von den Centers for Disease Control aufgezeichnet und Prevention (CDC), die tatsächlichen Titel Fälle gemeldet.
"Wenn es aus den Fugen ging, es wirklich von den Schienen ging", sagte Lazer.
Google Grippe-Trends kämpfte auch im Jahr 2009 einen nonseasonal Grippe Ausbruch des H1NI völlig fehlt. Die Fehler haben dazu geführt, das Google-Team, deren Algorithmus Re-Werkzeug, aber ein ersten Einblick in die aktuelle Grippe-Saison schlägt diese Änderungen das Problem nicht behoben haben, nach einer vorläufigen Analyse von Lazer und Kollegen veröffentlicht heute (13. März) auf die Sozialwissenschaften vor der Veröffentlichung Website Social Science Research Network (SSRN).
Das Problem ist nicht nur für Google Grippe sagte Lazer. Alle Sozialwissenschaften Big Data oder die Analyse von großen Schwaden der Bevölkerung von mobile oder social Media Technologie, steht vor den gleichen Herausforderungen, die das Google Grippe-Team versucht, zu überwinden.
Große Daten-Nachteile
Herauszufinden, was bei Google Grippe-Trends schief gelaufen ist nicht einfach, weil das Unternehmen nicht welche Suchbegriffe verwendet preisgibt, um die Grippe zu verfolgen.
"sie bekommen eine F auf die Replikation", sagte Lazer, was bedeutet, dass Wissenschaftler nicht genügend Informationen über die Methoden zu testen und die Ergebnisse zu reproduzieren.
Aber Lazer und seine Kollegen haben einen Sinn für was schief gelaufen ist. Ein großes Problem, sagte er, ist, dass Google ein Unternehmen Interesse an der Förderung sucht, keines wissenschaftlichen Teams sammeln von Daten. Der Google-Algorithmus, fordert dann, Verwandte Suchanfragen zu Benutzer: Wenn jemand "Grippe-Symptome" sucht, werden sie wahrscheinlich aufgefordert, eine Suche nach "Grippe-Impfstoffe," zum Beispiel versuchen. So kann die Anzahl der Grippe-bedingten Suchanfragen Schneeball, selbst wenn Grippe Fällen nicht. [5 gefährliche Impfung Mythen entlarvt]
Ein weiteres Problem, Lazer sagte, ist, dass das Google Grippe-Team musste unterscheiden zwischen Grippe-bedingten suchen und suchen, die mit der Grippesaison korreliert aber nicht verwandt sind. Dazu, sie nahm mehr als 50 Millionen Suchbegriffe und ihnen mit ca. 1.100 Datenpunkte auf Grippe Prävalenz von CDC abgestimmt.
Das Korrelation Spiel mit so vielen Begriffen ist verpflichtet, ein paar seltsame, unsinnige Ergebnisse zurückgeben Lazer sagte: "genau wie Affen Shakespeare schließlich geben können." Z. B. Gipfel "High School Basketball" als Suchbegriff im März, die dazu neigt, den Höhepunkt der Grippesaison. Google offensichtlich falsche Korrelationen herausgesucht und entfernt sie, aber genau welchen Bedingungen sie entfernt und die Logik des Handelns ist also unklar. Einige Begriffe, wie "Husten" oder "Fieber" Grippe-bedingten sieht aber eigentlich signalisieren andere saisonale Krankheiten, Lazer, sagte.
"Es war Teil Grippe Detektor und Teil-Winter-Detektor", sagte er.
Probleme und Potenziale
Das Google-Team nach der 2009 und 2013 vermisst ihren Algorithmus verändert, aber die jüngsten Änderungen auf der Annahme, dass ein Anstieg der Medienberichterstattung über die Grippe-Saison 2012 / 2013 die Probleme verursacht, Lazer und seine Kollegen in ihrem SSRN Papier schrieb. Annahme die großen Medienberichterstattung über die 2009 H1N1-Pandemie Rabatte und nicht erläutere, Fehler in der Grippe-Saison 2011 / 2012, argumentieren die Forscher.
Eine Google-Sprecherin wies Leben Wissenschaft auf einen Blog-Post über die Google Grippe-Updates, die ruft die Bemühungen zur Verbesserung der "eines iterativen Prozess."
Lazer war schnell darauf hin, dass er nicht Kommissionierung auf Google, ruft Google Grippe-Trends "eine tolle Idee." Die Probleme der Google Grippe in anderen social-Media-Datasets widergespiegelt werden, sagte Lazer. Beispielsweise kann Twitter Nutzer wissen, was angesagt ist, auf der Website, die diese Begriffe weiter steigert. [Die Top 10 goldenen Regeln von Facebook]
Es ist wichtig, beachten Sie die Grenzen der riesigen Datasets, die online gesammelt, sagte Scott Golder, ein Wissenschaftler, der solche Datensätze im Kontext relevanten Unternehmen zusammenarbeitet. Proben von Menschen, die soziale Medien, b. z. sind ein Querschnitt der Bevölkerung als Ganzes nicht – sie sind jünger, reicher oder technisch versierte, zum Beispiel.
"Menschen müssen umsichtig in den Ansprüchen, die sie machen," sagte Golder, wer nicht in der Lazer Google Kritik beteiligt war, Leben-Wissenschaft.
Keyword-Auswahl und eine social Media Plattform Algorithmen sagte andere sorgen, Golder. Vor ein paar Jahren arbeitete er an einem Projekt, die Negativität in den sozialen Medien zu studieren. Das Wort "hässlich" in den Abendstunden Spick gehalten. Es stellte sich heraus, dass Leute nachts Selbstwertgefühl Krisen waren nicht. Sie plauderten über die ABC-Serie "Ugly Betty."
Diese Probleme sind jedoch kein Todesstoß für Big Data – Lazer selbst sagt Big Data Möglichkeiten sind "unglaublich." Sozialwissenschaftler befassen sich mit Problemen der instabilen Daten aller Zeiten, und Googles Grippe Daten feststellbar, Lazer, sagte.
"Mein Gefühl mit Blick auf die Daten und wie es ging, ist dies etwas Sie ohne Google Optimierungen ihrer eigenen Geschäftsmodell korrigieren konnte," sagte er. "Du musst nur wissen [Problem] ist da und denken Sie an die Folgen."
Lazer forderten mehr Zusammenarbeit zwischen Big Data Forscher und traditionellen Sozialwissenschaftler mit kleinen, kontrollierten Datensätzen arbeiten. Golder vereinbart, dass die beiden Ansätze ergänzen können. Big Data kann Hinweis auf Phänomene, die Kontrolle mit traditionellen Techniken benötigen, sagte er.
"Manchmal kleine Datenmengen, wenn es die richtigen Daten ist noch informativer sein können", sagte Golder.
Folgen Sie Stephanie Pappas auf Twitter und Google + . Folgen Sie uns @livescience, Facebook& Google +.