Laden Sie das Dataset jeder öffentlich zugänglichen Reddit-Kommentar
Redditor "Stuck_in_the_Matrix" hat einen Torrent gepostet von was er behauptet, ein Dataset jeder öffentlich zugänglichen Kommentar auf Reddit.
Das ist 1,7 Milliarden Kommentare insgesamt, mit Daten über den Autor, Subreddit, positionieren Sie in der Kommentar-Struktur und Punktzahl für jeden Beitrag zu kommentieren. "Dieses Dataset über 1 Terabyte unkomprimiert, so wäre dies am besten für größere Forschungsprojekte", schrieb Redditor und Dataset Compiler "Stuck_in_the_Matrix."
Bis zum 4. Juli hatten die Redditor zuerst veröffentlicht über das Dataset auf Subreddit R/Datasets (natürlich) am 3. Juli, und mit etwas Hilfe von anderen Benutzern einen Torrent eingerichtet. Ein kleiner Datensatz, bestehend aus nur einen Monat im Wert von Kommentaren, gibt es auch als Torrent.
Was können Sie mit all diese Daten? "Gib mir 5 gute Datenanalysten und finden wir den Heiligen Gral der Karma!", sagte Benutzer "Kill-Init."
Reddit Benutzer "Mattrepl", die sich als Doktorand beim maschinellen Lernen und Gemeinschaft Dynamik identifiziert, vorgeschlagen, dass das Dataset verwendet werden könnten, um den Fluss von Online-Unterhaltungen oder die Verbreitung von Internet-Meme zu entwickeln – ein Thema, dass Soziologen in den letzten Jahren zunehmende Aufmerksamkeit geschenkt haben. Es könnte auch verwendet werden, um vorherzusagen, welche Subreddits oder Kommentar-Threads, die, denen ein Benutzer beteiligen kann, die dazu beitragen könnten bessere Empfehlungssysteme zu entwickeln.
All diese Daten ist durch Reddit API zur Verfügung, aber nach anderen redditoren in R/Datasets, sammeln sie alle hätte eine erschreckend langwierige Aufgabe. "Ich habe mit Reddit API einige gespielt und Crawler um Daten vom Benutzer, Sub, Thread geschrieben haben." Aber es wird unerschwinglich, alle Daten zu bekommen, wenn Sie müssen kontinuierlich Anfragen für relativ kleine Datenmengen und dann setze sie zusammen,"Benutzer"rePAN6517"in einem Kommentar schrieb.
Und andere sind offen skeptisch des Datasets. Ein Kommentator, "Lost_file", behauptet, "Reddit hat eine Richtlinie für die Menge der Anfragen können Sie pro Sekunde. Dieses Dataset hätte mindestens ein Jahr zu kompilieren. Etwas ist faul."
Ab dem Zeitpunkt der Veröffentlichung noch nicht "Stuck_in_the_Matrix" auf diese Fragen geantwortet.
[Reddit]
Kontaktieren Sie den Autor unter [email protected] oder folgen Sie ihr auf Twitter.
Oberes Bild: gettyimages.