Wie wir 70 m Kommentare auf der Website des Guardian analysiert
Mahana Mansfield erklärt die Methodik in der Forschung
Der Guardian will verstehen, mehr über die Arten von below-the-Line Kommentare erhalten wir von Lesern auf der Website im Hinblick auf die bestmögliche Diskussion zu fördern und Missbrauch verhindern.
Diese Analyse, die die Muster der Mäßigung auf Artikel von verschiedenen Autoren und zu verschiedenen Themen betrachtet, wird einen ersten Tauchgang in die Daten.
Wir analysierten 70m Kommentare zwischen 4. Januar 1999 und 2. März 2016 aufgenommen (nur 22.000 davon wurden vor 2006). Wir arbeiteten mit diesen Kommentaren in einer Postgres-Datenbank läuft auf Amazon Web Services (AWS), ist ein Klon des Wächters Produktionssystems.
Kommentare sind in der Regel nur bis zu drei Tage nach der Veröffentlichung eines Artikels offen; Nachdem der Thread geschlossen wurde, Kommentare sind sichtbar, aber können nicht neue Kommentare hinzugefügt werden. Wir enthalten nur Kommentare auf der Guardian Website, nicht auf Facebook oder anderen sozialen Plattformen.
Es gibt zwei Gründe, warum Kommentare von Nutzern nicht auf unserer Website erscheint: weil sie blockiert wurden, oder weil sie gelöscht wurden.
Wenn ein Kommentar blockiert ist, dann deshalb, weil es verstößt unsere Community-Standards, eine Reihe von Richtlinien, die darauf abzielen gegen, das Gespräch zu halten, Zivil-, konstruktive und rechtliche. Eine kleine Minderheit sind aus rechtlichen Gründen blockiert, die überwiegende Mehrheit sind blockiert, weil die Moderatoren betrachtet sie als missbräuchlich oder störend zu einem gewissen Grad. Wenn ein Kommentar blockiert ist, wird sie mit einer Nachricht ersetzt:
Dieser Kommentar wurde von einem Moderator entfernt, weil es nicht unsere Community-Standards einzuhalten. Antworten können auch gelöscht werden. Mehr Details finden Sie in unseren FAQs.
Kommentare werden gelöscht, aus zwei Gründen: sie sind entweder Antworten auf blockierten Kommentare oder Spam. Gelöschte Kommentare werden vollständig von der Seite entfernt. Diese FAQ geht mehr ins Detail über die Funktionsweise des Guardian-Moderatoren-Team.
In unserer Analyse haben wir blockierten Kommentare als Indikator für Missbrauch und/oder Störung. Obwohl Fehler manchmal bei Entscheidungen oder nicht Block zustoßen, hielten wir das Dataset groß genug, um uns Vertrauen in die Ergebnisse zu geben.
Unsere Liste der Autoren enthält ca. 12.000 Personen mindestens zwei Artikel des Guardian geschrieben haben wo wir nur Artikel aufnehmen, die sichtbar (3.000 Onlineartikel vor 1998, 2 m nach). Diese Daten wurden ermittelt, durch die Ausführung einer SQL-Abfrage auf unseren Redshift Datawarehouse, das die Daten in unsere Content-API enthält.
Um unsere Journalisten nach Geschlecht zu klassifizieren verwendet wir zuerst dieser Prozess, der uns erlaubt, Geschlechter, 11.098 Namen und links 1.268 nicht codiert zuweisen. Dann schrieben wir ein Perl-Script übergeben die übrigen Namen für diesen Dienst. Gab es noch ein paar Namen, die Links nicht klassifiziert, und wir gingen durch diese manuell. Wir diese Geschlechter in eine Csv gespeichert, und dies auf S3 in AWS hochgeladen.
Unsere Analyse mussten wir drei Datenquellen miteinander zu verbinden: unsere Postgres-Kommentare-Datenbank, unsere Artikelinformationen in unserer Datenbank Redshift und unsere CSV-Autor Geschlechter in S3. Im Idealfall dieser Daten wäre alles an einem Ort, und unsere Daten Technologieteam arbeiten in dieser Richtung durch die Schaffung eines Daten-Sees mit Presto, aber zum Zeitpunkt der Analyse war dies nicht der Fall.
Wir mussten eine Tool finden, die wir sehr große Mengen von Daten aus mehreren Quellen Abfragen würde. Seit einiger Zeit wir haben gefehlt, um ein Testprojekt zu versuchen, Apache Spark zu finden, und beschlossen, dass schien dies ein einfaches Problem Funken sollte gut zu lösen sein. Wir schrieben den Code in Scala und auf einem elastischen MapReduce (EMR)-Cluster auf AWS bereitgestellt. Der Code liest die Daten aus verschiedenen Datenquellen, manipuliert sie und schreibt die Ergebnisse in S3. Der Quellcode gibt es hier.
Unsere aktuelle Arbeit befasst sich mit blockierten Kommentar Preise für verschiedene Teilmengen von Daten und anderen Toplinie Figuren. In Zukunft möchten wir die Worte in den Kommentaren zu erkunden mit Standard- und maßgeschneiderten natürlichsprachliche Verarbeitungsalgorithmen.
Haben Sie Fragen über die Methodik in der Forschung oder der Forschung selbst, bitte fragen Sie in den Kommentaren unten, wo Mahana Mansfield und Becky Gardiner sie beantworten