Wie wir 70 m Kommentare auf der Website des Guardian analysiert

Mahana Mansfield erklärt die Methodik in der Forschung


Der Guardian will verstehen, mehr über die Arten von below-the-Line Kommentare erhalten wir von Lesern auf der Website im Hinblick auf die bestmögliche Diskussion zu fördern und Missbrauch verhindern.

Diese Analyse, die die Muster der Mäßigung auf Artikel von verschiedenen Autoren und zu verschiedenen Themen betrachtet, wird einen ersten Tauchgang in die Daten.

Wir analysierten 70m Kommentare zwischen 4. Januar 1999 und 2. März 2016 aufgenommen (nur 22.000 davon wurden vor 2006). Wir arbeiteten mit diesen Kommentaren in einer Postgres-Datenbank läuft auf Amazon Web Services (AWS), ist ein Klon des Wächters Produktionssystems.

Kommentare sind in der Regel nur bis zu drei Tage nach der Veröffentlichung eines Artikels offen; Nachdem der Thread geschlossen wurde, Kommentare sind sichtbar, aber können nicht neue Kommentare hinzugefügt werden. Wir enthalten nur Kommentare auf der Guardian Website, nicht auf Facebook oder anderen sozialen Plattformen.

Es gibt zwei Gründe, warum Kommentare von Nutzern nicht auf unserer Website erscheint: weil sie blockiert wurden, oder weil sie gelöscht wurden.

Wenn ein Kommentar blockiert ist, dann deshalb, weil es verstößt unsere Community-Standards, eine Reihe von Richtlinien, die darauf abzielen gegen, das Gespräch zu halten, Zivil-, konstruktive und rechtliche. Eine kleine Minderheit sind aus rechtlichen Gründen blockiert, die überwiegende Mehrheit sind blockiert, weil die Moderatoren betrachtet sie als missbräuchlich oder störend zu einem gewissen Grad. Wenn ein Kommentar blockiert ist, wird sie mit einer Nachricht ersetzt:

Dieser Kommentar wurde von einem Moderator entfernt, weil es nicht unsere Community-Standards einzuhalten. Antworten können auch gelöscht werden. Mehr Details finden Sie in unseren FAQs.

Kommentare werden gelöscht, aus zwei Gründen: sie sind entweder Antworten auf blockierten Kommentare oder Spam. Gelöschte Kommentare werden vollständig von der Seite entfernt. Diese FAQ geht mehr ins Detail über die Funktionsweise des Guardian-Moderatoren-Team.

In unserer Analyse haben wir blockierten Kommentare als Indikator für Missbrauch und/oder Störung. Obwohl Fehler manchmal bei Entscheidungen oder nicht Block zustoßen, hielten wir das Dataset groß genug, um uns Vertrauen in die Ergebnisse zu geben.

Unsere Liste der Autoren enthält ca. 12.000 Personen mindestens zwei Artikel des Guardian geschrieben haben wo wir nur Artikel aufnehmen, die sichtbar (3.000 Onlineartikel vor 1998, 2 m nach). Diese Daten wurden ermittelt, durch die Ausführung einer SQL-Abfrage auf unseren Redshift Datawarehouse, das die Daten in unsere Content-API enthält.

Um unsere Journalisten nach Geschlecht zu klassifizieren verwendet wir zuerst dieser Prozess, der uns erlaubt, Geschlechter, 11.098 Namen und links 1.268 nicht codiert zuweisen. Dann schrieben wir ein Perl-Script übergeben die übrigen Namen für diesen Dienst. Gab es noch ein paar Namen, die Links nicht klassifiziert, und wir gingen durch diese manuell. Wir diese Geschlechter in eine Csv gespeichert, und dies auf S3 in AWS hochgeladen.

Unsere Analyse mussten wir drei Datenquellen miteinander zu verbinden: unsere Postgres-Kommentare-Datenbank, unsere Artikelinformationen in unserer Datenbank Redshift und unsere CSV-Autor Geschlechter in S3. Im Idealfall dieser Daten wäre alles an einem Ort, und unsere Daten Technologieteam arbeiten in dieser Richtung durch die Schaffung eines Daten-Sees mit Presto, aber zum Zeitpunkt der Analyse war dies nicht der Fall.

Wir mussten eine Tool finden, die wir sehr große Mengen von Daten aus mehreren Quellen Abfragen würde. Seit einiger Zeit wir haben gefehlt, um ein Testprojekt zu versuchen, Apache Spark zu finden, und beschlossen, dass schien dies ein einfaches Problem Funken sollte gut zu lösen sein. Wir schrieben den Code in Scala und auf einem elastischen MapReduce (EMR)-Cluster auf AWS bereitgestellt. Der Code liest die Daten aus verschiedenen Datenquellen, manipuliert sie und schreibt die Ergebnisse in S3. Der Quellcode gibt es hier.

Unsere aktuelle Arbeit befasst sich mit blockierten Kommentar Preise für verschiedene Teilmengen von Daten und anderen Toplinie Figuren. In Zukunft möchten wir die Worte in den Kommentaren zu erkunden mit Standard- und maßgeschneiderten natürlichsprachliche Verarbeitungsalgorithmen.

Haben Sie Fragen über die Methodik in der Forschung oder der Forschung selbst, bitte fragen Sie in den Kommentaren unten, wo Mahana Mansfield und Becky Gardiner sie beantworten

Verwandte Artikel

Mein Name ist nur Real genug, bei Facebook zu arbeiten, nicht zur Verwendung auf der Website

Ich wusste immer, dieser Tag kommen würde. Der Tag, an dem Facebook beschlossen mein Name war nicht real genug und kurzerhand mich von meinen Freunden, Familie und Kollegen abgeschnitten und ließ mich mit der schwierigen Entscheidung zwischen meinen offiz...

La Trobe akademischen kritisiert "rassistisch" Flagge auf der Website der Universität vor drei Jahren

Sichere Schulen Manager Roz Ward wurde suspendiert Kommentare über die Flagge trotz Anthropologe Nicholas Herriman Voicing ähnliche Aufrufe La Trobe University ausgesetzt umstrittene Forscher Roz Ward für den Aufruf der australische Flagge rassistisches t...

Airbnb: wie US Bürgerrechtsgesetze ermöglichen Rassendiskriminierung auf der Website

Die sharing Economy existiert in einer rechtlichen Grauzone außerhalb der Reichweite der hart erkämpften Bürgerrechtsgesetze und schwarzen Benutzer sagen, dass sie dadurch diskriminiert Die vier schwarzen Studenten, die an einem weißen nur Mittagessen Sch...

Ich hasse Cashback, wie meine £51 Topf zusammen mit der Website verschwindet

Gibt es irgendeine Chance, mein Geld aus ich liebe Cashback bekommen? Letztes Jahr ich habe mich auf Cashback Website ich liebe Cashback, die Geldprämien angeboten, wenn Sie ihre Website als Portal zu verschiedenen Online-shopping-Sites verwendet. Ich übe...

Sieht aus wie wir falsch über die Herkunft der Hunde lagen

Die genaue Herkunft unserer Hunde Begleiter ist in Kontroversen verstrickt. Aber eine neue Studie legt nahe, dass Hunde von nicht eine, sondern zwei verschiedene Populationen von alten Wölfe entstanden. Darüber hinaus passiert diese dual Zähmung auf gegen...

Ein Raum-Anwalt erklärt wie wir eine Zivilgesellschaft außerhalb der Erde schmieden werde

Ohne auch nur ein Jahrhundert oder so einen Blick voraus, wenn wir einen Virgin Galactic Flug nehmen nach unseren Sommer in Europa verbringen, gibt es viele rechtliche Fragen, die bereits die Menschheit im Weltraum konfrontiert sind. Thats, warum Raum Rec...

Wie Tetris Game Boy nehmen auf der ganzen Welt geholfen

Vor dreißig Jahren in dieser Woche erstellt russischen Programmierer Alexei Leonidowitsch Pajitnov Tetris. Hinter dem Eisernen Vorhang vorgestellt, die trügerisch einfache, aufreizend süchtig machendes Spiel bald verließ die Sowjetunion. Es lebte auf Dutz...

Wie Jean Julliens einfach Doodle auf der ganzen Welt zu verbreiten

Grafik-Designer schnell eine Skizze ist ein globales Symbol der Solidarität geworden. Das erste, was, das Jean Jullien Tat, als hörte er über die Anschläge von Paris, war für Papier und seine Pinsel zu erreichen, und skizzieren Sie ein einfaches Bild auf...

Wie Google gibt Ihre Informationen auf der NSA

Seit der Nachricht des PRISMAS kam, gab es viel Verwirrung und Ablehnung über genau wie die NSA Ihre Informationen aus dem Unternehmen erhält, die sie gesammelt haben. Jetzt Google bis in die Details fessed, und es nicht überraschend ist einfach: per FTP...

Größten Geheimnisse: Wie viele Arten gibt es auf der Erde?

Anmerkung des Herausgebers: wir mehrere Wissenschaftler aus verschiedenen Bereichen gefragt, was sie dachten, waren die größten Mysterien heute, und dann haben wir ein paar hinzugefügt wurden, die in unseren Köpfen zu. Dieser Artikel ist eine von 15...

Allerheiligen: "Wir mussten gehen topless auf der Oberseite der Pops oder aus der Serie geschnitten werden"

All-Girl-pop-Gruppe zu offenbaren, wie wenig Autonomie hatte sie als Frauen in männerdominierten Musikindustrie in den späten 1990er Jahren Allerheiligen ergaben den Sexismus konfrontiert sie als ein All-Girl-Group in den späten 1990er Jahren, einschließl...

Shameless wie Sterne kam vom Alter auf der West End Bühne

Maxine Peake und Anne-Marie Duff gehören zu vielen Stars, deren Karrieren in der Show begann. Und ein paar von Casting-Direktoren waren entscheidend für seinen Erfolg schreibt Vanessa Thorpe Gab es keinen Mangel an guten Geschichten auf dem Chatsworth Anw...

Wie ein Insekt Sprünge auf der Oberfläche des Wassers

Pygmäen Maulwurfsgrillen sind auch qualifizierte Springer an Land und auf Wasser, erstaunlich. Neue Forschung zeigt, wie ihre Hinterbeine wie gefederte Paddel um sie von der Oberfläche eines Teiches treiben zu handeln. Forscher Malcolm Burrows, der Univer...

Clinton attackiert Trump bei SEIU Rallye: Wir brauchen keine "Bully auf der Kanzel"

Clinton kritisiert auch "Trump Ökonomie" während der Veranstaltung in Detroit mit Service Employees International Union, der Kandidat den Demokraten gebilligt hat Hillary Clinton startete einen kompromisslosen Angriff auf ihre Gegnerin wahrschei...