[Musik] David Kriesel ist data scientist und der eine oder andere kennt ihn vielleicht noch vom 31 C3 wo er den relativ bekannt gewordenen berühmten Xerox ganningbug Vortrag gehalten hat [Musik] diese hat i offensichtlich nicht nur hier bekannt gemacht sondern sogar auch zu internationaler Bekanntheit verholfen Und damit begrüße ich ihn und freue mich auf einen spannenden Talk und bitte Euch noch mal um einen ganz ganz herzlichen Applaus für David danke schön ja danke schön herzlich willkommen auch noch mal von mir auch an die Leute im Internet und auch an die Leute vom Spiegel von denen ich

weiß dass sie anwesend sind es ist schön wieder hier zu sein Mein Name ist David Kriesel ich bin Informatiker aus Bonn und ich mache beruflich es wurde schon gesagt data science und machine learning und salop gesagt versuche ich für meine Arbeitgeber aus großen Datenmengen Wissen zu ziehen und seit 2014 habe ich knapp 100.000 Artikel von SPIEGEL ONLINE gevorratsdaten [Applaus] speichert und und das und das habe ich Einfach niemandem erzählt so und während ich da so zweieinhalb Jahre sitze und das niemandem erzähle ist die Stimmung medial irgendwie umgeschlagen ne vor zweieinhalb Jahren war die Welt noch

in Ordnung m und heute ist die Rede von Lügenpresse und Fake News und genau aus dieser Zeit des stimmungsumbruchs haben wir jetzt ein riesigen Datensatz über den vielleicht größten Meinungsmacher unserer Nation und mit diesem Datensatz werden wir heute zwei Sachen machen erstens wir werden den Datensatz durchleuchten und was über Spiegel online lernen und zwar so dass ihr das auch mit nach Hause nehmen und beim Lesen dann anwenden könnt und zweitens wir werden ein erhalten wie die Datensammelwut von heute funktioniert und wie mächtig oder vielleicht auch nicht mächtig die ist und das machen wir so dass

es für jeden verstehbar ist nicht nur für Informatiker und zusätzlich werde ich wie in meinem letzten Vortrag vor zwei Jahren ein bisschen aufs gesellschaftliche eingehen und wir werden an ein paar passenden Beispielen beleuchten wie die moderne Datenverarbeitung unsere Gesellschaft beeinflussen kann ne und ob wir die Welt mit dieser allumfassenden datensammelw besser oder schlechter machen das kann dann ja spä später jeder von euch für sich selbst entscheiden am besten fangen Wir an indem ich kurz beschreibe wie genau spiegelmining funktioniert rund um die Uhr alle paar Minuten schaut einer meiner Server voll automatisch auf Spiegel Online nach

ob dort neue Artikel stehen und werden neue Artikel gefunden dann werden die runtergeladen und abgespeichert und auf diese Weise hat der Datensatz in coolen Vorteil der jetzt vielleicht nicht sofort ersichtlich ist ich erhalte neue Artikel binen Minuten nachdem sie veröffentlicht Wurden das heißt ich krieg die im Originalzustand also vor allen Verbesserungen und Änderungen die im Nachhinein vorgenommen werden und das ist natürlich viel aussagekräftiger man erhält einen unverfälschten Eindruck und es ist nicht so wie wenn man Artikel runterlädt die vielleicht schon Jahre alt und tausend mal editiert sind aus den runtergeladenen Artikeln lese ich dann sogenannte

Features Feature ist einfach das Fachwort für ein Artikelmerkmal ganz einfache Features eines Artikels können z.B der Veröffentlichungszeitpunkt oder die Rubrik sein in der der Artikel steckt und die Features nehme ich dann und mache damit Auswertungen von denen sehen wir heute noch ein paar und die interessanten unter den Auswertungen nutze ich dann um auf meiner Seite eine blogartikelserie zu schreiben und meinen lesernen Einblick in Spiegel online und in die data science gleichermaßen zu Geben und das war's SPIEGEL ONLINE Spiegel mining in wenigen Minuten am Anfang machen wir jetzt ein paar sehr einfache Auswertung so sehen wir

wie das funktioniert und verschaffen uns gleichzeitig so ein Überblick über Spiegel Online und als erstes zählen wir mal wie häufig die einzelnen Rubriken so vorkommen das ist die Ansicht die Größe der Kreise gibt die Artikelanzahl pro Rubrik wieder und wie wir sehen wird SPIEGEL ONLINE dominiert von Politik das Ist der große rote Kreis rechts oben von Panorama das ist der grüne Kreis in der Mitte und vom Sport das ist der fliederfarbene Kreis ganz unten ich weiß was fliederfarben ist ich höre schon Leute also die drei die drei Rubriken die machen zusammen die Hälfte der Artikel

aus ne und das nächste super einfache Feature ist der Veröffentlichungszeitpunkt von jedem Artikel damit messen wir jetzt einfach mal wie viele Artikel SPIEGEL ONLINE am Tag so schreibt ne der Plot sieht jetzt richtig richtig krass unordentlich aus dass man da fast keine Werte erkennen kann das liegt an den Wochenenden und da wird um die Hälfte weniger veröffentlicht als normal und deswegen schwankt das so krass und hier gibt's dann auch gleich den ersten Bericht auser Praxis wie man deutlich sieht habe ich anfangen märz 2015 ein paar Tage Loch in den Daten ja und der Grund ist

dass der märz ein Monat mit E ist [Applaus] ja also mir mir ist das mir ist das nach kurzer Zeit zum Glück aufgefallen also wenn ihr Daten aufnehmt dann programmiert euch bitte mal irgendeine Form von Warnsystem das anschlächtt wenn länger keine Daten mehr eintrudeln ich hatte das zum Glück und das hat mir hier sehr geholfen und jetzt schlägt's in ein paar Minuten an und da hatte ich irgendwie so paar Tage keine Ahnung zurück zum Plot wegen der Unordnung mit den Wochenenden ändern wir jetzt unseren Plot und berechnen statt den Artikeln pro Tag jetzt die Artikel

pro Woche und man sieht jetzt auch was und da sehen wir das SPIEGEL ONLINE im Schnitt so 700 Artikel die Woche veröffentlicht also so 100 am Tag ne und das ist schon ziemlich viel Output übrigens die die beiden krassen Einbrüche die ihr hier seht das sind die Weihnachtswochen da wird weniger veröffentlicht und der Der Datensatz für diesen Vortrag ist vom 4 Dezember deswegen ist dieser Weihnachts low dieses Mal einfach noch nicht drin und W haben jetzt Features einzeln betrachtet aber richtig interessant wird wenn wir Features zusammen betrachten wir verwursten jetzt also mal Veröffentlichungszeitpunkt und Rubrik

zusammen und dann können wir sehen dass beispielsweise der Output in den Rubriken Panorama und Politik stabil ist während Wissenschaft und Spiegel UniSPIEGEL ganz schön zusammengestrichen wurden ne das gilt ü abgeschwächter Form auch für andere Ressource solche Infos welche Ressource gerade gerupft werden sind z.B relativ interessant wenn man Konkurrent von SPIEGEL ONLINE ist das kann man ohne weiteres auslesen und wir sehen geschickt Features ausdenken und zusammenstöpseln ist die halbe Welt jetzt nehmen wir mal die Textlänge der Artikel dazu hier sind die typischen artikellängen im Spiegel angegeben und Zwar pro Rubrik und man sieht dass der typische

kulturartikel ja fast dreimal so lang ist wie der typische oder Sportartikel und immerhin noch doppelt so lang wie der typische politikartikel und jetzt hatten wir schon gesehen dass Panorama Sport und Politik trotz ihrer kurzen artikellängen genau die drei dominierenden Ressource sind und daraus können wir folgern das SPIEGEL ONLINE ist eher auf Reichweite anlegt und auf akdeckungsbreite als auf Tiefe ja die Strategie Reichweite um jeden Preis scheint SPIEGEL ONLINE auch noch so zu verstärken die zusammengestrichenen Rubriken waren alles welche mit eher langen Texten und bevor das jetzt hier falsch ankommt ich sag das ohne jede Wertung

im Sinne von gut oder schlecht ja das ja eine valide Strategie für ein Medium und ich beschreibe einfach nur gemessene Daten und es keineswegs der Zweck der Veranstaltung irgendwie substanzlos in Richtung von Spiegel Online zu haten ne wer hatet wird nicht ernst genommen das habe ich ja in meinem letzten Vortrag schon ausfühlich beschrieben und die meisten Sachen die hier im Vortrag noch kommen denkt daran die sind bei den anderen wahrscheinlich ähnlich wichtig ist auch dass mit den Features experimentiert ne hier ist z.B Diagramm das zeigt das Veröffentlichungsvolumen pro Wochentag und Stunde ne die Zeilen sind

die Wochentage und die Spalten sind die Stunden eines Tages pro Wochentag und Stunde sehen wir ein Block und in den großen Blöcken sind viele Artikel erschienen und in den kleinen wenige ne und jetzt lernen wir daran mal wie es in der data science zugeht erstens in der data science findet man immer wieder Botschaft bestätigt die man vorher schon erahnt hat ne das der langweilige Teil Der data science ja aber das ist gut um die eigenen Messverfahren zu überprüfen wir sehen hier zu den unchristlichen Zeiten wird viel weniger veröffentlicht ne bahnbrechende Erkenntnis auch der SPIEGEL ONLINE

Redakteur möchte mal schlafen zweitens in der data science findet man aber auch immer wieder Systematiken da wo man keine erwartet hat und das passiert oft dann wenn man Features verbindet wir färben jetzt mal jeden dieser Blöcke ein nach der Typischen Textlänge ja rote Blöcke enthalten typischerweise lange Texte und blaue Blöcke eher kurze und zack es gibt einen klaren Zusammenhang zwischen Tageszeit und Länge der Artikel ja für mich als nichtjournalisten war das damals überraschend die typische Länge der veröffentlichten Artikel die ist von Montag bis Freitag zwischen 5R bis 6 Uhr früh am größten das gleiche am

Wochenende hier gibt's zum Tagesstart auch nur längere Artikel ein bisschen später natürlich ne und das rechtsels Lösung zu diesem Phänomen kommt später noch und als drittes ist die data science natürlich auch dazu da fieseste Vorurteile zu schüren ich führe euch das mal vor jetzt gibt mir bitte mal ein Handzeichen wer von euch denkt dass die Leutchen aus dem Kulturressort morgens bitte gerne ein bisschen länger pennen als die anderen also vielleicht fürs Internet W haben ein Raum von 1600 Leuten der ist Proppen voll und fast alle an die Hand gehoben und die Lösung ist stimmt ja

die [Applaus] Kulturwissenschaftler die Kulturwissenschaftler veröffentlichen typischerweise später in der oberen Verteilung sind alle Artikel außerkultur ja da ist ab 5 Uhr morgens Aktivität und in der unteren Verteilung sind die kulturartikel da geht's mindestens zwei Stunden später los aber zum Ausgleich gehen die auch früher nach Hause aber aber damit wir hier nicht wirklich Vorurteile schüren ne ich war bei Spiege online eingeladen im Oktober und da habe ich das auch so gesagt und dann haben sie gesagt David nein nein manche Artikel werden natürlich auch vorabgescheduled ne das will ich ja fairerweise dazu sagen und ich mache das

auch als Ermahnung dass ihr wenn ihr Daran arbeitet immer noch mal selbst nachdenken müsst wenn ihr was ihr aus solchen Auswertungen wirklich folgangen könnt ne besonders dann wenn ihr schon mit dem Vorurteil da reingegangen seid so wie wir jetzt ne und und wir haben gerade gesehen wie solche Auswertungen grundsätzlich funktionieren also können wir jetzt ein Schritt weitergehen und im Internet wird es ja immer genau dann besonders knusprig wenn personenbezogene Daten ins Spiel Kommen also habe ich mir gedacht es wäre doch mal ein nettes Feature wenn wir mal die Autoren aus den spiegelartikeln rauslesen und das

machen wir jetzt jetzt und die werten wir gleich auf zwei Arten aus die erste Auswertung wird eine ganz neue Auswertung in diesem Vortrag also eine ganz neue Art und die zweite Auswertung wird ein bisschen politisch inkorrekt in unserer ersten Auswertung werden wir versuchen SPIEGEL ONLINE interne Personalstrukturen einfach von Außen zu lesen wenn man zu jedem Artikel eine Liste an Autoren hat dann weiß man ja nicht nur wer jeden Artikel geschrieben hat sondern man weiß auch wer mit wem schreibt und bei Autoren die oft zusammen Artikel schreiben dürfen wir davon ausgehen dass die intensiv zusammenarbeiten wir

wissen also sozusagen welche Autoren wichtig füereinander sind was die Artikel angeht wer wenig oder gar nicht zusammens schreibt der ist in dieser Ansicht nicht Wichtig fürüereinander aus diesen Wichtigkeiten können wir dann eine autorenlandkarte bauen und hier ist sie ja das ist ein Teil des sozialen Netzwerkes der SPIEGEL ONLINE Autoren generiert über die letzten zwei Jahre und jeder Autor ist so ein Bubbel und Autoren die nur ganz selten vorkommen die habe ich hier gefiltert und man man sieht genau entschuldigung das da grippchen von Autoren gibt die sich dichter zusammentun und das sieht aus Als wären es

die Teams und jetzt müssen wir natürlich kontrollieren ob unser durchleuchten von außen auch wirklich funktioniert und um das zu machen färben wir die Autoren mal nach ihren Ressource ein die Ressource die kriegt man aus dem SPIEGEL ONLINE Impressum so und siee da in vielen Fällen haben sich tatsächlich die Ressource voll automatisch in der Landkarte zusammengetan ja hier in pink ist Sport Wissenschaft und Gesundheit Netzwelt Politik ne bis verteilter habe ich jetzt nicht alle eingekreist Panorama Reise ne ich nenne jetzt nicht alle Teams aber ihr seht das Prinzip die hillblauen verteilten Punkte die sind übrigens das

Team von Bento die Arbeiten ein bisschen übergreifender das ist die die kinderausgabe vom Spiegel wer das nicht kennt und und der Punkt ist der Punkt ist wir haben wirklich jetzt relativ genau von Außen durchleuchten können ja wer intern mit wem in einem Team steckt und der Witz ist schaut die ganzen grau Bubbel an ja die sind grau weil sie nicht mehr über das spiegelimessum zugeordnet werden konnten das sind z.B ausgeschiedene Kollegen ja der spiegelchefredakteur ist kürzlich auch grau geworden und das sind aber durch ihre Nähe zu den in gefärbten Gruppen können wir die trotzdem gruppenteam

zuordnen Wir können also was über die sagen obwohl wir eigentlich gar nichts über die wissen und sowas ist denn interessant wir können also einfach live von außen über die Personalstrukturen Buch führen aber jetzt ihr wartet bestimmt schon alle zum politisch inkorrekten Teil ich möchte euch nämlich für was ä sensibilisieren in diesem Plot ist jede Zeile ein Autor und von links nach rechts vergeht die Zeit und jeder farbige Strich ist ein vom jeweiligen Autor veröffentlichter Artikel und wenn wir die Autoren kennen und das tun wir ja jetzt dann wissen wir natürlich auch sehr genau wer wann

veröffentlicht wir sehen z.B diese Zeile mit regelmäßigen Muster das ist ein Kolumnist der veröffentlicht genauen Wochentakt bis auf paar Ausnahmen und bei den Leuten die Tagesgeschehen veröffentlichen ist die Dichte höher und das heißt wir wissen bei denen umgekehrt auch relativ gut wann die Urlaub Machen so das sind nämlich die Lücken in den dichtgefüllten Zeilen und wenn wir aber die Urlaube ungefähr kennen dann wissen wir auch ungefähr wessen Urlaube sich überproportional überschneiden ne Sachen wie Weihnachten die fast alle Urlaub machen die kann man ja einfach rausrechnen und ich appelliere jetzt an eure Berufserfahrung und undut mer

ganz wild dass ihr auch schon mal Kollegen hatteet die irgendwie immer gleichzeitig in Urlaub waren ne so also spaß beiseite aus solchen Daten kann man ohne weiteres lesen wer mit wem was hat jetzt wisst ihr auch warum ich die Autoren hier anonymisiert habe es ist übrigens total klar dass das was wir hier finden nur die nicht alles Pärchen sein müssen das sind die pärchenkandidaten aber wenn man an der Praxis und sowas investiert interessiert ist dann dann ist man damit ja schon mal auf 99% des Weges zum Ziel ne es gibt Firmen die Werten sowas aus

so illegal das auch ist jetzt habt ihr alle gerade gelacht ne kann ich mal um Handzeichen bitten wer von euch heute bei seiner Firma Urlaub genommen hat für ja ja über jeden gibt es solche Daten glaubt mir und und wir halten jetzt mal inne und dann machen wir uns noch mal klar was wir gerade gesehen haben und was die gesellschaftlichen Implikationen sind was wir gerade gesehen haben ist wissensgewinnung über interne Firmeninformation und über höchstpönliche Lebens Bereiche und aus Daten die erstmal gar nicht danach aussehen ne wir hatten ja eigentlich ein Satz Spiegelartikel und plötzlich überraschend

haben wir gute Anhaltspunkte wer mit wem was hat und wir können Teamstrukturen erahnen und damit komme ich zur wichtigsten Message des Vortrags äh wenn ihr Daten veröffentlicht dann entscheidet nicht ihr was ihr da veröffentlicht das Entscheidet der Gegner wir haben noch nicht mal die Daten selbst betrachtet ja wir haben die Artikel selbst ja gar nicht angefasst was wir angefasst haben waren nur Metadaten Zeiten und Autoren genau wie bei der Vorratsdatenspeicherung das sind ja auch nur Metadaten gibt mir mal ein paar Monate eurer Metadaten ja einfach nur W ihr wann Mails und whatsapps geschickt habt und

wann ihr auf welchen Webseiten wart Keine Inhalte danach kann ich euch sagen wer eure besten Freunde sind ja ob ihr eine Affäre habt wie ihr sexuell orientiert seid ob ihr schwanger seid ob ihr eine Krankheit habt ja was eure politische Einstellung ist wie euer Glaube ausgerichtet ist und ob ihr finanzielle Probleme habt und alles was ich gerade vergessen habe ja das brauchsprofil für ein solchen Datensatz wie den der Vorratsdatenspeicherung das kann man gar Nicht in Worte fassen und ich will da überhaupt nicht mit Verschwörungstheorien anfangen ja wir können ja alle mal glauben dass die Voratsdatenspeicherung

für die Aufklärung von Verbrechen nützlich sein kann das ist ja auch total plausibel und wir können ja auch mal glauben dass die Personen die die voritenspeicherung jetzt etablieren guten Willens sind lass uns das einfach mal annehmen ja und das heißt aber nicht dass morgen keiner an Die Macht kommt der das vielleicht ganz anders macht ne was wir hier gerade erhalten ist die Infrastruktur für eine generalüberwachung die selbst George Orwells Big Brother ja die Schamesröte ins Gesicht treiben würde und diese [Applaus] überwachungs und diese und diese überwachungsinfrastruktur die stellen wir jetzt extra schon mal bereit für

den Fall ja dass eine zukünftige Regierung böswillig ist und sie nutzen will das Ist was gerade passiert hm jetzt haben wir einen kurzen Exkurs über Metadaten gemacht und wir gehen jetzt zurück zu SPIEGEL ONLINE ja damit sich eure Laune wieder hebt ähm und deswegen kommt jetzt ein kleiner Einschub den könnt ihr dann direkt anwenden wenn ihr das nächste Mal SPIEGEL ONLINE lest und danach machen wir mal ein bisschen was Größeres ne als ich die Autoren aus den Artikeln rauslesen wollte ja da war ich irgendwann ziemlich genervt Ja also manchmal stehen die oben unter dem Titel

wie hier links im Bild oder die stehen unten wie rechts im Bild und wenn die Autoren oben stehen sind sie ausgeschrieben und wenn sie unten stehen sind es Kürzel oben stehen sie im wirklichen Satz ja hier z.B von Marcel Rosenbach und unten die Kürzel sind ohne Satz drumrum manche Autoren haben nur vor und Nachname und manche Namen haben aber auch vier oder fünf Worte ne wie z.B der freundliche Herr Philip Alvares De Susa suares das habe ich mir extra hier aufgeschrieben fünf Worte das ist ein Name also data science kann technisch nervig sein nicht ich

hätte euch nicht gewarnt und jedenfalls habe ich mir gedacht ja what the [ __ ] warum warum stehen da Autoren in verschiedenen Formen und vor allem an verschiedenen Orten also habe ich mir mal das als Feature reingenommen ob die Autoren oben oder unten Stehen und dann habe ich Messwerte zwischen den beiden Artikelgruppen verglichen Autoren oben und Autoren unten und es stellt sich raus wenn die Autoren unten stehen also nicht namentlich ausgeschrieben sind ist ein typischer Artikel knapp 300 Worte lang ja wir sehen hier die Verteilung der artikellängen von Artikeln ohne ausgeschriebene Namen und nach rechts

werden die Artikel länger da wird es immer weniger und stehen die Autoren Aber oben sind also ausgeschrieben ist ein Artikel typischerweise mehr als zweieinhalb Mal so lang ne knapp 750 Worte man weiß schon womit man gegoogelt werden will als Redakteur ne so und noch was bei den langen Artikeln ist auch nur ca 2% bei 2% der Nachrichtenagentur mit dabei und bei den kurzen Artikeln ist bei knapp 80% in Nachrichtenagentur mit dabei also Fazit für euch zum mit nach Hause nehmen wenn ihr längere Artikel wollt die Spiegel Online selbst verfasst hat dann achtet drauf dass die

Autoren dran geschrieben sind ne wenn ihr kurze Agenturmeldungen wollt sind die Kürzel [Applaus] gut so und jetzt wir hatten ja schon gesehen dass am Tagesanfang primär äh äh längere Artikel erscheinen und das waren eben in Wirklichkeit die selbstgeschriebenen ne die morgen ist der Prozentsatz von denen vergleichsweise hoch und jetzt können Wir die Gelegenheit nutzen und einen Schritt zurücktreten und gucken was wir bis jetzt gemacht haben und wir haben unsere Riesenmenge Artikel immer aus auf äußerst einfache Art und Weise auseinander geschnitten und ausgewertet ne wir haben wir haben die in Wochentage oder Uhrzeiten auseinander geschnitten oder

in Rubriken und dafür wie einfach diese Ideen sind haben wir eigentlich schon ein paar ganz gute Ergebnisse bekommen aber was wir noch gar nicht Gemacht haben ist uns dem Datensatz mal inhaltlich zu nähern und das wäre doch total cool wenn wir die Artikelmenge mal nach den wirklichen Themen über die berichtet wird auseinanderschneiden und auswerten können SPIEGEL ONLINE liefert uns hierbei auch eine gute Hilfe Artikel werden dort verschlagwortet jeder Artikel bekommt von seinem Autor so um die Zeh keybords zugewiesen der Artikel links im Bild hat z.B die keybords Politik Ausland Saudi-Arabien und König Salman von Saudiarabien

also habe ich die Keywords mal ausgelesen über alle Artikel hinweg habe ich um die 65 000 verschiedene Keywords gefunden und jetzt gucken wir wie oft welche Keywords zusammen in denselben Artikel kommen ne und Keywords die fast ausschließlich zusammen vorkommen die sind sozusagen verheiratet die sieht man einfach als eins in der Auswertung und umgekehrt gibt es Natürlich Keywords diese beide für sich genommen existieren aber nie oder fast nie zusammen ja die sind dann unverwandt und dann gibt's noch einen interessanten Mittelweg hier ist ein Beispiel Artikel Artikel mit dem Keyword Angela Merkel und die haben meistens auch

das Keyword Politik und umgekehrt ist das aber nicht so das Keyword Politik ist viel größer und es gibt extrem viele politikartikel ohne Angela Merkel und diese Keywords sind nicht dieselben aber Es ist klar die haben eine Verbindung und wir messen also für alle 65 000 Keywords paarweise wie verwandt die so sind und dann verbinden wir keyw die stark verwandt sind mit so ganz strammen dicken Federn ich meine jetzt wirklich Federn im physikalischen Sinne die die keyboords zuinander hinziehen zwischen schwächer Verwandte Keywords Ken schwächere Federn die werden dann länger so und jetzt machen wir eine physiksimulation

und schauen zu wie sich Diese abertausenden Federn zurecht zurinnen ja Verwandte Keywords werden jetzt tendenziell nah beieinanderut und weniger Verwandte nicht so nah was hier entsteht ist eine thematische Landkarte von allen Sachen über die Spiegel Online in den letzten zwei Jahren berichtet hat so jetzt gerade sieht's so aus als passiert da fast nichts mehr aber gerade passiert die Detailarbeit äh das sieht man nur von so weit oben nicht und deswegen Zoomen wir jetzt mal Ganz weit rein damit wir lernen was wir da erschaffen haben hier ist die Volkswagen abgasaffäre ja wie ihr seht haben die

Keywords unterschiedliche Größen die Größe der einzelnen Keywords spiegelt die Anzahl der Artikel wieder die das Keyword inne haben und das sind sozusagen die Artikel die in dem Keyword drin stecken und die Farbe zeigt an was die vorherrschende Rubrik ist über alle Artikel die in einem Keyword drin Stecken dieses ergelb heißt Wirtschaft ja passt der Witz ist diese Darstellungsweise ist extrem mächtig und vielseitig über die Farbe der keybds da können wir mit dieser Darstellungsweise noch viel meh Infos rüberbringen als nur welche Themen verwandt sind und mit der Farbe können wir beliebige Messwerte Anzeigen ne und wenn

ich dann wenn ich danach so farbige keyboardlandschaften habe dann können wir sehen ob es zwischen Thema und missesswert im Zusammenhang gibt und das machen wir heute auch noch aber erstmal gucken wir bisschen weiter rum hier sind verschiedene Flugzeugunglücke der Themenkomplex befindet sich zwischen Panorama grün und Politik rot wobei die politischen Anteile von dem Flugzeug kommen das über der ukrainischrussischen Grenze abgeschossen wurde jetzt versagt meine Singstimme So besser so hier ist die Griechenlandkrise ja das offensichtlich ein Thema zwischen Politik und Wirtschaft rot und wieder oer und Wolfgang Schäuble ist da direkt mal als Aufpasser dazu layoutet

worden interessanterweise hat der keine Farbe der ist grau und das ist nicht altersbedingt sondern es liegt daran dass es im keybd Wolfgang Schäuble kein dominierendes Ressort gab und jetzt machen wir mal was top Aktuelles das ist die US-Wahl dieses Jahr wir sehen Hillary Clinton und Donald Trump und alles was da so drum rumwimmelt und das ist offensichtlich ein politisches Thema es ist rot und man beachte wie hier das Keyword E-Mails dazu layoutet wurde und von hier aus machen wir uns jetzt mal die Größe der gesamten Landschaft klar ich weiß nicht W heute morgen von euch

in dem Vortrag über Mikroskope war da hat der Vortragende Immer und immer mehr reingezoomt um klar zu machen wie klein die Sachen sind und wir machen das jetzt umgekehrt wir wollen darstellen wie riesig die Landkarte ist und wir Zoomen immer und immer mehr raus haben rausgezoomt der alte Bildausschnitt isttick eingerahmt damit ihr seht wo der ist und wir sehen dass der US-Wahlkampf eingebettet ist in den größeren Landstrich der auslandspolitik links Sehen wir den Bürgerkrieg in Syrien darüber der islamische Staat und von da geht's über den islamistischen Terror weiter nach [Applaus] Frankreich ja die mathem oben

sind die aktuellen Türkei Thematiken also das ist deren Putschversuch und deren Demokratur und rechts von der Mitte ist Russland und der Ukraine Konflikt und links unten ist Israel und der naostkonflikt und wir Zoomen noch weiter raus hier ist nun die gesamte politische Landschaft ja diesmal haben wir mit zwei Rechtecken markiert wo wir herkommen ursprünglich von der US-Wahl und dann von der auslandspolitik also die auslandspolitik ist oben rechts und unten rechts ist der Inland teil und seit neuem gibt es einen riesigen Knubbel der in der Mitte das ist die flüchtlingsthematik die ist mittlerweile so groß wie

eine eigene Unterrubrik und Die ist als dritte Kraft genau zwischen Ausland und Innland etabliert ja was ja auch genau passt wir Zoomen noch mal weiter raus ja jetzt kann man gar nichts mehr erkennen ne außer verschiedenen farbigen Landschaften ich sorg also mal für eine grobe Orientierung hier kommen wir her das rote ist der Politikteil rechts darüber in giftgrün das Panorama m das wird durchteilt von der Wirtschaft die Kette von türkisen klasern entlang Der Unterseite des hauptkontinentes ist die netzwelt Blau im Osten ist der Kulturteil und und so weiter und sofort ja wir können jetzt nicht

alle durchgehen ihr seht die Gebiete gehen auch ininander über und wir wissen jetzt fast wie riesig diese Landkarte ist einmal rauszoomen haben wir nämlich noch hier ist die große weite Welt ja den unteren Teil haben wir schon grob kennengelernt und hier sind wir eigentlich Hergekommen und dem Rest der Welt etwas entrückt ist die Wissenschaft das äh [Applaus] ich ich sehe ihr könnt das nachvollziehen und habt da auch mal gearbeitet und und ganz weit weg vom hauptkontinent ist der Sport ja so und jetzt sehen wir halt erstmal wie groß das ist und wie breit der Spiegel

angelegt ist und diese riesige landkarpere gibt's übrigens bei mir auf der Webseite da könnt ihr auch selbst Drin rumforschen wie in Google Maps so drin rumscrollen das macht auch mehr Spaß als wenn ich das hier nur vorkaue und dar geht jetzt auch weiter wir wenden die jetzt an ja Spiegel Online bietet unter sehr vielen Artikeln an ja ähm ähm ich ich ist das Gelächter geht los bevor ich etwas gesagt ihr wisst doch gar nicht was ich sagen will ne dass man seine eigene Meinung dazu äußern darf und unter manchen Artikeln sperren Sie diese Funktion aber

ne und und das untersuchen wir jetzt mal und ich hatte ich hatte euch ja am Anfang des Vortrags gesagt dass Artikel direkt ein paar Minuten nach dem Erscheinen von mir abgerufen werden also wenn ich sag dass das was nicht kommentiert werden darf dann war das sehr wahrscheinlich direkt vom stwg so ja so schnell randaliert kein Mensch also bevor wir jetzt eine themenlandkarte damit malen schauen wir Mal ganz kurz auf die zeitliche Entwicklung der kommentierbarkeit und zwar einfach damit wir eine Orientierung haben in dem Plot sehen wir pro Kalenderwoche wie viel Proz der erschienenen Artikel kommentiert

werden durften und wie viele nicht und rot sind die nicht kommentierbaren und blau die kommentierbaren und als ich 2014 angefangen habe runterzuladen waren erstmal eine ganze Zeit so 80% der Artikel kommentierbar und genau seit dem Zeitpunkt der großen flüchtlingsberichterstattung im Sommer 2015 ja sinkt der Artikel der kommentierbaren Nachrichten kontinuierlich ab und jetzt seit kurzem ist wirklich die Mehrzahl der Artikel ohne Kommentarfunktion ne die rote Linie überholt die blaue und die kommentierbarkeit wird übrigens nicht nur im Politik Ressort weniger das passiert über übergreifend in fast allen Ressource und ob seitdem der Hass im Netz irgendwie Themen

übergreifend so viel schlimmer geworden ist oder Spiegel Online jetzt einfach zu viel Angst vor fiesen Kommentaren hat das kann ich aus den Zahlen nicht ablesen das müsst ihr dann für euch selbst entscheiden interessant ist aber noch der kleine grüne Plot unten im Bild ne das sind auch auch nicht kommentierbare Artikel aber bei denen steht so ein kleiner entschuldigungstext dran ja dass hier die Kommentarfunktion wegen den Etikett und so weiter gesperrt ist ihr braucht das nicht lesen ich bringe das nur zur Ansicht und diesen entschuldigungstext haben sie zu Anfang der flüchtlingsberichterstattung für flüchtlingsartikel eingeführt und es

scheint so als war SPIEGEL ONLINE da selbst ein bisschen unwohl mit dem krassen Anstieg der kommentarsperrungen aber wie man am Plot sieht haben sie den Hinweis ganz flott wieder aufgegeben obwohl die Kommentiermöglichkeiten immer und immer mehr gesperrt werden so und jetzt geht's zur Landkarte wir färben ein Keyword röter wenn unterdurchschnittlich viele Artikel darin kommentierbar sind und wir fben ein keywoord eher blau wenn das keywoord überdurchschnittlich kommentierbar ist und graue Keywords repräsentieren so den Durchschnitt da sind dann so 70% kommentierbar und es gibt natürlich auch alle Farben dazwischen also wenn so ein Keyword Wirklich aufleuchtet dann

ist das irgendwo am Ende der Skala oder am Anfang und die Landkarte stelle ich auch bald auf meine Webseite die jetzt kommt da könnt ihr da auch selbst drin rumkilicken so und wir fangen mal mit ein paar einfachen Sachen an ja ihr ahnt es Sport darf man quasi komplett kommentieren ja knallblau und falls euch fragt was der knallrote Punkt da ist äh das ist ein bestimmtes artikelformat das ist halt technisch ohne Kommentarfunktion ne sowas kommt schon mal vor ich sag nur dann weil ich sonst gleich 13 mal die Frage Kriege und wo man in der

Regel auch gut kommentieren darf das sind Wissenschaftsthemen und Wirtschaftsthemen ähm hier sind die Bahnstreiks ja da darf nach Kräften auf die Bahn eingekloppt werden und wo wir wo wir schon von Streik reden ist bestimmt jeder hier im Raum sofort in Gedanken ja bei der lufthanser Die streiken ja als hauptkonzernaktivität alles blau alles blau auch die dürfen fiese Kommentare abkriing ich würde ja mitlachen aber ich bin beim Flugzeug hier in Hamburg ne so nach dem ganzen blau jetzt mal was Rotes knallrote Landschaft ergibt sich um die Justiz ja das sind Berichte über die Kriminalität Morde Attentate

ja the full package und hier will man bitte eher weniger Leserkommentare ja so die Justiz Hat so 30% kommentierbarkeit von den üblichen 70% hier ist die ganze Geschichte rund um den NSU Prozess der ist ja auch Thema tiefrot ja generell darf übrigens auch alles was irgendwie mit rechtsradikalen und Nazis und so weiter zu tun hat eher wenig kommentiert werden und der kernknubbel hier der hat so um die 18% kommentierbarkeit ja ist also noch weniger als Justiz und die waren schon rot was auch tiefrot ist ist alles um Die flüchtlingsthematik und zwar nicht nur das konkrete

sondern auch der weitergefasste Rahmen Asylrecht und so weiter seht ihr sogar im Bild und von außen sieht das aus als sperrt der Spiegel seine Kommentarfunktion komplett systematisch und zwar nach Themen ja und dass wir sowas direkt visuell rausfinden können das macht diese Landkarte so unheimlich mächtig allgemein ist es in der data science nicht nur wichtig auszuwerten es es genauso wichtig die Informationen möglichst anschaulich visuell aufzubereiten so können dann nämlich auch Leute die keine Informatiker sind sofort komplexe Zusammenhänge erkennen es gibt ja nur eine Breitbandverbindung ins Gehirn ne und das sind die Augen richtig interessant wird's

wenn man mal guckt wie Spiegel onlight die kommentierbarkeit hart national ordnet das hier ist der ganze nostkonflikt um Israel ja wir an dem Satten Rot seht zum nostkonflikt und Israel hat man bei fast allen Artikeln die Klappe zu halten so jetzt schwenken wir mal vom Nahostkonflikt zum ukraineekonflikt ja ja [Applaus] also ihr könnt euch mit nach Hause nehmen meine Damen und Herren rüenbeschen ist okay ja was wir hier live und in Farbe sichtbar gemacht haben ist nichts Anderes als unsere westliche filterbubel die kann man messen zum Iran darf man sein SFT dazug geben zu Großbritannien

auch zur Türkei da ist SPIEGEL ONLINE sich noch nicht ganz sicher und Frankreich ist interessant ja diese Region der Landkarte die möchte eigentlich blau sein aber die ganzen keybirards rund um die Terrorserie dort die sind knallrot und die Strahlen in die Nachbarn aus und Das schauen wir uns do jetzt mal ein bisschen genauer an das sind alles Frankreich Artikel aber nach Zeit die blaue Linie ist das Aufkommen der kommentierbaren Artikel wieder und die rote Linie wieder das Aufkommen der nicht kommentierbaren und wir sehen wie Frankreich von 2000 bis 2015 erstmal überwiegend kommentierbar ist und die

blaue Linie ist über der roten und hier ist die Terrorserie in Paris im November 2015 und das wird Plötzlich enorm viel berichtet also sehen wir eine krasse Spitze an Frankreich Artikel ne und und davon sind die meisten nicht kommentierbar also Frankreich an sich dürft ihr gerne kommentieren aber bezüglich der Anschläge dort bitte nicht ne und das Interessante ist der Effekt wird wirkt fort seit der terraserie ist ich generell nicht mehr so kommentierbar die rote Linie ist meist über der blauen jetzt treten wir wieder einen Schritt zurück und natürlich sehe ich auch dass der Spiegel Themenbereiche

einfach aufgrund von Erfahrungen der Vergangenheit sperren kann ne und generell müssen wir auch zugeben es ist das gute Recht von Spiegel Online zu entscheiden wo und in welcher Form sie anderen auf ihrer Seite eine Plattform geben und wo sie das eben nicht tun aber genauso ist es halt auch unser gutes Recht diese Systematik hier mal sichtbar Dazu machen und ich denke das sieht insgesamt so aus als verböte SPIEGEL ONLINE genau zu denjenigen teamen die Kommentierung bei denen zu erwarten ist dass die Meinungen der Leser politisch nicht opportun sind ob das jetzt was über Spiegel Online

aussagt oder über seine Leser oder irgendwie ein gesamtgesellschaftliches Problem ist das müsst ihr dann wieder selbst entscheiden was die Auswertung angeht Haben wir der Vortrag bis jetzt im Grunde zwei geteilt am Anfang haben wir die Artikelsammlung in nur wenige Töpfe unterteilt und danach haben wir die Artikelsammlung in viel mehr Töpfe unterteilt das sind die wenigen jeder Artikel konnte sogar in mehreren Töpfen sein ne das war ja so wenn Artikel mehrere Keywords hatte dann war der auch in mehreren Töpfen und das war eine viel komplexere aber auch viel mächtigere Art Der Unterteilung und jetzt merkt ihr

euch diese beiden Arten Unterteilung mal kurz und damit machen wiras politisches wir gehen über zum Thema Wahlkampf ja Wahlkämpfe funktionieren grob so dass man die Menge aller Wähler auseinanderschneidet wie wir unsere Artikel auseinander geschnitten haben das heißt dann voter targeting und bei der US-Wahl konnte man z.B sagen ja man schneidet die Menge der Wähler Grupp nach Geschlecht Hautfarbe Alter und Gehalt ne und das wird auch in der Tat so gemacht dann könnte man sozusagen allen schwarzen Frauen in Kalifornien die zwischen 30 und 40 sind und über 60.000$ im Jahr verdienen zugeschnittene Wahlwerbung schicken und das

ist eine relativ grobe Art der Unterteilung und die ist sozusagen analog zu unseren groben Unterteilungen hier auf der linken Seite der Folie aber was wäre dann die rechte Seite vor einiger Zeit hat dieser Artikel des Schweizer tagesanzeigers die Runde gemacht ich bin sicher viele von euch kennen den der ging ziemlich durchs Netz ja der wurde einem am Tag 13 Mal als Lesebefehl geschickt und so weiter und so fort also ich glaube ich habe den bestimmt 50 Mal bekommen weil ich mich halt auch mit dem machinenlearning auseinandersetze und dem Artikel steht im Grunde dass eine datenanalysefma

ist geschafft habe eine extrem feine Unterteilung von Wählern hinzukriegen das wäre sozusagen analog zu unserer sehr mächtigen themenlandkarte und in dem Artikel steht weiter das hätte diese Firma sowohl für die us entschaftswahl als auch für das brexit Referendum gemacht und es wurde dann behauptet deswegen wäre Trump gewählt worden und deswegen wäre der brexit durchgekommen ne das ist natürlich spooky und das verkauft sich gut ja uiuiiui ja dieselbe Firma hinter Trump und hinter dem brexit Ja da glüht der allohut [Applaus] wirklich und die sagen und die sagen ihre Unterteilung der Wählerschaft sei so fein dass man

jedem Wähler seine genau passende Wahlwerbung schicken könnte und sie sagen nicht nur das sie sagen sie können das sogar noch genauer sie können auch noch genau den Gesprächston treffen s dass der Wähler wahrscheinlich drauf hört generell würde ich sagen ne tiefer Hängen ne es ist überhaupt nicht klar was die Firma den beiden Wahlkämpfen überhaupt wirklich gebracht hat ja die Infos kommen nämlich im Wesentlichen von der Firma selbst und ich glaube ehrlich gesagt ja da da hat die Firma einen hervorragenden Vertriebler geschickt und der hat dann wirklich der Presse einen brillanten Vortrag gehalten und die Presse

hat dann einfach gekauft so und die Kernaussage ist doch nur ihr könnt jetzt Wahlwerbung bekommen die oder Werbung im Allgemeinen die die extrem genau auf euch zugeschnitten ist und euch so effizienter zu Dingen verleitet ne mit anderen Worten ja endlich kriegen nur noch diejenigen viagra Spam ja die das Produkt auch wirklich benötigen das ja zunächst mal nicht schlimm ja aber kaufen und eben wählen das müssen die Leute schon noch selbst es ist nicht so dass Big Data die Leute fernsteuert das müssen wir schon Festhalten also man könnte sagen wer vor so zielgerichteter Werbung Angst hat

der der sollte vielleicht einfach die eigene Urteilsfähigkeit hinterfragen und bestimmt [Applaus] ja ja ja bestimmt haben auch ein paar von euch diesen Gedankengang gehabt und an der Stelle hatte keinen Applaus erwartet und sich selbst haben sie sich damit ein bisschen beruhigt mit diesem Gedankengang ja und das Problem ist nur Ich glaube die eigene Urteilsfähigkeit hinterfragen das macht kaum einer in der Realität wählen die Leute doch irgendwie denjenigen der Ihnen am meisten am emotional passendsten kurz vor der Wahl was zubrüllt ja und so laufen Wahlen das ist ja auch politisch so gewollt ne wo kämen wir

auch hin wenn Wahlen irgendwie langfristigen Erfolg belohnen würden ne und dieses emotionale zurufen und das geht mit so höchst personalisierter Werbung urplötzlich unglaublich effizient und das bedeutet ja data science Techniken können Wahlen beeinflussen ja vorhin hatte ich die vorratsdeitenpeicherung angeprangert ja ich bin ja auf dem CCC also vermute ich dass die meisten von euch da meiner Meinung waren und und damit kommen wir genau zum Punkt ne wisst ihr was die Firma aus dem Artikel genommen hat um die Wähler so ultra genau zu vermessen das waren überhaupt keine staatlichen Überwachungsdaten das waren Facebook Likes also Daten

die die Leute selbst über sich ins Netz gestellt hatten ne und es ist wichtig mit staatlicher Überwachung kritisch zu sein ja das dürfen wir und das müssen wir auch wenn wir keinen unrechtschad werden wollen aber wenn wir dann gleichzeitig völlig unkritisch sind mit uns selbst ja und wirklich jeden Mist ins Facebook oder ähnliche Plattformen Pumpen ja dann haben wir nichts Gewonnen mein Vortrag neigt sich dem Ende es kommen jetzt noch zwei Sachen ähm eine kleine Überraschung und dann habe ich noch eine Bitte an euch alle und zuerst äh gibt es die Überraschung ja äh habe

ich euch vorhin gesagt ich hätte 100.000 Artikel von SPIEGEL ONLINE geladen ich meinte über 700.000 ja ich l ich lade jeden Artikel nicht nur Einmal runter wenn er erscheint sondern mehrfach in wachsenden Zeitabständen ne und mit anderen Worten wir können messen was in Artikeln geändert [Applaus] [Musik] wurde so und aus aus Zeitgründen gibt's damit keine riesen Auswertung erstens aus Zeitgründen hier im Vortrag aber aus auch zweitens aus persönlichen Zeitgründen ne ich muss irgendwann auch noch mal arbeiten aber wir haben eine Kleine Demo ich habe z.B mal geguckt äh ob ob Titel geändert werden ne und

und bei sowas findet man einfach lustige Sachen es gibt nicht nur den Titel der hier offensichtlich ist sondern es gibt auch zusätzlich den HTML Titel die Techniker unter euch kennen den der wird oben im Browser angezeigt und auch die HTML Titel erfasse ich natürlich so und am 21 Januar also ja weiter hier sichtb Artikel ist am 20 Januar 2015 rausgekommen und am 21 januar und das War einen Tag nachdem der Artikel erschienen war wurde mir angezeigt der HTML Titel hat sich geändert auf SAP wächst 2014 langsamer als geplant ich habe mich dann gefragt ne warum

wurde denn geändert ja also wie war der vorher ganz einfach als der Titel rauskam wuchs nämlich nicht SHP sondern der SAP Chef wuchs langsamer als geplant ja so sowas finde ich an sich ganz Sympathisch ja denn es zeigt dass bei Spiegel Online noch Menschen an den Texten sitzen und keine Computer und im Moment heißt der Artikel übrigens SAP kann Wachstums und Gewinnziele nicht erfüllen also das hat noch mal irgendwem nicht gefallen ne und irgendwann zwischendurch haben sie es noch mal geändert also jetzt wisst ihr erst wie mächtig der Datensatz wirklich ist ne ich habe von

jedem Artikel diverse zeitlich versetzte Versionen und das erlaubt natürlich VI viel klassere Auswertung und damit fange ich aber selbst erst an und deswegen ist heute noch so wenig davon im Vortrag aber das war meine Überraschung und jetzt kommt meine Bitte ja ihr habt jetzt alles mögliche gesehen wir haben Artikel auf einfache und komplexe Weise unterteilt ja wir haben gesehen dass verschiedene Arten der Unterteilung und Darstellung verschieden mächtig sind und wir haben verschiedenste Features aus Den Artikeln gelesen Rubrik Zeiten kommentierbarkeit Autor jede Menge weiterer Features sind denkbar ja auch ze Features ja man könnte z.B für

jeden Artikel die darin enthaltenen Links rausziehen und dann gucken ob bestimmte Autoren Kumpels haben auf die sie oft verlinken der Fantasie sind wirklich keine Grenzen gesetzt und zum Schluss haben wir sogar gesehen wir können für jeden Artikel messen was verändert wurde ne wir können z.B gucken wo die Leser am Meisten randalieren ja das das da guckt man indem man guckt wo die Kommentarfunktion erst geöffnet und später dann geschlossen sind also meine Bitte an euch ne jeder der hier zuguckt schickt mir bitte eine Mail mit seinen kreativsten auswertungsideen für den Datensatz ne und in dem Zusammenhang

habe ich noch eine Message die ihr euch auch mitnehmen könnt wenn ihr was im Bereich der data science macht ja Rohdaten sind [Applaus] geil behaltet immer alle Daten wenn ihr es irgendwie vom Speicher bezahlen könnt ne dann könnt ihr nämlich im Nachhinein alles Mögliche tun ich habe alle Rohdaten komplett da das sind über 60 gab pures HTML ja und neue Features im Nachhinein dazu auswerten ist deswegen überhaupt kein Problem darum bitte bitte lasst eurer fantasieffreien Lauf erfindet neue Features erfindet wonach die ausgewertet Werden sollen schickt mir einfach was ihr euch denkt ja vielleicht ist nicht

alles was ihr wollt möglich und vielleicht schaue ich auch nicht alles sofort ich bin ja auch berufstätig und zum Jahresanfang werde ich stramm eingespannt sein aber ich versuche was möglich zu machen also einfach einschicken seid kreativ und damit bleibt es mir nur noch ein dickes Dankeschön zu sagen dafür dass ihr diese Stunde mit mir verbracht habt hier sind Noch die Links und bis [Applaus] dann [Applaus] ganz so schnell bist du natürlich noch nicht entlassen weil wir haben noch unsere Fragerunde erstmal herzlichen Dank immer schön zu sehen eben wie die Mathematik dann doch sehr spannend sein

kann eben solche Daten zu analysieren und ja wie immer wenn ihr Fragen habt tretet vor zu den mikrof zu den Mikrofonen und alle die schnell wahrscheinlich los ein um sich ich glaub drüben ist der Jahresrückblick mit fefe startet bald oder so ich weiß es nicht der fefe sitzt da vorne im Publikum sorry ach der sitzt doch hier ja stimmt so so schnell wird also noch nicht starten aber vielleicht wollen schon mal Platz genau ich sehe schon vielleicht rennt ihr dich den Kameraleuten so ganz vor Bild gut wo Haben wir fragen ich sehe nicht viel da

an Mikro 3 beginnen wir dort hi super Vortrag fand ich echt klasse was mich mal interessieren würde hast du mal geguckt ob die Splitt Test und die Artikel Überschriften ändern anhand von wie viel Leute drauf klicken oder sowas ja das würde man messen daran wie viele verschiedene Titel man so findet und ob wenn diese Zahl der durchschnittlichen Titel pro Artikel ansteigt dann passiert das Und wenn ich das richtig interpretiere dann testen Sie das gerade also es ist noch nicht übergreifend das istur so stoßweise vielleicht will mich auch einer Korrigieren von SPIEGEL ONLINE aber so wie

meine Daten Aussehen ja habe ich getestet sie versuchen es gerade also was ist splesten icht mal fürs Publikum man veröffentlicht Artikel mit verschiedenen Titeln und dann guckt man wo am meisten Leute klicken bei welchem Titel und der Titel darf dann weiterleben ihr verändert also durch euren Besuch direkt die Nachrichtenseite Mikro 1 ja hi ich wollte fragen ob du auch Spiegel plus Artikel die es ja seit mitte diesen Jahres glaube ich gibt mit einbezogen hast und wenn ja hast du einen Plus Account äh ja also ich habe die mit einbezogen äh und und natürlich habe ich

auch einen Plus Account der das voll automatisch Entschlüsselt und dazu also wenn einer näheres ich habe mich da wahnsinnig geärgert kurz als die plusartikel rauskam weil ich die halt nicht auf anip dekrypten konnte und dazu gibt's jetzt bei mir ein Blogartikel seitdem wie man die dekryptet also ich muss ürigens mal was Positives sagen die Spiegel plus Artikel sind im Median 1100 Worte lang also man muss schon sagen da kriegt ihr auch was für das Geld Mikro 7 oben auf dem auf dem Rang hast du im Rahmen deiner Analysen auch auf die Inhalte geguckt dass du

vielleicht die worthäufigkeit analysiert hast und die Zuordnung zu Ressource oder zu Schlagworten anhand der Inhalte abgeglichen hast um vielleicht rauszufinden ob die Verschlagwortung vollständig oder richtig ist dafür ich nicht gemach gefunden es wäre ja also man kann ja die Schlagworte nehmen habe ich es mir bequem gemacht oder man versucht jetzt eine Analyse zu machen was die relevanten Worte im Artikel sind und das habe ich noch nicht gemacht das wären dann sozusagen die schöneren Schlagworte aber nee habe ich noch nicht gemacht so wir schieben mal eine kurze Frage aus dem Internet dazwischen ja ja i möchte

wissen welche Software du benutzt hast um die Daten zu sammeln zu analysieren zu visualisieren und ob es die Daten Irgendwo gibt außer bei dir okay also nein gibt's noch nicht irgendwo außer bei mir weil ich mir auch gar nicht sicher bin ob ich die verteilen darf wenn ich habe ich nutze den Python P dat Stack und die Software zum Runterladen habe ich mir selbst geschrieben die läuft auf einem meiner Server und darüber hinaus nutze ich Pandas für die Analyse das ist auf Python aufbauen und dann diese ganzen machine learning Sachen da drüber skyc learn also

den Ganzen P datasck Google danach einfach findet ihr viel und zum visualisieren habe ich hier Tableau genommen das ist eine Visualisierungssoftware die halt schon voragregier gehte und vorerrechnete Daten bis zu ein paar Gigabyte ganz gut verkraftet und da kann man sehr schnell schöne Visualisierung dususziehen und zum visualisieren der Grafen habe ich geffi genommen Mikro 4 hast du Daten realtime analysiert oder hast du auch oder das alles im Nachhinein gemacht ich verstehe die Frage nicht ob du Daten während du sie gesammelt hast analysiert hast ach so nee das wird alles rohatenmäßig gesammelt dann wird das im

weiteren Schritt erstmal werden die Features rausgepasst und auf und das sind dann so wenige dass sie in der Tat jetzt in RAM passen und ich dann darauf weitere high level Features machen kann das passiert So in drei Layern also ist nicht direkt dabei aber während wir hier vorgetragen während wir gesprochen haben ist schon wieder zehn mal runtergeladen worden also insofern ist das schon gleichzeitig zum Runterladen das runterladen geht weiter Mikro 3 eine Idee für zün auswertigung du könnst mal gucken bestimmte Wortgruppen in älterentikel noch mal vorkam und zu sehen welche zusammenkopiert wurden äh du meinst

ja ja also so eine Auswertung im Sinne von In jedem Artikel kriegt ihr durchschnittlich 73% neuen Content quasi ja guter [Applaus] Punkt machen wir [Applaus] so hallo ja ja ähm ich wollte eiglich nur kurz Denkanstoß geben ich aber ich formuliere das mal als Frage ähm könnte es sein dass äh diese nicht kommentierbarkeit von Israel Artikeln auch einfach ein Ressourcenproblem ist weil es da vielleicht dann mehr aus juristischen Gründen zu zensieren gibt für die Redaktion Z gib ja durchaus Singularitäten im deutschen Strafrecht dass man bestimmte Sachen nicht sagen darf und das könnte halt durchaus sein hätte

es jetzt nur Israel erwischt hätte ich das auf jeden Fall sofort auch gedacht aber ja kann natürlich sein also das ist auch so ganz wichtig an der data science ich habe das jetzt teilweise Bisschen ketzerisch vorgetragen aber natürlich müsst ihr schon selbst noch mal gucken was er aus den Daten folgert ja natürlich das kann das kann sein am besten wissen das natürlich nur die spiegelleute aber Israel war nicht der einzige Punkt der nicht kommentierbar war und zur reinen Justiz gibt es keine Singularität im deutschen Strafrecht Mikro hallo David vielen Dank für den Talk hast du

überlegt die Software irgendwie ob source anzubieten dass man beispielweise für andere Quellen anpassen kann Tagesschau etc habe ich nicht überlegt aber ehrlich gesagt so aufwendig ist es auch nicht ihr schreibt euch ein Skript was halt alle paar Minuten mal losläuft und die Artikel runterlädt und das speichert der Datenbank fertig also das also das Open Source ist das uninteressanteste was es gibt das findet ihr in in 1us Varianten sauberer als ich das gemacht habe noch Mal glaube ich aber ja man könnte meine vergleichsausweise mit anderen Medien starten ja eins wie hast du den strain aus deiner

Karte entfernt du hast ja eine ganze Menge Dimensionen auf zwei Dimensionen runtergebrochen und den was aus meiner Karte den die Spannung weil es hast ja sehr viele Dimensionen auf zwei Dimensionen posiziert und wie hast du sichergestellt dass da jetzt nicht Inseln beieinander sind die gar nicht zusammen gehören oder manche anderen nicht beieinander sind die aufgrund von Inseln die dazwischen liegen eben nicht nah genug beineinander an in der Theorie kann man das nie ganz ausschließen aber an dem Graf steckt sehr viel Verfahren drin also ich habe zunächst mal Z zugesehen dass ich überhaupt nur die wichtigen

kantenprognoten behalte sonst hat man nämlich wirklich viel zu viele Kanten und dann gibt's da professionelle Grafly Outing Verfahren für also geffi bietet was an das heißt Force Atlas 2 und das war das was ihr in dem hübschen Video gesehen habt damit geht das sehr gut also du musst natürlich ein bisschen Schmackes da reininvestieren wie du die Kanten vorher ausfilterst und dann und dann aber dann bist du immer noch nicht sicher in der Theorie aber dann siehst ja ob das Bild gut wird oder nicht Mikro 2 du meintest du warst im Oktober beim Spiegel waren deren

Reaktion zu deinen Analysen positiv ähm also äh ob das jetzt nur daran lag dass äh dass sie sowieso nichts dagegen tun können weiß ich nicht aber ehrlich gesagt habe ich habe ich das als sehr positiv und interessiert wahrgenommen und auch ich habe was gelernt und das war eigentlich ein ziemlich cooler Termin also m sportlicher als die Kollegen bei Xerox sage ich [Applaus] mal noch mal oben der Rang ist vielleicht auch wieder eine suggestiv Frage vielleicht geht es auch in Richtung einer ja Möglichkeit wie man weiterforschen könnte das Verfahren mit mit dieser Physik die du benutzt

hast um die thematische Nähe verschiedener Tags zueinander zu bestimmen wäre es mathematisch nicht korrekter wenn du einfach eine singulärwertzerlegung der adiazenzmatrix dieser Schlagworte baust Ähnlich wie Google das gemacht hat ja aber ob man das dann dann kann man da nicht so ein schönen Grafen draus basteln und und das Verfahren was ich da gen es kommt wahrscheinlich was ähnliches raus sein war ehrlich ich sehe ja die Werte der Kanten und wahrscheinlich ist es am Ende dasselbe ja wenn du genug Dimensionen benutzt ist es eigentlich Äquivalent ja alles ist still Mensch ne drei ja du bist drei

okay noch mal kurz zu den Landkarten das sind ir Monte Carlo Methoden die diese Springs ja im Endeffekt positionieren wie stabil sind die ich denke nicht dass man dafür also ich habe mich da in die Theorie nicht eingearbeitet das das würde mich wundern wenn du da eine Stabilität drüber nachweisen könntest feststeht sie sind etabliert für große Grafen weil da ist sowieso nichts mehr zu planarisieren in der Größe und dann Sieht man halt zu zu iterieren bis es stimmt und wenn es schlecht aussieht dann drückt man noch mal auf den Startknopf also so ist wirklich die

hallo hast du mal Markov auf deine Daten geworfen um Spiegelartikel zu generieren nein könntest du mir bitte damit eine E-Mail schicken sehr gerne oh wir haben Spaß ich sehe das schon also dann machen wir aber nicht [Musik] nur dann dann machen wir aber aber nicht Nur die artikelgenerierung sondern dann wird bitte auch direkt mal dazu generiert ne zu welchem Thema kommentiert werden darf und welchen nicht ne Autoren generieren das auch schön ja so ich glaube wir sind auch langsam am Ende unserer Zeit wer noch Fragen an David hat du bist sicher gleich noch ich gehe

jetzt daraus zur nächsten Bierbar die da ist falls die nicht vorsal 2 ist ist die vorsal 1 Dann bin ich da gut damit lässt sich finden ja wir machen jetzt dedos auf bierb ja ist ja auch Zeit danke [Musik] schön auch von mir noch mal einen herzlichen Dank uns einfach mal die Mathematik so näher zu bringen und vor allem ein Bewusstsein für die Daten die wir über hinterlassen vielen Dank [Musik]

SpiegelMining – Reverse Engineering von Spiegel-Online (33c3)