Automatische Themen-Identifikation: Möglichkeiten für Verlage und Content Marketing
Während der letzten Jahre habe ich mich sehr viel mit Online-Nachrichten, ihrer Verbreitung im Social Web und ihren Themen beschäftigt. Die Identifikation von Themen hat es mir hierbei besonders angetan.
Eine Nachricht besteht meist aus Text und wird mit Multimedia-Elementen, wie Bildern oder Videos, angereichert. Wenn man es schafft, die wichtigsten Begriffe aus dem Nachrichtentext per Textanalyse zu identifizieren und diese zu bewerten, erhält man optimalerweise eine Zusammenfassung des Textes in wenigen Worten. Diese einzelnen Begriffe sind, für sich genommen, bereits einzelne Themen, wie z.B. Streik, Hamburger SV oder Brandenburger Tor. Über jeden dieser Begriffe gibt es Hintergrundinformationen, die alleine bestimmt Bücher füllen könnten. Bei einer Nachricht sind es meist mindestens drei Themen, die zusammen das Nachrichtenthema ziemlich genau beschreiben können. Beispiele wären „Streik – Bahn – GDL“, „Borussia Dortmund – Torwart – Roman Weidenfeller“ oder „Müll – Plastik – Ozean“. Meist besteht es aus 1-2 allgemeinen Begriffen plus Unternehmensname, Marke, Personenname, Institution oder einer Ortsangabe.
Vor ca. einem halben Jahr habe ich angefangen, in meiner Freizeit einen recht komplexen Service zu programmieren, der Themen in deutschsprachigen Texten ermittelt. Hierbei gibt es auch unterschiedliche Themen-Ebenen. Zum Beispiel ist „FC Bayern München“ für mich ein Thema, das Oberthema davon ist „Fußball“ und die Nachrichtenkategorie wäre „Sport“. Um Themen vernünftig über einen technischen Algorithmus zu ermitteln, muss ein System natürlich erst mal die einzelnen Themen und ihre Bedeutung bzw. Einordnung kennen. Hierbei kann man sich z.B. die Artikel-Datenbank von Wikipedia als Datengrundlage nehmen. Alleine für die deutsche Sprache gibt es mehr als 2,5 Mio. Artikel zu einzelnen Themen. Das Problem ist hierbei aber, dass man eine externe Abhängigkeit hat (Artikel zu neuen Themen erscheinen erst nach Wochen, die Einordnung in Kategorien ist undurchsichtig, Daten-Dumps sind durch die Größe schlecht verwaltbar, usw.). Ich habe mich dann entschlossen, eine eigene Themen-Datenbank aufzubauen, bei der ich dann auch die komplette Kontrolle über die Kategorisierung und die Erweiterungen habe. Dazu war zwar viel manueller Aufwand nötig, aber der hat sich bisher definitiv gelohnt. Auch verdichtet das System u.a Substantive und Verben automatisch zu bestimmten Themen und es lernt täglich weiter. Ich möchte jetzt aber auch nicht zu technisch werden. Bisher sind die Ergebnisse so gut, dass ich schon ziemlich zufrieden bin. Rund um die Themen-Identifikation habe ich einige kleine weitere Services entwickelt, die speziell für Verlage und Marketing-Agenturen interessant sein könnten.
Möglichkeiten Verlage:
Trendthemen
Als Verlag ist es wichtig, dass man die aktuellen Trendthemen in seinem Bereich kennt. Ich habe mit scoopio im September eine kleine Website veröffentlicht, auf der man die aktuellen Trendthemen von deutschsprachigen Nachrichtenportalen und Blogs aus den letzten Stunden auf einen Blick erhält. Hierfür folge ich ich mit dem Twitter-Account @scoopio_de vielen interessanten Menschen und Medien, deren Tweets ich alle 5 Minuten auswerte (verlinkte Artikel) und dann über einen etwas komplexeren Algorithmus ermittle, welche einzelnen Themen besonders häufig in den letzten 4 Stunden erwähnt und welche URLs bei Twitter in dieser Zeit viel geteilt wurden. Die meist verteilten Artikel werden dann zu dem Nachrichtenthema mit angezeigt. Ich selbst habe für mich persönlich noch einen eigenen Service programmiert, der mir alle Artikel anzeigt, die anhand der Themen besonders für mich interessant sein könnten. Viele Artikel/URLs, die ich bei Twitter veröffentliche, habe ich auch darüber entdeckt.
Themen-Timeline
Als Leser fehlt mir leider oft der Hintergrund für manche Artikel. Es gibt momentan so viele Krisen auf der Welt, bei denen fast jeden Tag etwas Neues passiert. Wenn ich einen Artikel lese, hätte ich manchmal gerne einen thematischen Zeitstrahl, auf dem ich auf einen Blick den Verlauf einer Krise ersehen kann und ich die Möglichkeit erhalte, darüber auch weitere Artikel zu dem Thema zu lesen.
Ich habe das mal für FAZ-Artikel (mindestens 15 Retweets) zum Thema „Islamischer Staat“ und „Referendum in Schottland“ gemacht.
Islamischer Staat:
Referendum Schottland:
Ähnliche Artikel / Kategorisierung Archiv:
Generell sind die ähnlichen Artikel, die bei Nachrichtenportalen angeboten werden, teils nicht optimal (Thema passt nicht, vorgeschlagener Artikel zu alt). Grundsätzlich werden ältere Artikel oft nicht mehr /wenig verlinkt und verlieren durch die ständigen neuen Artikel schnell ihre Relevanz. Dabei sind es oft Schätze, die verloren gehen. Durch einen Themen-Service könnte man automatisch das Archiv neu ordnen und ältere qualitative Artikel besser den Lesern vorschlagen.
Personalisierung:
Als Nachrichtenportal hat man sich Möglichkeit zu tracken, welche Artikel jeder Besucher liest. Besonders die Paywall bietet hier den Vorteil, dass jeder User sich einloggen muss. Ermittelt man nun die Themen der Leser, hat man schnell ein Interessensprofil für ihn erstellt. Man erkennt schnell, ob sich jemand für Sport (evtl. eine bestimmte Sportart oder einen Verein) interessiert oder der Leser lieber Artikel über Wirtschaft, Politik, die Oper, Hunde oder Promis mag. Nutzt man als Nachrichtenportal diese Erkenntnis, kann man dem Leser die Nachrichten präsentieren, die für ihn relevant sein könnten. Dies führt unweigerlich zu mehr gelesenen Artikel, höherer Verweildauer und einer stärkeren Bindung vom Leser zum Medium. Auch für die Werbung ist es interessant. Denn so kann ich dem Leser passende Werbemittel anzeigen.
Content-Marketing:
Content Hub:
Im „Content Marketing“ ist es ein Ziel, für ein bestimmtes Themengebiet als Experte wahrgenommen zu werden. Hierzu versucht man qualitativ hochwertige Inhalte zu diesem Themengebiet zu veröffentlichen. Einerseits ist es wichtig, dass man ständig neue Artikel zu dem Themengebiet geliefert bekommt, die man dann selbst in irgendeiner Form weiterverarbeitet (siehe oben bei „Trendthemen“), und andererseits muss man im Blick haben, wie man denn gerade selbst wahrgenommen wird und wie man im Vergleich zu anderen Publishern bzw. Unternehmen positioniert ist. Für das Thema „Content Marketing“ habe ich mal eine kleine Auswertung zu Domains gemacht, deren Artikel über das Thema „Content Marketing“ in den letzten Monaten eine hohe soziale Verbreitung über Facebook und Twitter hatten. Grundsätzlich kann man das für jedes Thema machen. Besonders in Zusammenarbeit mit einem Monitoring-Anbieter könnte man direkt analysieren, welche Keyword-Ergebnisse nicht nur den gesuchten Begriff irgendwo erwähnt haben, sondern der Artikel sich generell auch um das Thema des Keywords dreht.
Analyse von Domains:
Natürlich ist nicht nur die Gesamt-Aggregation für ein Thema interessant, sondern auch die Analyse der einzelnen Themen eines Nachrichtenportals oder Blogs. Hier gibt es zwei interessante Auswertungsmöglichkeiten. Einerseits ist es interessant zu wissen, über welche Themen geschrieben wurde, andererseits kann man auch auswerten, welche Themen eine gewisse Reichweite über Social Media (z.B. Twitter) erzielt haben. So kann man auch Influencer-Blogs für bestimmte Themen identifizieren. Aber natürlich ist es für einen Publisher selbst interessant, welche Themen eigentlich für den Leser besonders interessant sind. In Verbindung mit den Tracking-Daten der Website (z.B. über Google Analytics) ergeben sich tolle Möglichkeiten.
Ich habe das mal über die letzten Artikel von Nico Lumma auf lumma.de gemacht (Engagement-Grundlage sind die Tweets auf Twitter):
Themen:
Engagement:
Analyse von Twitter-Accounts:
Natürlich kann man diese Auswertungen auch direkt für Twitter-Accounts machen. Hierbei wird der Tweet-Text sowie der ggfs. erwähnte Link/Artikel analysiert. So kann man erkennen, wer für ein bestimmtes Thema Influencer auf Twitter ist.
Analyse von Stefan Evertz (@hirnrinde):
Themen:
Engagement (Retweets und Favs):
Man erkennt, dass Stefan viel über Barcamps und Monitoring schreibt und so auch öffentlich zu dem Thema wahrgenommen wird.
Analyse von Klaus Eck (@klauseck):
Themen:
Engagement (Retweets und Favs):
Klaus Eck twittert viel zu den Bereichen Content Marketing, Content und generell den Kommunikationsbereich. Seine Tweets zu den Themen werden auch gerne weiterverbreitet. Besonders, wenn Unternehmen (z.B. mit Beispielen) angesprochen werrden.
Analyse Themen der Follower
Wenn man jeden Twitter-Account thematisch analysiert, der einem folgt, kann man auch identifizieren, was die Follower wirklich interessiert. Das könnte dann auch eine zusätzliche Entscheidungsgrundlage für den Social-Media-Redaktionsplan sein.
Ich denke, dass die automatische Themen-Identifikation für alle „Publisher“ eine wichtige Arbeitsgrundlage bzw. auch Erleichterung sein. Dies sind alles nur Möglichkeiten, die mir bisher eingefallen sind. Es gibt bestimmt noch viele weitere. Ich würde mich gerne nun etwas mehr fokussieren und mit meinem Service etwas weiterlernen. Gerne zusammen mit anderen. Dafür suche ich nun Verlage, Marketing-Agenturen oder einfach Gleichgesinnte zum Austausch. In diesem Projekt steckt nun ziemlich viel Herzblut und ich scheue mich nicht, andere mit meiner Motivation für das Thema anzustecken. ;-) Also gerne kommentieren oder mich direkt kontaktieren.
Während der letzten Jahre habe ich mich sehr viel mit Online-Nachrichten, ihrer Verbreitung im Social Web und ihren Themen beschäftigt. Die Identifikation von Themen hat es mir hierbei besonders angetan.
Eine Nachricht besteht meist aus Text und wird mit Multimedia-Elementen, wie Bildern oder Videos, angereichert. Wenn man es schafft, die wichtigsten Begriffe aus dem Nachrichtentext zu identifizieren, erhält man optimalerweise eine Zusammenfassung des Textes in wenigen Wörtern. Diese einzelnen Begriffe sind, für sich genommen, bereits einzelne Themen, wie z.B. Streik, Hamburger SV oder Brandenburger Tor. Über jeden dieser Begriffe gibt es Hintergrundinformationen, die alleine bestimmt Bücher füllen könnten. Bei einer Nachricht sind es meist mindestens drei Themen, die zusammen das Nachrichtenthema ziemlich genau beschreiben können. Beispiele wären „Streik – Bahn – GDL“, „Borussia Dortmund – Torwart – Roman Weidenfeller“ oder „Müll – Plastik – Ozean“. Meist besteht es aus 1-2 allgemeinen Begriffen plus Unternehmensname, Marke, Personenname, Institution oder einer Ortsangabe.
Vor ca. einem halben Jahr habe ich angefangen, in meiner Freizeit einen recht komplexen Service zu programmieren, der Themen in deutschsprachigen Texten ermittelt. Hierbei gibt es auch unterschiedliche Themen-Ebenen. Zum Beispiel ist „FC Bayern München“ für mich ein Thema, das Oberthema davon ist „Fußball“ und die Nachrichtenkategorie wäre „Sport“. Um Themen vernünftig über einen technischen Algorithmus zu ermitteln, muss ein System natürlich erst mal die einzelnen Themen und ihre Bedeutung bzw. Einordnung kennen. Hierbei kann man sich z.B. die Artikel-Datenbank von Wikipedia als Datengrundlage nehmen. Alleine für die deutsche Sprache gibt es mehr als 2,5 Mio. Artikel zu einzelnen Themen. Das Problem ist hierbei aber, dass man eine externe Abhängigkeit hat (Artikel zu neuen Themen erscheinen erst nach Wochen, die Einordnung in Kategorien ist undurchsichtig, Daten-Dumps sind durch die Größe schlecht verwaltbar, usw.). Ich habe mich dann entschlossen, eine eigene Themen-Datenbank aufzubauen, bei der ich dann auch die komplette Kontrolle über die Kategorisierung und die Erweiterungen habe. Dazu war zwar viel manueller Aufwand nötig, aber der hat sich bisher definitiv gelohnt. Auch verdichtet das System u.a Substantive und Verben automatisch zu bestimmten Themen und es lernt täglich weiter. Möchte jetzt auch nicht zu technisch werden. Bisher sind die Ergebnisse so gut, dass ich schon ziemlich zufrieden bin. Rund um die Themen-Identifikation habe ich einige kleine weitere Services entwickelt, die speziell für Verlage und Marketing-Agenturen interessant sein könnten.
Möglichkeiten Verlage:
Trendthemen
Als Verlag ist es wichtig, dass man die aktuellen Trendthemen in seinem Bereich kennt. Ich habe mit www.scoopio.de im September eine kleine Website veröffentlicht, auf der man die aktuellen Trendthemen von deutschsprachigen Nachrichtenportalen und Blogs aus den letzten Stunden auf einen Blick erhält. Hierfür folge ich ich mit dem Twitter-Account @scoopio_de vielen interessanten Menschen und Medien, deren Tweets ich alle 5 Minuten auswerte (verlinkte Artikel) und dann über einen etwas komplexeren Algorithmus ermittle, Welchen einzelnen Themen besonders häufig in den letzten 4 Stunden erwähnt werden und welche URLs bei Twitter in dieser Zeit viel geteilt wurden. Die meist verteilten Artikel werden dann zu dem Nachrichtenthema mit angezeigt. Ich selbst habe für mich persönlich noch einen eigenen Service, der mir alle Artikel anzeigt, die anhand der Themen besonders für mich interessant sein könnten. Viele Artikel/URLs, die ich bei Twitter veröffentliche, habe ich auch darüber entdeckt.
Themen-Timeline:
Als Leser fehlt mir leider oft der Hintergrund für manche Artikel. Es gibt momentan so viele Krisen auf der Welt, bei denen fast jeden Tag etwas Neues passiert. Wenn ich einen Artikel lese, hätte ich manchmal gerne einen Zeitstrahl, auf dem ich auf einen Blick den Verlauf einer Krise ersehen kann und ich die Möglichkeit erhalte, darüber auch weitere Artikel zu dem Thema zu lesen.
Ich habe das mal für FAZ-Artikel (mindestens 15 Retweets) zum Thema „Islamischer Staat“ und „Referendum Schottland“ gemacht.
Ähnliche Artikel / Kategorisierung Archiv:
Generell sind die ähnlichen Artikel, die bei Nachrichtenportalen angeboten werden, teils nicht optimal (Thema passt nicht, vorgeschlagener Artikel zu alt). Grundsätzlich werden ältere Artikel oft nicht mehr /wenig verlinkt und verlieren durch die ständigen neuen Artikel schnell ihre Relevanz. Dabei sind es oft Schätze, die verloren gehen. Durch einen Themen-Service könnte man automatisch das Archiv neu ordnen und ältere qualitative Artikel besser den Lesern vorschlagen.
Personalisierung
Als Nachrichtenportal hat man sich Möglichkeit zu tracken, welche Artikel jeder Besucher liest. Besonders die Paywall bietet hier den Vorteil, dass jeder User sich einloggen muss. Ermittelt man nun die Themen der Leser, hat man schnell ein Interessensprofil für ihn erstellt. Man erkennt schnell, ob sich jemand für Sport (evtl. eine bestimmte Sportart oder einen Verein) interessiert oder der Leser lieber Artikel über Wirtschaft, Politik, die Oper, Hunde oder Promis mag. Nutzt man als Nachrichtenportal diese Erkenntnis, kann man dem Leser die Nachrichten präsentieren, die für ihn relevant sein könnten. Dies führt unweigerlich zu mehr gelesenen Artikel, mehr Verweildauer und einer stärkeren Bindung vom Leser zum Medium. Auch für die Werbung ist es interessant. Denn so kann ich dem Leser passende Werbemittel anzeigen.
Content-Marketing:
Content Hub
Im „Content Marketing“ ist es ein Ziel, für ein bestimmtes Themengebiet als Experte wahrgenommen zu werden. Hierzu versucht man qualitativ hochwertige Inhalte zu diesem Themengebiet zu veröffentlichen. Einerseits ist es wichtig, dass man ständig neue Artikel zu dem Themengebiet geliefert bekommt, die man dann selbst in irgendeiner Form weiterverarbeitet (siehe oben bei „Trendthemen“), und andererseits muss man im Blick haben, wie man denn gerade selbst wahrgenommen wird und wie man im Vergleich zu anderen Publishern bzw. Unternehmen positioniert ist. Für das Thema „Content Marketing“ habe ich mal eine kleine Auswertung zu Domains gemacht, deren Artikel über das Thema „Content Marketing“ in den letzten Monaten eine hohe soziale Verbreitung über Facebook und Twitter hatten. Grundsätzlich kann man das für jedes Thema machen. Besonders in Zusammenarbeit mit einem Monitoring-Anbieter könnte man direkt analysieren, welche Keyword-Ergebnisse nicht nur den gesuchten Begriff irgendwo erwähnt haben, sondern der Artikel sich generell auch um das Thema des Keywords dreht.
Analyse von Domains
Natürlich ist nicht nur die Gesamt-Aggregation für ein Thema interessant, sondern auch die Analyse der einzelnen Themen eines Nachrichtenportals oder Blogs. Hier gibt es zwei interessante Auswertungsmöglichkeiten. Einerseits ist es interessant zu wissen, über welche Themen geschrieben wurde, andererseits kann man auch auswerten, welche Themen eine hohe Reichweite über Social Media (z.B. Twitter) erzielt haben. So kann man auch Influencer-Blogs für bestimmte Themen identifizieren. Aber natürlich ist es für einen Publisher selbst interessant, welche Themen eigentlich für den Leser besonders interessant sind. In Verbindung mit den Tracking-Daten der Website (z.B. über Google Analytics) ergeben sich tolle Möglichkeiten.
Ich habe das mal über die letzten Artikel von Nico Lumma auf lumma.de gemacht (Engagement-Grundlage sind die Tweets auf Twitter):
Analyse von Twitter-Accounts
Natürlich kann man diese Auswertungen auch direkt für Twitter-Accounts machen. Hierbei wird der Tweet-Text sowie der ggfs. erwähnte Link/Artikel analysiert.
→ Hirnrinde
→ Klaus Eck
Identifikation von Themen-Influencern
→ Hirnrinde
→ Klaus Eck
Analyse Themen der Follower
Wenn man jeden Twitter-Account thematisch analysiert, der einem folgt, kann man auch identifizieren, was die Follower wirklich interessiert. Das könnte dann auch eine zusätzliche Entscheidungsgrundlage für den Social-Media-Redaktionsplan sein.
Ich denke, dass die automatische Themen-Identifikation für alle „Publisher“ eine wichtige Arbeitsgrundlage bzw. auch Erleichterung sein. Dies sind alles nur Möglichkeiten, die mir bisher eingefallen sind. Es gibt bestimmt noch viele weitere. Ich würde mich gerne nun etwas mehr fokussieren und mit meinem Service etwas weiterlernen. Gerne zusammen mit anderen. Dafür suche ich nun Verlage, Marketing-Agenturen oder einfach Gleichgesinnte zum Austausch. In diesem Projekt steckt nun ziemlich viel Herzblut und ich scheue mich nicht, andere mit meiner Motivation für das Thema anzustecken. ;-) Also gerne kommentieren oder mich direkt kontaktieren.