Analytics

Data Driven Analytics

Wir als TextTech sind angetrieben von einer Frage: Wie transformiere ich Daten in ‘Actionable Insights’? Häufig lassen sich komplexe Business Fragen nicht mit einem ‘One Size Fits All’ Ansatz lösen. Hier sind Wissen und Erfahrung in der Auswahl und Kombination von Algorithmen und im Aufbau von verlässlichen, offenen Systemen unerlässlich. Auf diesem Weg erreichen Sie sicher das Ziel, vollautomatisch und intelligent das versteckte Wissen in ihren Daten zu heben und ihre Business Performance und Effizienz steigern.
Auf der anderen Seite steht die Frage: Wie verarbeite ich die wachsende Menge an Daten? Sei es im Internet die Analyse von Webseiten-Content, Tweets oder Product-Reviews oder im Intranet die Auswertung von Customer-Service-Anfragen, Ergebnisse der Marktforschung oder die Integration interner Dokumentation, Fachzeitschriften oder Datenbanken. ‘Data – the Resource of the Future’ ist ein Paradigma, das an vielen Stellen gepredigt wird. Allerdings sind die Techniken der Erschließung noch nicht tägliches Handwerkzeug geworden. Diese Lücke schließen wir durch unsere langjährige Erfahrung in der Erschließung und Verarbeitung von Big Data.
Jede Analyse ist individuell auf die jeweiligen Anforderungen zu geschnitten. Sie enthält allerdings Schritte, die sich häufig wiederholen. Im Folgendem stellen wir die essentiellen Basis-Technologien und ihre Anwendung vor.

Acquire Data from different Sources

Im ersten Schritt werden die Daten akquiriert, die in der Analyse involviert werden. Die Spannweite ist groß und geht von einfachem Crawling von Webseiten über das Erschließen APIs (Facebook, Twitter, YouTube, etc.) und Scraping von Preisen auf Shop-Portalen. Die Duplicate Detection entfernt Datensätze, die einander sehr ähnlich (sog. Near-Duplicates), um eine Verfälschung der Ergebnisse zu verhindern. Zudem integrieren wir selbstverständlich jede Datenbank oder jedes Datenformat in unsere Analysen.

Extract structured Information

Der größte Teil der Daten, die heute generiert werden, sind Textdaten und ihre Zahl verdoppelt sich jedes Jahr. Das heißt, dass eine wachsende Menge an wertvollen Informationen existiert, die auf Grund ihrer Unstrukturiertheit schwer zu erschließen ist. Wie wird diese Aufgabe gelöst? Information Extraction ist der Sektor im Textmining, mit dem aus Texten Schlagworte, Personen, Datumsangaben, Adressen, u. a. extrahiert werden. Stark vereinfacht werden mit einem Textmarker alle Abschnitte markiert, die zum Verständnis des Textes wichtig sind. Die Technologie basiert auf linguistischen Ansätzen, die sprachlich motiviert sind und statistischen, welche auf Basis von Trainingsdaten lernen valide Entscheidungen zu treffen. Das Scoring ist der letzte Schritt: hier wird die Wichtigkeit der einzelnen Extraktionen bewertet. Je treffender es den Inhalt des Textes beschreibt, je wichtiger ist es.
Information Extraction ist ein fundamentaler und unerlässlicher Schritt, wenn es um die Verarbeitung von Texten geht. Die zentralen Terme und Phrasen zu extrahieren, die den gesamten Inhalt eines Texten wiedergeben, ist essentiell für jeden weiteren Verarbeitungsschritt.
Die folgende Grafik zeigt eine thematische Analyse der umsatzstärksten Unternehmen in Deutschland. Die Webseiten der Unternehmen wurden verschlagwortet und abhängig vom Umsatz gescored. Je größer ein Thema in dem Graphen dargestellt wird, desto wichtiger ist es im Sinne von Umsatz

Aggregate and Classify your Data

Häufig gibt es Vorgaben, wie Daten zu strukturieren sind, z. B.: in Workflow-Systemen, bei denen Dokumente in vorgegebene Kategorien eingeordnet werden. Hier werden Classifier trainiert, die Texte an Hand der Inhalte und der Struktur in Klassen einordnen. Ein anderer Anwendungsfall ist die Strukturierung von Texten ohne jegliche Vorgaben. Der Algorithmus entscheidet selbstständig welche Gruppen erzeugt werden und wie die Texte auf diese verteilt werden. Es gibt diverse Clustering-Algorithmen und Ähnlichkeitsmaße, die je nach Anwendungsfall auszuwählen sind.
Ziel der Classification ist es eingehende Texte vollautomatisch weiterzuleiten oder einzuordnen. Beim Clustering gilt es die Struktur oder die inneren Zusammenhänge zu erkennen, so dass sich große Dokumentenmengen leichter erschließen lassen.

Discover hidden Insights always ready for the Deep Dive

In der letzten Disziplin geht es darum, auf einer hohen Ebene Insights zu verdichten, die sich mit geringem kognitiven Payload erfassen lassen. Allerdings ist es nicht minder wichtig, dem Anwender jederzeit einen Deep Dive zu ermöglichen, der die Ursache oder Zusammenhänge aufdeckt. So kann er sich in beliebiger Tiefe über die Gründe informieren, die zu dieser Insight geführt haben. Eine qualitative Verdichtung der Inhalte auf diesem Niveau lässt sich nur durch eine konsequente Kombination der einzelnen Ansätze erreichen.

Trend Detection auf Streaming Data sei es Twitter, Nachrichten oder Marktforschungsergebnisse ist ein anspruchsvolles Unterfangen. Die zentrale Frage ist: Hat sich etwas verändert? Gibt es ein neues Thema, einen Burst, über den ich informiert sein sollte? Wir verwenden verschiedene Ansätze, um dieser Aufgabe gerecht zu werden. Wir adaptieren Indikatoren aus dem Stock Market Umfeld, um Trendveränderungen in den Zeitreihen zu erkennen. Ein anderes, kombinierbares Vorgehen ist es, die typischen Wortumfelder der wichtigsten Terme zu lernen und diese auf Veränderungen zu überwachen.
Zur Visualisierung der Ergebnisse gehören Dashboards und Suchinterfaces, die die diversen Analysen übersichtlich in Plots und Graphen visualisieren. Die Suchergebnisse lassen sich per Facetted Search sehr effizient segmentieren und so Stück um Stück in der Tiefe erschließen. So erhält der Anwender schnell und einfach das Wissen aus den Daten, welches er für seine täglichen Arbeitsabläufe braucht.
Wir verstehen uns als Enabler und Operator, die den digitalen Wandel auf Basis von cutting edge Technologien und einem starken Business-Fokus umsetzen. Folgende Ziele verfolgen wir beim Entwurf und der Umsetzung unserer Algorithmen

  • „Business first“: Der wirtschaftliche Nutzen steht immer an erster Stelle
  • Proof of Concept per Rapid Prototyping: Von der Idee zur Praxis ist häufig ein gewisser Weg zurückzulegen: um die Hürde tiefer zu legen, entwickeln wir häufig im ersten Schritt ein PoC. So wird die Machbarkeit belegt und die nächste Projektphase ist in die Wege geleitet.
  • Skalierbarkeit und Erweiterbarkeit: sie wachsen oder ihre Anforderungen haben sich geändert? Kein Problem, unsere Lösung wächst mit.

Executive Summary der Vorteile, die sich für sie ergeben:

  • Optimieren sie ihre Business Performance: Sie wissen, was passiert ist und welche Entscheidungen zu treffen sind? Sie messen und bewerten die Ergebnisse ihres Handelns? Willkommen in der Texttech Analytics Suite: Wir erschließen effizient und nachhaltig ihre Daten durch intelligente, business-getriebene Analysen.
  • Auf Basis unserer SAAS Lizenzmodelle und eine nahtlose Integration in ihre Infrastruktur haben Sie geringe Kosten und keine operativen Aufwände.
  • Keine Verzögerungen oder Warten auf Ergebnisse von Erhebungen: unsere Systeme sind ausgelegt große Informationsmengen in Echtzeit zu verarbeiten. So sind sie jederzeit auf dem neuesten Stand.
  • One Size Fits All trifft häufig zu, aber ab und zu geht kein Weg an Speziallösungen vorbei: eine flexible offene Architektur erlaubt es jeder Anforderungen gerecht zu werden. So bleiben Sie offen für mögliche Weiterentwicklungen.