Natural Language Processing – so können Computer unsere Sprache sprechen

Natural Language Processing – so können Computer unsere Sprache sprechen

Ist die Rede von einer Birne, wird uns Menschen aus dem Kontext klar, ob es sich um das Obst oder eine Glühbirne handelt. Doch wie sieht das bei den Maschinen aus?

Damit auch Computer diesen Kontext verstehen, muss die natürliche Sprache maschinell verarbeitet werden. Eine Methode hierfür ist das Natural Language Processing(NLP). Das Ziel dabei ist die direkte Kommunikation von Mensch zu Maschine. Die Schnittstellen hierfür sind beispielsweise Chatbots oder persönliche Assistenten wie Siri oder Alexa.

Wie der Computeralgorithmus aus einzelnen Begriffen den Kontext erkennen und die entscheidenden Informationen herausfiltern kann, wird anhand des CV-Parsings erklärt. CV-Parsing beschreibt das automatische, maschinelle Erfassen der wichtigsten Informationen aus einem Lebenslauf.

Die drei Phasen des Natural Language Processing

Schritt 1:
Gruppierung von Begriffen mit ähnlichem Kontext

Die Ausgangslage besteht meist aus einer großen Menge an Textdokumenten.

So wurden beim CV-Parsing zunächst die Texte von rund 50.000 Lebensläufen extrahiert. Danach wurden die Texte vereinheitlicht und bereinigt – zum Beispiel wurde das Verb „lief“ in das Verb „laufen“ überführt und seltene Wörter in den Texten entfernt. Dadurch wurden unbedeutende Daten entfernt und mehrdeutige Daten vereinheitlicht.

Aus den Texten wurde anschließend mit der sogenannten „Word2Vec-Methode“ ein Modell erzeugt.

Dabei werden Wörter, die in einen ähnlichen Kontext auftauchen, analysiert. Aus z.B. den Sätzen „3 Jahre als Sales Manager“, „5 Jahre als Key Account Manager“ und „1 Jahr als Lagerist“ lassen sich sprachunabhängig folgende Informationen herauslesen:

1) „Sales Manager“, „Key Account Manager“ und „Lagerist“ werden im gleichen Kontext – die Wörter stehen hinter dem Wort „als“ – verwendet und sind damit in einer Kategorie.

2) „Jahr“ und „Jahre“ werden im gleichen Kontext verwendet und sind damit in einer Kategorie.

Diese Kategorien werden nicht direkt gebildet, sondern jedes Wort wird als ein Punkt in einem Koordinatensystem abgebildet (man spricht von einem Vektor im Vektorraum). Die Wort-Punkte werden im Koordinatensystem so positioniert, dass Wörter mit ähnlichem Kontext nahe beieinander liegen. Dadurch entstehen „Wortwolken“ zu verschiedenen Bereichen wie Medizin, Software, Adressdaten usw.

 

Schritt 2:
Kategorisierung der Texte

Um beispielsweise die Branchen zu identifizieren, in denen ein Bewerber laut Lebenslauf tätig war, mussten Branchen-Begriffe gefunden und zu einer Branchenkategorie zugeordnet werden.

Das ist nicht immer einfach, da beispielsweise „Logistische Planung bei Nestlé“ sowohl der Logistik als auch der Lebensmittelindustrie zugeordnet werden kann.

Nach der Kategorisierung der Begriffe können die Bereiche in der „Wortwolke“ durch die Wort-Ähnlichkeit einer Branche zugeordnet werden. In welcher Branche der Bewerber in der Vergangenheit hauptsächlich tätig war, ergibt sich dann aus der Branche, die mit höchster Intensität vorhanden ist.

 

Schritt 3:
Iterative Optimierung

Es ist wichtig, die automatischen Zuordnungen durch die Wort-Ähnlichkeit fortwährend zu analysieren, anzupassen und zu evaluieren, um die Ergebnisse zu optimieren.

Zu den oben genannten Verfahren gibt es natürlich viele Alternativen. Jedoch wird verständlich, wie es möglich ist, dass Computer die menschliche Sprache  in einen abgesteckten Umfang verstehen und analysieren können.