_Empfohlene Unterrichtsinhalte als Vorbereitung f√ºr dieses Thema: 02-01 (Strings), 05-03 (Module), 09-01 (Regular Expressions schreiben), 09-02 (Regular Expressions in Python verarbeiten)_

# Einf√ºhrung in die computerlinguistische Programmierung mit Python
# 09-03: Regular Expressions und Gruppen ü§π‚Äç‚ôÄÔ∏è


Wenn ein regul√§rer Ausdruck ein komplexes Muster beschreibt, ist es oft hilfreich, die **Teil-Matches** aus dem analysierten String zu extrahieren und z.B. in Variablen zu speichern. Um das zu erreichen, arbeiten wir mit **Gruppen**, die bei regul√§ren Ausdr√ºcken durch runde Klammern `(...)` markiert werden.

Die Funktion `group()` kann auf RegEx-Matches angewendet werden und erm√∂glicht uns, auf die verschiedenen Gruppen des Matches **zuzugreifen**. Im folgenden Beispiel besteht der regul√§re Ausdruck aus zwei Gruppen und wird auf den Beispielstring gematcht. Die Gruppe mit dem Index 0 entspricht dem **gesamten Match**. Danach folgen in aufsteigender Reihenfolge die Teil-Matches f√ºr jede Gruppe, gez√§hlt von links vom Start des Strings. Wie viele `groups` wir verwenden k√∂nnen, h√§ngt davon ab, wie viele Gruppen im regul√§ren Ausdruck enthalten sind.

In [None]:
import re

# Unser Test-String
drink = 'warm tea'

# Muster erstellen und in einer Variable speichern:
# Dieser Ausdruck enth√§lt eine Gruppe mit den alternativen
# Teilstrings hot, warm oder cold;
# und eine zweite Gruppe mit den alternativen Teilstrings
# milk, coffee, water oder tea.
description = re.compile('(hot|warm|cold)\s(milk|coffee|water|tea)')

# Wir kennen re.search schon: Hier pr√ºfen wir,
# ob der Test-String zum Muster passt.
# Das Ergebnis wird als Variable m gespeichert.
m = re.search(description, drink)

# Der Inhalt der Variable m hat den Typ re.Match.
# Der Inhalt von m zeigt uns, welcher Slice des Strings gematcht wurde
# ( = von welchem Startindex bis zu welchem Endindex
# der String dem Muster entspricht).
print(type(m))
print(m)

print("------------------------------------")

# Gruppe 0: Gesamter Match
print("Gruppe 0: {}".format(m.group(0)))

# Gruppe 1: Erste gematchte Gruppe aus dem Muster
print("Gruppe 1: {}".format(m.group(1)))

# Gruppe 2: Zweite gematchte Gruppe aus dem Muster
print("Gruppe 2: {}".format(m.group(2)))

# Und was ist hiermit?
#print("Gruppe 3: {}".format(m.group(3)))

Falls Gruppen ineinander verschachtelt sind, z√§hlt f√ºr die Nummerierung die Reihenfolge der √∂ffnenden Klammern. Hier das gleiche Beispiel von oben noch einmal, nur mit einer zus√§tzlichen Gruppe im regul√§ren Ausdruck:

In [None]:
import re

# Unser Test-String
drink = 'warm tea'

description = re.compile('((hot|warm|cold)\s)(milk|coffee|water|tea)')

m = re.search(description, drink)

# Gruppe 0: Gesamter Match
print("Gruppe 0: {}".format(m.group(0)))

# Gruppe 1: Erste gematchte Gruppe aus dem Muster
print("Gruppe 1: {}".format(m.group(1)))

# Gruppe 2: Zweite gematchte Gruppe aus dem Muster
print("Gruppe 2: {}".format(m.group(2)))

# Gruppe 3: Dritte gematchte Gruppe aus dem Muster
print("Gruppe 3: {}".format(m.group(3)))

Die Gruppen sind am n√ºtzlichsten, wenn wir verschiedene Informationen aus einem String extrahieren und sie in einer **strukturierten Form** abspeichern wollen. Im folgenden Beispiel erhalten wir einen String mit einer Deklinationstabelle f√ºr ein lateinisches Substantiv. Ziel des Codes ist es, ein **Dictionary** zu erstellen, in dem die Informationen aus dem String abgespeichert werden und dann jederzeit wieder abgerufen werden k√∂nnen.

In [None]:
import re

lexicon = """amicus (Freund):

Nominativ: amicus
Genitiv: amici
Dativ: amico
Akkusativ: amicum
Ablativ: amico"""

# Jede Zeile, die uns interessiert, beginnt mit einem der f√ºnf Worte 
# "Nominativ", "Genitiv", Dativ", "Akkusativ" oder "Ablativ".
# Nach dem ersten Wort folgt ein Doppelpunkt.
# Nach dem Doppelpunkt steht ein Whitespace (Leerzeichen).
# Alle verbleibenden Zeichen werden mit der Gruppe (.*) "eingefangen".
case_and_form = re.compile('(Nominativ|Genitiv|Dativ|Akkusativ|Ablativ):\s(.*)')

# leeres Dictionary anlegen
forms = {}

# Wir schauen uns jede Zeile nacheinander an
for line in lexicon.split("\n"):
    
    # Hier pr√ºfen wir, ob das Muster case_and_form in der aktuellen
    # Zeile gefunden wird
    m = re.search(case_and_form, line)
    
    if m:
        # Falls das Muster auf die Zeile passt, k√∂nnen wir den Inhalt
        # ins Dictionary schreiben.
        # Die erste Gruppe enth√§lt den Kasusnamen.
        # Die zweite Gruppe enth√§lt das dazugeh√∂rige Wort.
        case = m.group(1)
        form = m.group(2)

        print("Aktueller Kasus: " + case)
        print("Aktuelle Form: " + form)
        
        # Schreibe f√ºr den Schl√ºssel case den Inhalt der Variable form
        # ins Dictionary.
        forms[case] = form
        
    else:
        # Manche Zeilen passen nicht zum Muster. Diese Zeilen werden
        # nicht weiter verarbeitet.
        print("kein Match gefunden: {}".format(line))
            
print(forms)

## Gruppen und Teilmatches im Brief von Heinrich Heine
Im letzten Thema, 09-02, haben wir einen Brief von Heinrich Heine mit `re.split()` in seine einzelnen S√§tze zerlegt, aber dabei gingen die **Satzzeichen** verloren.

Hier ein Vorschlag, wie es stattdessen gehen k√∂nnte. Diesmal definieren wir den regul√§ren Ausdruck so, dass jeder Satz komplett von einer **eigenen Gruppe** abgedeckt wird. `re.split()` verh√§lt sich dann anders, weil wir explizit definiert haben, dass das jeweilige Satzzeichen zum Satz dazugeh√∂rt und deshalb beim Zerteilen nicht verloren gehen soll. `re.split()` ber√ºcksichtigt alle Elemente, die Teil einer Gruppe sind, und verhindert, dass Elemente innerhalb von Gruppen verloren gehen.

In [None]:
# VARIANTE 1: re.split() verwenden

import re

# Der Text enth√§lt mehrere S√§tze, die durch Satzendzeichen
# voneinander getrennt sind
heine_brief = """Sehr liebensw√ºrdige und charmante Person! Ich bedauere sehr, da√ü ich Sie letzthin nur wenige Augenblicke sehen konnte. Sie haben einen √§u√üerst vortheilhaften Eindruck hinterlassen u ich sehne mich nach dem Vergn√ºgen, Sie recht bald wiederzusehen. ‚Äì Wenn es Ihnen m√∂glich ist, kommen Sie schon morgen, in jedem Fall, so bald es Ihnen Ihre Zeit erlaubt, Sie k√ºndigen sich an wie letzthin. Den ganzen Tag bin ich zu jeder Stunde bereit Sie zu empfangen. Die liebste Zeit w√§r' mir von 4 Uhr bis so sp√§t Sie wollen. ‚Äì Trotz meiner Augenleiden schreibe ich eigen h√§ndig, weil ich jetzt keinen vertrauten Sekretair besitze. ‚Äì Ich habe viel Peinliches um die Ohren und bin sehr leidend noch immer. Ich wei√ü nicht, warum Ihre liebreiche Theilnahme mir so wohl thut, und ich abergl√§ubischer Mensch mir einbilden will, eine gute Fee besuche mich in tr√ºber Stunde. Sie war die rechte Stunde. ‚Äì Oder sind Sie eine b√∂se Fee? Ich mu√ü das bald wissen."""

# alter regul√§rer Ausdruck:
# satzende = re.compile('[!\.?]\s‚Äì?\s*')

# neuer regul√§rer Ausdruck:
satz = re.compile("([\w,\'\s]+[!\.?]\s‚Äì?\s?)")

# Jede Gruppe beginnt mit einer beliebigen Zahl von
# Buchstaben, Leerzeichen oder Kommas (mehr als 0).
# Danach folgt eins der Satzendzeichen.
# Optional folgt ein Gedankenstrich.

brief_saetze = re.split(satz, heine_brief)
for satz in brief_saetze:
    print(satz)
    print("+++")

## `re.findall()` im Brief von Heinrich Heine
Schlie√ülich gibt es noch die M√∂glichkeit, mit `re.findall()` **alle Teilstrings, die zum Muster passen**, zu finden. Da unser regul√§rer Ausdruck jetzt immer genau einen Satz abdeckt, k√∂nnen wir das leicht umsetzen. Die RegEx bleibt so, wie wir sie eben schon definiert haben; nur die Verarbeitung des Strings l√§uft jetzt etwas anders.

In [None]:
# VARIANTE 2: re.findall() verwenden

import re

# Der Text enth√§lt mehrere S√§tze, die durch Satzendzeichen
# voneinander getrennt sind
heine_brief = """Sehr liebensw√ºrdige und charmante Person! Ich bedauere sehr, da√ü ich Sie letzthin nur wenige Augenblicke sehen konnte. Sie haben einen √§u√üerst vortheilhaften Eindruck hinterlassen u ich sehne mich nach dem Vergn√ºgen, Sie recht bald wiederzusehen. ‚Äì Wenn es Ihnen m√∂glich ist, kommen Sie schon morgen, in jedem Fall, so bald es Ihnen Ihre Zeit erlaubt, Sie k√ºndigen sich an wie letzthin. Den ganzen Tag bin ich zu jeder Stunde bereit Sie zu empfangen. Die liebste Zeit w√§r' mir von 4 Uhr bis so sp√§t Sie wollen. ‚Äì Trotz meiner Augenleiden schreibe ich eigen h√§ndig, weil ich jetzt keinen vertrauten Sekretair besitze. ‚Äì Ich habe viel Peinliches um die Ohren und bin sehr leidend noch immer. Ich wei√ü nicht, warum Ihre liebreiche Theilnahme mir so wohl thut, und ich abergl√§ubischer Mensch mir einbilden will, eine gute Fee besuche mich in tr√ºber Stunde. Sie war die rechte Stunde. ‚Äì Oder sind Sie eine b√∂se Fee? Ich mu√ü das bald wissen."""

# alter regul√§rer Ausdruck:
# satzende = re.compile('[!\.?]\s‚Äì?\s*')

# neuer regul√§rer Ausdruck:
satz = re.compile("([\w,\'\s]+[!\.?]\s?‚Äì?\s?)")

# Jede Gruppe beginnt mit einer beliebigen Zahl von
# Buchstaben, Leerzeichen oder Kommas (mehr als 0).
# Danach folgt eins der Satzendzeichen.
# Optional folgt ein Gedankenstrich.

brief_saetze = re.findall(satz, heine_brief)

for satz in brief_saetze:
    print(satz)
    print("+++")

Hier gilt es zu beachten, dass `re.findall()` uns **nur Strings** zur√ºckgibt, keine zus√§tzlichen Informationen wie z.B. bei `re.search()`. Das ist aber kein Problem, solange uns sowieso nur der Stringinhalt der Teilmatches interessiert.

# Zusammenfassung
* Gruppen in regul√§ren Ausdr√ºcken k√∂nnen nach einem erfolgreichen Match einzeln verarbeitet werden.
* Die Gruppe mit dem Index 0 enth√§lt immer den gesamten Match. Jede weitere Gruppe enth√§lt den Inhalt des jeweils n√§chsten Teilmatches.
* Beim Verarbeiten von Gruppen k√∂nnen wir die Informationen aus dem String neu strukturieren und z.B. in ein Dictionary schreiben.
* Mit Gruppen k√∂nnen wir erreichen, dass bei `re.split()` der Teilstring, der dem Muster entspricht, nicht verlorengeht.
* Mit `re.findall()` erhalten wir alle Teilstrings, die zum Muster passen, und k√∂nnen sie weiter verarbeiten, z.B. in einer Schleife.

# Weitere Themen dieser Woche:
* 09-01: Regular Expressions schreiben
* 09-02: Regular Expressions in Python verarbeiten