import re

# Unser Test-String
drink = 'warm tea'

# Muster erstellen und in einer Variable speichern:
# Dieser Ausdruck enthält eine Gruppe mit den alternativen
# Teilstrings hot, warm oder cold;
# und eine zweite Gruppe mit den alternativen Teilstrings
# milk, coffee, water oder tea.
description = re.compile('(hot|warm|cold)\s(milk|coffee|water|tea)')

# Wir kennen re.search schon: Hier prüfen wir,
# ob der Test-String zum Muster passt.
# Das Ergebnis wird als Variable m gespeichert.
m = re.search(description, drink)

# Der Inhalt der Variable m hat den Typ re.Match.
# Der Inhalt von m zeigt uns, welcher Slice des Strings gematcht wurde
# ( = von welchem Startindex bis zu welchem Endindex
# der String dem Muster entspricht).
print(type(m))
print(m)

print("------------------------------------")

# Gruppe 0: Gesamter Match
print("Gruppe 0: {}".format(m.group(0)))

# Gruppe 1: Erste gematchte Gruppe aus dem Muster
print("Gruppe 1: {}".format(m.group(1)))

# Gruppe 2: Zweite gematchte Gruppe aus dem Muster
print("Gruppe 2: {}".format(m.group(2)))

# Und was ist hiermit?
#print("Gruppe 3: {}".format(m.group(3)))


import re

# Unser Test-String
drink = 'warm tea'

description = re.compile('((hot|warm|cold)\s)(milk|coffee|water|tea)')

m = re.search(description, drink)

# Gruppe 0: Gesamter Match
print("Gruppe 0: {}".format(m.group(0)))

# Gruppe 1: Erste gematchte Gruppe aus dem Muster
print("Gruppe 1: {}".format(m.group(1)))

# Gruppe 2: Zweite gematchte Gruppe aus dem Muster
print("Gruppe 2: {}".format(m.group(2)))

# Gruppe 3: Dritte gematchte Gruppe aus dem Muster
print("Gruppe 3: {}".format(m.group(3)))


import re

lexicon = """amicus (Freund):

Nominativ: amicus
Genitiv: amici
Dativ: amico
Akkusativ: amicum
Ablativ: amico"""

# Jede Zeile, die uns interessiert, beginnt mit einem der fünf Worte 
# "Nominativ", "Genitiv", Dativ", "Akkusativ" oder "Ablativ".
# Nach dem ersten Wort folgt ein Doppelpunkt.
# Nach dem Doppelpunkt steht ein Whitespace (Leerzeichen).
# Alle verbleibenden Zeichen werden mit der Gruppe (.*) "eingefangen".
case_and_form = re.compile('(Nominativ|Genitiv|Dativ|Akkusativ|Ablativ):\s(.*)')

# leeres Dictionary anlegen
forms = {}

# Wir schauen uns jede Zeile nacheinander an
for line in lexicon.split("\n"):
    
    # Hier prüfen wir, ob das Muster case_and_form in der aktuellen
    # Zeile gefunden wird
    m = re.search(case_and_form, line)
    
    if m:
        # Falls das Muster auf die Zeile passt, können wir den Inhalt
        # ins Dictionary schreiben.
        # Die erste Gruppe enthält den Kasusnamen.
        # Die zweite Gruppe enthält das dazugehörige Wort.
        case = m.group(1)
        form = m.group(2)

        print("Aktueller Kasus: " + case)
        print("Aktuelle Form: " + form)
        
        # Schreibe für den Schlüssel case den Inhalt der Variable form
        # ins Dictionary.
        forms[case] = form
        
    else:
        # Manche Zeilen passen nicht zum Muster. Diese Zeilen werden
        # nicht weiter verarbeitet.
        print("kein Match gefunden: {}".format(line))
            
print(forms)


# VARIANTE 1: re.split() verwenden

import re

# Der Text enthält mehrere Sätze, die durch Satzendzeichen
# voneinander getrennt sind
heine_brief = """Sehr liebenswürdige und charmante Person! Ich bedauere sehr, daß ich Sie letzthin nur wenige Augenblicke sehen konnte. Sie haben einen äußerst vortheilhaften Eindruck hinterlassen u ich sehne mich nach dem Vergnügen, Sie recht bald wiederzusehen. – Wenn es Ihnen möglich ist, kommen Sie schon morgen, in jedem Fall, so bald es Ihnen Ihre Zeit erlaubt, Sie kündigen sich an wie letzthin. Den ganzen Tag bin ich zu jeder Stunde bereit Sie zu empfangen. Die liebste Zeit wär' mir von 4 Uhr bis so spät Sie wollen. – Trotz meiner Augenleiden schreibe ich eigen händig, weil ich jetzt keinen vertrauten Sekretair besitze. – Ich habe viel Peinliches um die Ohren und bin sehr leidend noch immer. Ich weiß nicht, warum Ihre liebreiche Theilnahme mir so wohl thut, und ich abergläubischer Mensch mir einbilden will, eine gute Fee besuche mich in trüber Stunde. Sie war die rechte Stunde. – Oder sind Sie eine böse Fee? Ich muß das bald wissen."""

# alter regulärer Ausdruck:
# satzende = re.compile('[!\.?]\s–?\s*')

# neuer regulärer Ausdruck:
satz = re.compile("([\w,\'\s]+[!\.?]\s–?\s?)")

# Jede Gruppe beginnt mit einer beliebigen Zahl von
# Buchstaben, Leerzeichen oder Kommas (mehr als 0).
# Danach folgt eins der Satzendzeichen.
# Optional folgt ein Gedankenstrich.

brief_saetze = re.split(satz, heine_brief)
for satz in brief_saetze:
    print(satz)
    print("+++")


# VARIANTE 2: re.findall() verwenden

import re

# Der Text enthält mehrere Sätze, die durch Satzendzeichen
# voneinander getrennt sind
heine_brief = """Sehr liebenswürdige und charmante Person! Ich bedauere sehr, daß ich Sie letzthin nur wenige Augenblicke sehen konnte. Sie haben einen äußerst vortheilhaften Eindruck hinterlassen u ich sehne mich nach dem Vergnügen, Sie recht bald wiederzusehen. – Wenn es Ihnen möglich ist, kommen Sie schon morgen, in jedem Fall, so bald es Ihnen Ihre Zeit erlaubt, Sie kündigen sich an wie letzthin. Den ganzen Tag bin ich zu jeder Stunde bereit Sie zu empfangen. Die liebste Zeit wär' mir von 4 Uhr bis so spät Sie wollen. – Trotz meiner Augenleiden schreibe ich eigen händig, weil ich jetzt keinen vertrauten Sekretair besitze. – Ich habe viel Peinliches um die Ohren und bin sehr leidend noch immer. Ich weiß nicht, warum Ihre liebreiche Theilnahme mir so wohl thut, und ich abergläubischer Mensch mir einbilden will, eine gute Fee besuche mich in trüber Stunde. Sie war die rechte Stunde. – Oder sind Sie eine böse Fee? Ich muß das bald wissen."""

# alter regulärer Ausdruck:
# satzende = re.compile('[!\.?]\s–?\s*')

# neuer regulärer Ausdruck:
satz = re.compile("([\w,\'\s]+[!\.?]\s?–?\s?)")

# Jede Gruppe beginnt mit einer beliebigen Zahl von
# Buchstaben, Leerzeichen oder Kommas (mehr als 0).
# Danach folgt eins der Satzendzeichen.
# Optional folgt ein Gedankenstrich.

brief_saetze = re.findall(satz, heine_brief)

for satz in brief_saetze:
    print(satz)
    print("+++")

Einführung in die computerlinguistische Programmierung mit Python¶

09-03: Regular Expressions und Gruppen 🤹‍♀️¶

Gruppen und Teilmatches im Brief von Heinrich Heine¶

`re.findall()` im Brief von Heinrich Heine¶

Zusammenfassung¶

Weitere Themen dieser Woche:¶

Einführung in die computerlinguistische Programmierung mit Python¶

09-03: Regular Expressions und Gruppen 🤹‍♀️¶

Gruppen und Teilmatches im Brief von Heinrich Heine¶

re.findall() im Brief von Heinrich Heine¶

Zusammenfassung¶

Weitere Themen dieser Woche:¶

`re.findall()` im Brief von Heinrich Heine¶