_Empfohlene Unterrichtsinhalte als Vorbereitung f√ºr dieses Thema: 02-01 (Strings), 05-03 (Module), 09-01 (Regular Expressions schreiben)_

# Einf√ºhrung in die computerlinguistische Programmierung mit Python
# 09-02: Regul√§re Ausdr√ºcke in Python verarbeiten ü§ì
Mit regul√§ren Ausdr√ºcken k√∂nnen wir Strings beschreiben und auf bestimmte selbstdefinierte Eigenschaften pr√ºfen. Im n√§chsten Schritt setzen wir diese Werkzeuge mit Pythoncode um.

## `re.search()`: Strings matchen mit dem `re`-Modul
F√ºr die Arbeit mit regul√§ren Ausdr√ºcken steht uns das Modul `re` zur Verf√ºgung. Wir k√∂nnen es importieren und dann alle Funktionen verwenden, die im Modul definiert sind. Die offizielle Dokumentation zum Modul ist hier zu finden: [https://docs.python.org/3.8/library/re.html#module-contents](https://docs.python.org/3.8/library/re.html#module-contents)

Um in Python einen String mit einem regul√§ren Ausdruck zu pr√ºfen, brauchen wir die zwei Funktionen `re.compile()` und `re.search()`.

Mit `re.compile()` **definieren** wir einen regul√§ren Ausdruck. Dabei f√ºgen wir als Argument einen String ein, der den gesamten regul√§ren Ausdruck enth√§lt, den wir entworfen haben. Das Ergebnis dieser Funktion ist ein **Objekt vom Typ regul√§rer Ausdruck**; wir k√∂nnen diesen Wert in einer Variable speichern, um sp√§ter damit weiter zu arbeiten.

In [None]:
# RegEx-Modul importieren:
import re

# RegEx erzeugen:
my_regex = re.compile("^Man(go|ko|ga)$")
print(type(my_regex))

Ab jetzt k√∂nnen wir verschiedene Strings daraufhin **pr√ºfen**, ob sie die definierten Bedingungen erf√ºllen oder nicht. Dazu verwenden wir `re.search()`. Das **erste Argument** ist der regul√§re Ausdruck, den wir im vorigen Schritt definiert haben. Das **zweite Argument** ist der String, den wir mit dem regul√§ren Ausdruck pr√ºfen wollen.

In [None]:
# RegEx-Modul importieren:
import re

# RegEx erzeugen:
my_regex = re.compile("^Man(go|ko|ga)$")

# Strings anhand der RegEx pr√ºfen:
print(re.search(my_regex, "Mango"))
print(re.search(my_regex, "Manga"))
print(re.search(my_regex, "Manko"))
print(re.search(my_regex, "Mangold"))

Beim Pr√ºfen von Strings mit regul√§ren Ausdr√ºcken bekommen wir **als R√ºckgabe ein Objekt vom Typ `re.Match`** - es sei denn, der String passt nicht zum regul√§ren Ausdruck. Dann erhalten wir als R√ºckgabewert `None`.

Wenn wir einen Match gefunden haben, enth√§lt die R√ºckgabe die folgenden Informationen:

* `span=(0, 5)`: Von Index 0 bis Index 5 des gepr√ºften Strings haben wir einen Match f√ºr den regul√§ren Ausdruck gefunden.
* `match='Mango'`: Der Match wurde f√ºr den Teilstring "Mango" gefunden.

Die Information zur Spanne ist interessant, weil regul√§re Ausdr√ºcke auf **Strings unterschiedlicher L√§nge** matchen k√∂nnen. Zum Beispiel, wenn wir optionale Sequenzen mit dem Quantifizierer `*` oder `?` definieren:

In [None]:
# RegEx-Modul importieren:
import re

# RegEx erzeugen:
my_regex = re.compile("^Mango(ld)?$")

# Strings anhand der RegEx pr√ºfen:
print(re.search(my_regex, "Mango"))
print(re.search(my_regex, "Manga"))
print(re.search(my_regex, "Manko"))
print(re.search(my_regex, "Mangold"))

## `re.sub()`: Regul√§re Ausdr√ºcke zum Ersetzen von Teilstrings verwenden
Wenn ein Match gefunden wird, k√∂nnen wir einen neuen String erzeugen, in dem genau der gematchte Teilstring durch etwas anderes **ersetzt** wird.

Im folgenden Beispiel geht es um Kontonummern, die anonymisiert werden sollen. Wir k√∂nnten alle Zahlen durch ein Platzhalterzeichen ersetzen:

In [None]:
import re

secret = 'Kontonummer: 108010222202'

# Hier definieren wir das Muster f√ºr Zahlen:
zahlen = re.compile('[0-9]') # \d

# re.sub ersetzt Teilstrings durch beliebige andere Zeichensequenzen:
print(re.sub(zahlen, 'X', secret))

print(secret)

Die Funktion `re.sub(pattern, replacement, string)` sucht im √ºbergebenen `string` nach dem √ºbergebenen `pattern` und ersetzt jede Stelle im String, die dem Muster entspricht, durch das gew√ºnschte `replacement`. Der R√ºckgabewert ist vom Typ String.

Da Strings in Python **immutable** sind, ver√§ndern wir nicht den Wert der Originalvariable `secret`. Stattdessen wird bei `re.sub()` ein neuer String erzeugt, der teilweise dem alten String entspricht und teilweise √Ñnderungen enth√§lt.

## `re.split()`: Strings mit regul√§ren Ausdr√ºcken zerteilen
Wir k√∂nnen regul√§re Ausdr√ºcke auch verwenden, um Strings zu **zerlegen**. Wir kennen bereits die Funktion `string.split(sep)`, bei der der gegebene String an allen Vorkommen des Substrings `sep` aufgeteilt wird. Das Ergebnis von `split()` ist eine Liste (vgl. Thema 02-01, Strings).

Fast analog dazu funktioniert die Funktion `re.split(pattern, string)`. Das √ºbergebene `pattern` beschreibt in der Syntax regul√§rer Ausdr√ºcke den Separator, der jetzt nicht mehr exakt bekannt sein muss, sondern mithilfe von **Bedingungen** beschrieben werden kann.

Im folgenden Code wird ein Text an allen Satzendzeichen aufgeteilt. Das Ziel ist es, eine Liste aller einzelnen S√§tze zu erhalten.

In [None]:
import re

# Der Text enth√§lt mehrere S√§tze, die durch Satzendzeichen
# voneinander getrennt sind
heine_brief = """Sehr liebensw√ºrdige und charmante Person! Ich bedauere sehr, da√ü ich Sie letzthin nur wenige Augenblicke sehen konnte. Sie haben einen √§u√üerst vortheilhaften Eindruck hinterlassen u ich sehne mich nach dem Vergn√ºgen, Sie recht bald wiederzusehen. ‚Äì Wenn es Ihnen m√∂glich ist, kommen Sie schon morgen, in jedem Fall, so bald es Ihnen Ihre Zeit erlaubt, Sie k√ºndigen sich an wie letzthin. Den ganzen Tag bin ich zu jeder Stunde bereit Sie zu empfangen. Die liebste Zeit w√§r' mir von 4 Uhr bis so sp√§t Sie wollen. ‚Äì Trotz meiner Augenleiden schreibe ich eigen h√§ndig, weil ich jetzt keinen vertrauten Sekretair besitze. ‚Äì Ich habe viel Peinliches um die Ohren und bin sehr leidend noch immer. Ich wei√ü nicht, warum Ihre liebreiche Theilnahme mir so wohl thut, und ich abergl√§ubischer Mensch mir einbilden will, eine gute Fee besuche mich in tr√ºber Stunde. Sie war die rechte Stunde. ‚Äì Oder sind Sie eine b√∂se Fee? Ich mu√ü das bald wissen."""

# Das Muster soll auf alle Satzendzeichen matchen.
satzende = re.compile('[!\.?]\s‚Äì?\s*')

brief_saetze = re.split(satzende, heine_brief)
for satz in brief_saetze:
    print(satz)
    print("+++")

Wie man sieht, werden die S√§tze erfolgreich separiert, aber die Satzendzeichen gehen dabei verloren. Wie man so lange Texte besser mit regul√§ren Ausdr√ºcken verarbeiten kann, besprechen wir in der n√§chsten Themeneinheit, 09-03.

# Zusammenfassung
* Das Modul `re` stellt alle Funktionen zur Verf√ºgung, die wir brauchen, um in Python mit regul√§ren Ausdr√ºcken zu arbeiten.
* Mit `re.compile()` erzeugen wir einen regul√§ren Ausdruck, mit dem wir dann arbeiten k√∂nnen.
* Mit `re.search()` pr√ºfen wir, ob ein String die Bedingungen eines definierten regul√§ren Ausdrucks erf√ºllt.
* Falls der String auf das Muster *matcht*, erhalten wir als R√ºckgabe unter anderem die Information, an welchen Positionen der Match gefunden wurde und welcher Teilstring dort zu finden ist.
* Mit `re.sub()` ersetzen wir gematchte Teilstrings durch beliebige andere Strings.
* Mit `re.split()` zerteilen wir einen String an allen Stellen, an denen ein Match f√ºr den angegebenen regul√§ren Ausdruck gefunden wurde.

# Weitere Themen dieser Woche:
* 09-01: Regular Expressions schreiben
* 09-03: Regular Expressions und Gruppen