_Empfohlene Unterrichtsinhalte als Vorbereitung f√ºr dieses Thema: 01-02 (Was ist Python?), 02-01 (Variablen)_
# Einf√ºhrung in die computerlinguistische Programmierung mit Python
# 02-02: Strings üí¨

Im Kontext von Variablen haben wir besprochen, dass der Inhalt einer Variable immer einen bestimmten **Typ** hat. Wir haben unter anderem Typen f√ºr Texte, Zahlen und Listen gesehen. Der Typ einer Variable bestimmt, welche **Operationen** wir auf den Wert anwenden k√∂nnen: Zum Beispiel macht es Sinn, Zahlen zu multiplizieren, aber das Multiplizieren von Texten ist nicht so sinnvoll.

Hier besch√§ftigen wir uns zun√§chst mit dem Typ **String**. Dieser Datentyp ist f√ºr alle Daten zust√§ndig, die die Form von Texten, W√∂rtern oder Buchstaben haben. Wir k√∂nnen √ºbrigens jeden Wert in Python zu einem String umwandeln:

In [None]:
print(type(345))
print(type(str(345)))

# Operationen mit Strings
Python stellt uns f√ºr jeden Datentyp eine Reihe von Operationen zur Verf√ºgung, die wir auf Werte dieses Typs anwenden k√∂nnen. Wir sprechen von **Methoden**.

Um eine Methode auf einen einzelnen String anzuwenden, schreiben wir beispielsweise:


In [None]:
print("Hallo Welt".split())



Am Anfang steht der Originalstring (oder eine Variable, deren Inhalt ein String ist). Nach dem Punkt folgt der Name der Operation, die wir ausf√ºhren wollen. Das ist in diesem Fall `split`. Die √∂ffnenden und schlie√üenden Klammern sind dazu da, die gew√ºnschte Operation noch genauer zu beschreiben. Diese zus√§tzlichen Bedingungen in den Klammern werden **Parameter** genannt.

Hier also die allgemeine Form f√ºr solche Stringoperationen:
```python
<string>.<operation>(<parameter1>, <parameter2 usw.>)
```

Jede Operation hat einen **R√ºckgabetyp**. Zum Beispiel ist die R√ºckgabe (das Ergebnis) von `"Hallo Welt".split()` eine Liste der Strings, die sich ergeben, wenn man den urspr√ºnglichen String an allen Leerzeichen aufteilt:

In [None]:
# Ausgabe: Typ von "Hallo Welt"
print(type("Hallo Welt"))

# Ausgabe: Typ, den das Ergebnis der Aufteilung von "Hallo Welt" hat
print(type("Hallo Welt".split()))

Wenn wir eine Methode auf einen String anwenden und einen Wert als Ergebnis erhalten, kann dieser Wert direkt wieder in einer Variable gespeichert werden. Dadurch vermeiden wir verschachtelte Befehle wie im letzten Code-Beispiel.

Bei Code wie im folgenden K√§stchen wertet der Interpreter zun√§chst aus, was auf der rechten Seite des Zuweisungsoperators steht. Sobald ein Ergebnis bekannt ist, wird dieser Wert in die Variable geschrieben.

√úbrigens wird nicht der urspr√ºngliche String ver√§ndert, auf den wir die Methode angewendet haben, sondern ein **neuer Wert** erzeugt. Wir k√∂nnen also weiter auf den urspr√ºnglichen String zugreifen.

In [None]:
gruss = "Hallo Welt"
print(gruss)

gruss_als_liste = gruss.split()
print(gruss_als_liste)

# Und jetzt wieder den urspr√ºnglichen
# String ausgeben...
print(gruss)

Die optionalen Parameter f√ºr die Methode [`split()`](https://docs.python.org/3.6/library/stdtypes.html#str.split) hei√üen `sep` und `maxsplit`. Damit k√∂nnen wir angeben, an welchem _Substring_ der urspr√ºngliche String aufgeteilt werden soll und wie viele Teilungen erfolgen sollen. Wir k√∂nnten zum Beispiel einen String, der ein Datum enth√§lt, an allen Punkten aufteilen: 

In [None]:
print("10.11.2020".split(sep="."))

Oder wir wollen den folgenden String am ersten `"-"` aufteilen, die anderen Vorkommen dieses Zeichens aber intakt lassen:

In [None]:
print("2020-11-10".split(sep="-", maxsplit=1))

Die Parameter einer Methode haben eine vorgegebene Reihenfolge. In diesem Fall wird immer `sep` als erster Parameter erwartet, `maxsplit` als zweiter. Wir k√∂nnen den Namen der Parameter in diesem Fall weglassen, wenn wir die Parameter in der richtigen Reihenfolge einf√ºgen:

In [None]:
print("2020-11-10".split(1, "-"))

Das geht allerdings nur, solange kein Parameter ausgelassen wird. F√ºr `split` ist der Parameter `sep` optional, aber eventuell m√∂chten wir trotzdem einen Wert f√ºr `maxsplit` angeben. Dann m√ºssen wir den Namen des Parameters angeben.

√úbrigens spricht nichts dagegen, l√§ngere Substrings als Wert f√ºr `sep` zu verwenden. Wir m√ºssen nur daran denken, dass die Substrings in der Liste, die wir als Ergebnis bekommen, nicht mehr enthalten sind:

In [None]:
print("Ich kenne die Weise, ich kenne den Text".split(sep="enn"))

**Fassen wir zusammen:**

In [None]:
# Alle m√∂glichen Teilungen am Standardseparator:
print("Hallo Welt".split())

print("----------")

# Alle m√∂glichen Teilungen am angegebenen Separator:
print("Hallo Welt".split("W"))
print("Hallo Welt".split(sep="W"))

print("----------")

# 2 Teilungen am angegebenen Separator:
print("Hallo Welt".split(sep="l", maxsplit=2))
print("Hallo Welt".split("l", 2))
print("Hallo Welt".split("l", maxsplit=2))

print("----------")

# 1 Teilung am Standardseparator:
print("Hallo Welt".split(maxsplit=1))    

Nachdem wir gesehen haben, wie man Strings mit Methoden verarbeiten kann, hier einige wichtige Operationen, die wir auf Strings anwenden k√∂nnen. Die Methoden haben unterschiedliche R√ºckgabetypen.

| Operation             | R√ºckgabe                                                                                                                                                                                                                                                                                                                    |
|-----------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| `s.split([sep, n])`   | **Liste** aller Teilstrings von `s`, die durch den Separator voneinander getrennt sind. Wenn weder `sep` noch `n` angegeben werden, wird der String an jedem Leerzeichen geteilt. Mit `sep` kann man spezifizieren, an welchen Teilstrings der String zerteilt werden soll, und mit `n`, wieviele Zerteilungen erfolgen sollen. |
| `s.lower()`           | **String:** Kopie von `s`, in der alle Buchstaben kleingeschrieben sind                                                                                                                                                                                                                                                                 |
| `s.upper()`           | **String:** Kopie von `s`, in der alle Buchstaben gro√ügeschrieben sind                                                                                                                                                                                                                                                                  |
| `s.islower()`         | **Bool:** `True`, wenn alle Buchstaben in `s` kleingeschrieben sind; sonst `False`                                                                                                                                                                                                                                                    |
| `s.isupper()`         | **Bool:** `True`, wenn alle Buchstaben in `s` gro√ügeschrieben sind; sonst `False`                                                                                                                                                                                                                                                     |
| `sub in s`            | **Bool:** `True`, wenn der Teilstring `sub` in `s` enthalten ist; sonst `False`. Gro√ü- und Kleinschreibung wird unterschieden.                                                                                                                                                                                                        |
| `len(s)`              | **Integer:** Anzahl der Zeichen, die in `s` enthalten sind.                                                                                                                                                                                                                                                                              |
| `s.count(sub)`        | **Integer:** Anzahl, wie oft der Teilstring `sub` in `s` enthalten ist                                                                                                                                                                                                                                                                   |
| `s.startswith(sub)`   | **Bool:** `True`, wenn der Teilstring `sub` am Anfang von `s` steht; sonst `False`                                                                                                                                                                                                                                                    |
| `s.endswith(sub)`     | **Bool:** `True`, wenn der Teilstring `sub` am Ende von `s` steht; sonst `False`                                                                                                                                                                                                                                                      |
| `s.find(sub)`         | **Integer:** Position des ersten Vorkommens von `sub` in `s`; falls `sub` nicht enthalten ist, wird -1 zur√ºckgegeben                                                                                                                                                                                                                     |
| `s.strip([chars])`    | **String:** Kopie von `s` ohne alle Vorkommen der angegebenen `chars` an Beginn und Ende des Strings. Wird `chars` nicht angegeben, werden alle f√ºhrenden und abschlie√üenden Whitespaces von `s` entfernt.                                                                                                                              |
| `s.replace(old, new)` | **String:** Kopie von `s`, in der alle Vorkommen des Teilstrings `old` durch den String `new` ersetzt wurden.                                                                                                                                       

## Besonderheiten bei Strings
Da wir Anf√ºhrungszeichen `""` zur Markierung von Strings verwenden, k√∂nnen wir innerhalb von Strings zun√§chst **keine Anf√ºhrungszeichen** schreiben. Es gibt einige M√∂glichkeiten, damit umzugehen:

1. Einfache und doppelte Anf√ºhrungszeichen mischen:

In [None]:
print('"The time has come," the Walrus said, "to talk of many things"')

2. **Mehrzeilige Strings** mit drei Anf√ºhrungszeichen erzeugen; einzelne Anf√ºhrungszeichen innerhalb dieses Strings sind dann unproblematisch.

In [None]:
total_langer_string = """
"The time has come," the Walrus said,
"to talk of many things"
"""
print(total_langer_string)

3. Anf√ºhrungszeichen durch einen Backslash (`Alt Gr + √ü`) **escapen**:

In [None]:
print("\"The time has come,\" the Walrus said, \"to talk of many things\"")

Der Backslash hat noch mehr Funktionen. Wir k√∂nnen ihn verwenden, um innerhalb von Strings Zeilenumbr√ºche (`'\n'`) und Tabs (`'\t'`) zu markieren:

In [None]:
print("If this be error and upon me proved,\nI never writ, nor no man ever loved.")

In [None]:
print("ottos mops\tkotzt")

Das Zeichen `'\n'` entspricht √ºbrigens auch solchen Zeilenumbr√ºchen, die wir ganz normal getippt haben. Der folgende String enth√§lt vier Zeilen. Um ihn an jedem Zeilenumbruch zu zerteilen, rufen wir `split()` mit dem Separator `"\n"` auf:

In [None]:
print("""Am Grunde der Moldau wandern die Steine
Es liegen drei Kaiser begraben in Prag.
Das Gro√üe bleibt gro√ü nicht und klein nicht das Kleine.
Die Nacht hat zw√∂lf Stunden, dann kommt schon der Tag.
""".split("\n"))

Weil der Backslash diese Sonderfunktion erf√ºllt, muss er √ºbrigens auch selbst escapet werden, wenn man ihn als blo√ües Zeichen in einem String verwenden m√∂chte. Wir schreiben dazu `\\`.

In [None]:
print("D:\\Studium\\01-WiSe2020\\Python")

# Zusammenfassung
* Mit dem Befehl `str()` kann jeder Wert in Python zum Datentyp String umgewandelt werden.
* Jeder Datentyp bringt eine Reihe von Methoden mit, die f√ºr den jeweiligen Typ sinnvoll sind. Methoden haben eine vorgegebene Anzahl von Parametern, deren Wert die genaue Ausf√ºhrung der Operation beschreibt.
* Werte f√ºr Parameter k√∂nnen entweder in der vorgegebenen Reihenfolge angegeben werden, oder durch die Verwendung des jeweiligen Parameternamens einzeln gesetzt werden.
* Jede Methode hat einen R√ºckgabewert, dessen Typ durch die Definition der Methode bestimmt ist.
* Besondere Zeichen k√∂nnen in Strings mit dem Backslash `\` escapet werden.

# Weitere Themen dieser Woche
* 02-01: Variablen
* 02-03: Listen
* 02-04: Integers und Floats (Zahlen)
* 02-05: Booleans (Wahrheitswerte)