Aufbauseminar (Tatiana Bladier, Laura Kallmeyer)
Montag 10.30-12.00 Raum 25.22.HS 5G und Dienstag 10.30-12.00, Hörsaal 22.01.HS 2C.
Erste Sitzung: Montag 09.04.2018. Letzte Sitzung: 17.07.2018.
Summary
Since the 80s, we know that natural languages are not context-free. Starting from this insight, the notion of mild context-sensitivity has been developed, which is oftentimes assumed to constitute a good characterization of the complexity of natural languages.
In this course, we will look at some mildly context-sensitive grammar formalisms, more specifically at Tree Adjoining Grammars (TAG) and Linear Context-Free Rewriting Systems (LCFRS). We will investigate their formal properties, learn about symbolic parsing algorithms that have been proposed for them and also give an overview of data-driven approaches to using these formalisms in the context of probabilistic parsing. Finally, we will also cover recent approaches to grammar-less transition-based parsing that aim at generating structures that are beyond the structures context-free grammars can describe.
Textbook: Laura Kallmeyer (2010): Parsing Beyond Context-Free Grammars. Springer.
Further references are given on the slides.
Schedule and slides
- 09.04.18 Introduction
- 10.04.18 Natural languages are not context-free
- 16.04.18 Tree Adjoining Grammars
- 17.04.18 Feature-based Tree Adjoining Grammars
- 23.04.18 TAG: Formal properties, automata
- 24.04.18 TAG formal properties continued.
- 30.04.18 Chart parsing for TAG. An example for CYK parsing for TAG can be found here.
- 01.05.18 fällt aus (Tag der Arbeit)
- 07.05.18 Chart parsing for TAG continued. An example for Earley parsing for TAG can be found here.
- 08.05.18 TAG: Grammar induction
- 14.05.18 Data-driven TAG parsing: OSTAG, TIG
- 15.05.18 Data-driven TAG parsing continued. An example for TIG parsing can be found here.
- 21.05.18 fällt aus (Pfingstmontag)
- 22.05.18 Preparation mid-term exam. Exercises for preparing can be found here.
- 28.05.18 Mid-term exam. The exam including solutions can be found here.
- 29.05.18 Discussion mid-term exam, Supertagging
- 04.06.18 Linear Context-Free Rewriting Systems (LCFRS)
- 05.06.18 Linear Context-Free Rewriting Systems
- 11.06.18 LCFRS: Formal properties
- 12.06.18 LCFRS: normal forms
- 18.06.18 Chart parsing for LCFRS
- 19.06.18 Chart parsing for LCFRS
- 25.06.18 EPDA
- 26.06.18 Thread Automata
- 02.07.18 Data-driven LCFRS parsing
- 03.07.18 Data-driven parsing continued
- 09.07.18 Data-oriented parsing
- 10.07.18 Preparation exam
- 16.07.18 Final exam
- 17.07.18 Discussion final exam
Hausaufgaben
Es gibt wöchentliche Hausaufgaben. Abgabe der Hausaufgaben im Sekretariat. Es darf auch in Gruppen gearbeitet werden, aber nur Gruppen von maximal 3 Personen. In dem Fall reicht eine gemeinsam abgegebene Lösung, natürlich versehen mit den Namen aller Mitglieder der Arbeitsgruppe.
Die Hausaufgaben müssen selbstständig gelöst werden. Insbesondere darf nicht untereinander abgeschrieben werden. Lösungen, die offensichtlich abgeschrieben wurden, werden als nicht abgegeben bewertet.
- Homework 1 on CFG. (With solutions.)
- Homework 2 on TAG. (With solutions.)
- Homework 3 on TAG parsing.. (With solutions.)
- Homework 4 on TAG Earley parsing and TAG induction. (With solutions.)
- Homework 5 on TIG parsing. (With solutions.)
- Homework 6 on LCFRS. (With solutions.)
- Homework 7 on formal properties of LCFRS. (With solutions.)
- Homework 8 LCFRS parsing. (With solutions.)
- Homework 9 EPDA and TA. (With solutions.)
Leistungsnachweise
AP: Alle Hausaufgaben müssen sinnvoll bearbeitet und abgegeben werden. (Max. zwei nicht bearbeitete Hausaufgabenblätter sind erlaubt.) Darüber hinaus müssen die beiden Klausuren mitgeschrieben werden. Diese werden benotet. Die Gesamtnote setzt sich zu gleichen Teilen aus den beiden Klausurnoten zusammen.
BN: Alle Hausaufgaben müssen sinnvoll bearbeitet und abgegeben werden. (Max. zwei nicht bearbeitete Hausaufgabenblätter sind erlaubt.) Darüber hinaus müssen die beiden Klausuren mitgeschrieben werden, wobei mindestens die Hälfte der Aufgaben sinnvoll bearbeitet werden muss.