NLP – Analyse des Wissensrohstoffs Text – KDE – FB16

Erster Veranstaltungstag:

Dienstag, 8. April 2008, 10:15 in Raum -1607 (Neubau WA 73)

Ort und Zeit:

Dienstags, 10.15 h – 11.45 h, in Raum 0443

Übungen:

Mittwochs, 10.15 h – 11.45 h, in Raum 0443. Beginn 16. April

Angesprochener HörerInnenkreis:

Informatik Master/Diplom II. Die Vorlesung kann auch im Bachelor Informatik angerechnet werden. (Es darf aber nur eine Masterveranstaltung in den Bachelor eingebracht werden, die man dann aber nicht mehr für den Master verwenden kann!)

Vorkenntnisse:

Informatik Grundstudium

Leistungsnachweis:

Klausur oder mündliche Prüfung, je nach Teilnehmerzahl. Die Vorlesung kann im Bereich Praktische Informatik sowie in den Anwendungsgebieten Knowledge & Data Engineering und Internet-Technologien angerechnet werden.

Veranstalter:

Dr. Andreas Hotho, Dominik Benz

Inhalt:

Der grösste Anteil des heute verfügbaren Wissens liegt in Form natürlichsprachlicher Texte vor. Das Aufkommen des WWW hat die elektronische Verfügbarkeit dieser Texte stark beschleunigt. Somit stehen heutzutage Millionen von Textdokumenten nicht nur Menschen zur Verfügung, sondern können auch von Computern automatisiert verarbeitet werden. Dies eröffnet neue Möglichkeiten, Einblicke in die Eigenschaften und Nutzung von Sprache zu erhalten. Analytische Verfahren zur Untersuchung der Eigenschaften und der Verarbeitung von Sprache in Form von Texten und Textkollektionen bilden den Kern dieser Vorlesung. Darauf aufbauend werden statistische Methoden z.B. zur Unterscheidung von Wortsinnen oder der Bestimmung grammatikalischer Konstrukte erarbeitet. Ein weiteres Thema sind Verfahren zur automatischen Übersetzung von Texten zwischen verschiedenen Sprachen.

Organisatorisches:

Die Vorlesung wird nicht wie üblich als Frontalunterricht auf der Basis von Folien abgehalten. Vielmehr gibt es wöchentliche Leseaufgaben, die dann jede Woche während der Vorlesung besprochen werden.

Agenda:

[08.04] Einführung (Folien Andreas)
[15.04] Eigenschaften von Text (Kap 3., Folien Hagen)
[22.04] Words I: Satzgrenzenerkennung, Tokenization (Kap 4, Folien Olga)
[29.04] Kollokationen (Kap 5.1, 5.2, 5.3, Folien Jörn)
[06.05] N-Gram-Modelle (Kap 6.1 und Kap 6.2, Folien Michael Blumenstein)
[13.05] Hidden Markov Modelle für Tagging (Kap 9, 10.1.,10.2, Folien Melih)
[20.05] Rest HMM, Transformationsbasiertes Tagging (Kap 10.3, Kap 10.4 Folien Michael Wagner)
[27.05] Probabilistic Context Free Grammars (Kap 11, Folien Christian)
[03.06] Probabilistic Parsing I (Kap 12, Folien Jörn)
[10.06] Probabilistic Parsing II (Kap 12, Folien Michael Blumenstein)
[17.06] Word Sense Disambiguation I (Kap 7, Folien Daniel)
[24.06] Word Sense Disambiguation II (Kap 7, Folien Daniel)
[01.07] Machine Translation (Kap 13, Folien Oxana)

Literatur zur Vorlesung:

Christopher D. Manning and Hinrich Schütze. Foundations of Statistical Natural Language Processing. The MIT Press,Cambridge, Massachusetts,1999.

Eine Liste mit vertiefender Literatur gibt es in BibSonomy unter dem Stichwort NLP.

Folien:

Einführung, Organisatorisches, Überblick von Andreas
Eigenschaften von Text von Andreas
Linguistic Essentials von Hagen Peukert
Corpus Based Work von Olga Walker
POS Tagging von Michael Wagner
Probabilistic Context Free Grammars von Christian Voigtmann
Machine Translation von Oxana Lapteva
Probabilistic Parsing, Teil 1 von Jörn Dreyer
Probabilistic Parsing, Teil 2 von Michael Blumenstein
N-Gram Modelle von Michael Blumenstein
Markov-Models von Melih Kurt
Word Sense Disamiguation von Daniel

Übung:

Webseite zur Übung