Document Information Retrieval – Praktika

Status des Praktikums: offen
Betreuer: Florian Kleber, Markus Diem, Stefan Fiel

Beschreibung


Das DIR Projekt ist eine Kooperation mit dem Fraunhofer IPK Berlin, welches mit der Entwicklung eines Systems zur automatisierten virtuellen Rekonstruktion handzerrissener “Stasi”-Unterlagen beauftragt wurde. Das Ministerium für Staatssicherheit (kurz Stasi) war der Inlands- und Auslandsgeheimdienst der DDR. Kurz vor der Auflösung des Ministeriums wurde ein Teil der Akten von Stasi-Mitarbeitern vorvernichtet. Insgesamt gibt es knapp 16.000 “Säcke” mit ca. 600 Millionen zerrissenen Papierschnipseln. Für die Aufbereitung und Archivierung der Stasi Unterlagen ist das Amt des Bundesbeauftragten für die Unterlagen des Staatssicherheitsdienstes der ehemaligen DDR (BStU) verantwortlich.

Parallel zu der Projektgruppe die sich mit der “Virtuellen Rekonstruktion” beschäftigt, gibt es ein Team, welches sich mit der “Manuellen Rekonstruktion” beschäftigt.
Nach der Einrichtung der Projektgruppe für die manuelle Rekonstruktion 1995, gelang es bis Ende 2008 Unterlagen aus 400 Säcken zusammenzufügen. Mit Hilfe des entworfenen Systems für die virtuelle Rekonstruktion sollen ebenfalls Akten aus 400 Säcken rekonstruiert werden, um damit die Machbarkeit einer automatisierten Rekonstruktion zu beurteilen (siehe Details). Für die virtuelle Rekonstruktion wird zusätzlich zu der Formeigenschaft die gedruckte Information auf einzelnen Schnipsel bewertet.

Die Aufgaben innerhalb dieses Praktikums behandeln Themen die innerhalb des Document Information Retrieval (DIR) Projektes (siehe Projekthomepage) eingesetzt werden sollen. DIR dient der Analyse von zerrissenen Dokumenten: hierbei werden zusätzlich zu der Form Eigenschaften (Features) berechnet, die eine Rekonstruktion vollständiger Seiten aus einzelnen Schnipseln ermöglichen soll. Hierzu bestimmt man zum Beispiel den Papiertyp (liniiert, kariert, leer), die Schriftart (Handschrift vs. Maschinenschrift), die Schriftfarbe sowie Dokumentenanalyse (siehe Themen) allgemein. Nach der Rekonstruktion ganzer Seiten ist es ebenfalls ein Ziel, zusammengehörige Seiten zu finden. Dies wird als Formierung bezeichnet. Dazu wird z.B. eine Layoutanalyse von ganzen Seiten durchgeführt, ähnliche Kopf- bzw. Fußzeilen gesucht, oder auch auf den Kontext der Dokumente eingegangen (OCR, Word Spotting, Writer Identification…).

Themen

Der Umfang der Praktika kann je nach Bedarf sowohl ein Projektpraktikum (Bachelor) mit Seminar als auch ein Masterpraktikum bzw. eine Masterarbeit umfassen.
Bisher behandelte Themen beinhalten zum Beispiel:

Die Auswahl des Themenbereichs erfolgt in Absprache mit den Betreuern und kann Varianten der bisherigen Themen, als auch neue Themengebiete im Bereich der Dokumentenanalyse beinhalten. Individuelle Treffen können gerne via e-mail vereinbart werden.

Classification

Formierung

Skew

Restoration

Gliederung

  • Auswahl des Themenbereichs und Literaturrecherche
  • Einarbeiten in das vorhandene System/Algorithmen
  • Die Algorithmen können in Matlab bzw. C++ mit OpenCV entworfen werden
  • Evaluierung anhand von Testdaten
  • Schriftlicher Bericht und Präsentation des Praktikums

Sonstiges

  • Grundlegende Kenntnisse der Bildverarbeitung
  • Matlab bzw. C++, OpenCV Kenntnisse von Vorteil
  • Ein Framework für die Layout Analyse ist bereits vorhanden (Matlab Schnittstelle bzw. C++ Source code)