Mediana: Eine Workbench zur rechnergestützten Analyse von Mediendaten 1

August 9, 2017 | Author: Thomas Bösch | Category: N/A
Share Embed Donate


Short Description

Download Mediana: Eine Workbench zur rechnergestützten Analyse von Mediendaten 1...

Description

Mediana: Eine Workbench zur rechnergestützten Analyse von Mediendaten1 Hartmut Luttermann, Bernd Freisleben, Manfred Grauer, Udo Kelter, Thomas Kamphusmann, Udo Merten, Guido Rößling, Thomas Unger, Jürgen Waldhans Universität Siegen, 57076 Siegen {hartmut|grauer|thomas|merten|waldhans}@fb5.uni-siegen.de, {freisleb|kelter|roessling}@informatik.uni-siegen.de Kernpunkte für das Management Entwicklung eines rechnergestützten Arbeitsplatzes für Medienwissenschaftler zur Analyse von multimedialen Internet-Mediendaten. -

Archiv und Datenbank für Multimedia-Daten (Video, Bild, Text) und Attributdaten

-

Strukturelle Analyse von Bild-/Videodaten: Videoschnitte, Textbereiche, Gesichter

-

Abfrage-/Verwaltungs-Client mit Visualisierung von Assoziationen

Stichworte: Arbeitsplatz, Multimedia, Datenbank, Gesichtsdetektion, Schnittdetektion, Textdetektion, Informationsvisualisierung Zusammenfassung Dieser Beitrag beschreibt Mediana, ein rechnergestützter, integrierter Arbeitsplatz für Medienwissenschaftler zur Verwaltung und Analyse von Mediendaten. Die wesentlichen Komponenten sind die Erfassung und die Verwaltung von multimedialen Daten, d. h. Bild-, Video- und Textdokumente, in einer Datenbank, halbautomatische Analysewerkzeuge für Bilder bzw. Videos und eine grafische Benutzungsoberfläche, die alle Werkzeuge und Komponenten der medienwissenschaftlichen Arbeit integriert. 1

Einleitung

Medienwissenschaftler2 beschäftigen sich mit den inhaltlichen Strukturen und Formen des Fernsehens sowie deren Wechselwirkungen mit anderen Mediengattungen [PüSt00; SFB98; KrTh94], z. B. PrintMedien, CD-ROM-Publikationen und dem World Wide Web (WWW). Diese Arbeiten beinhalten die Erfassung und Archivierung sowie die qualitative und quantitative Analyse von Videoaufzeichnungen, Bildern und Web-Seiten. Dabei werden verschiedene Metadaten der audiovisuellen Datenobjekte und semantische Informationen zu dem jeweiligen Forschungskontext berücksichtigt. Die bisherigen Arbeitsabläufe sind jedoch geprägt durch den Einsatz verschiedener, z. T. inkompatibler Systeme und Hilfsmittel sowie der Wiederholung vieler zeitintensiver, manueller Arbeiten, z. B. das Auffinden bestimmter Schnitte oder Texte in Videos. Zusätzlich ist ein Austausch und die Zusammenführung der Datengrundlage und Ergebnisse zwischen verschiedenen Forschergruppen aufgrund der Heterogenität der verwendeten Computer- und Softwaresysteme sowie der entwickelten Datenschema nicht möglich. Dies ist aber für Medienwissenschaftler wichtig, da größere Forschungsthemen häufig in kleine Projekte unterteilt und durch z. T. räumlich getrennte Forschergruppen bearbeitet werden. Der Fortschritt in der Informationstechnologie eröffnet für die medienwissenschaftliche Arbeit neue Möglichkeiten der Nutzung von Computern und rechnergestützten Werkzeugen. Das Ziel ist der durchgängige Einsatz rechnergestützter Werkzeuge, durch den Medienwissenschaftler bei ihren Untersuchungen und 1

Diese Arbeit wurde von 1998 bis 2000 in dem Projekt „Methoden und Werkzeuge zur rechnergestützten medienwissenschaftlichen Analyse“ im Rahmen des Sonderforschungsbereichs (SFB) 240 „Ästhetik, Pragmatik und Geschichte der Bildschirmmedien“ der Universität Siegen von der Deutschen Forschungsgesellschaft (DFG) unter der Nummer SFB 240-98 gefördert. 2 Die hier beschriebenen Forschungstätigkeiten von Medienwissenschaftlern beziehen sich auf die seit 1985 durchgeführten Arbeiten im Rahmen des SFB 240.

Arbeiten von mechanischen und manuellen Arbeiten entlastet werden und sich damit verstärkt inhaltlichen Fragestellungen und Analysen widmen können [FGK99]. Im Unterschied zu traditionellen Auskunfts- und reinen Archivierungssystemen soll dabei die gesamte Funktionspalette medienwissenschaftlicher Arbeitsmethoden durch ein Computersystem unterstützt werden. Daraus wurde das Konzept eines integrierten und erweiterbaren Arbeitsplatzes für medienwissenschaftliche Untersuchungen entwickelt und prototypisch implementiert. Das Ergebnis ist der rechnergestützte medienwissenschaftliche Arbeitsplatz Mediana. Mediana ist konzeptuell eine projektübergreifende, mehrbenutzerfähige, Internet-basierte, erweiterbare Datenbankanwendung für audiovisuelle Datenobjekte, Textdokumente und damit verbundenen Attributund semantischen Kontextdaten. Zusätzlich sind modular komplexe Analyse- und Visualisierungsmethoden integriert. Wesentliche Merkmale und Funktionen sind: -

Datenhaltung: Die konsistente Verwaltung aller mono- und multimedialen Datenobjekte (Mediendaten), d. h. Bild-, Video- und Textdokumente, sowie deren deskriptive Attribut- und Metadaten als auch Daten zum Forschungskontext in einer integrierten Datenbank. Ein wichtiger Aspekt dabei ist Trennung von „öffentlichen“ und „privaten“ (persönlichen) Datenbeständen.

-

Bild-/Videoanalyse: Funktionen zum halb- und vollautomatischen Generieren von relevanten Strukturund Inhaltsinformationen zu dem vorliegenden Bild-/Videomaterial.

-

Benutzerschnittstelle: Eine grafische Benutzungsoberfläche (GUI) mit dedizierten Schnittstellen zur Eingabe, Bearbeitung und Wiedergabe von mono- und multimedialen Datenobjekten sowie den dazugehörenden Attribut- und Metadaten. Die Anordnung der Funktionen orientiert sich an den Arbeitsabläufen, die als typisch für Medienwissenschaftler in Forschung und Lehre angesehen werden.

Mediana besteht aus zwei Client-Anwendungen: die grafische Arbeitsumgebung/Workbench MedianaVis mit Visualisierungskomponenten und das WWW-basiertes Recherche-Tool Mediana-W3. Der Beitrag ist folgendermaßen gegliedert: In Abschnitt 2 wird ein Überblick über die Architektur des medienwissenschaftlichen Arbeitsplatzes gegeben. In Abschnitt 3 wird die Verwaltung der audiovisuellen Medienobjekte, Textdokumente und deren Attributdaten vorgestellt, bevor in Abschnitt 4 drei Verfahren zur Bild-/Videoanalyse erläutert werden, die sich zur Generierung von Inhalten und Strukturen von den Medienobjekten eignen. In Abschnitt 5 wird dann auf verschiedene Aspekte und Funktionen der grafischen Benutzerschnittstelle eingegangen, und es werden Visualisierungstechniken vorgestellt, die sich besonders für die medienwissenschaftliche Analyse eignen. In Abschnitt 6 werden die Arbeiten zusammengefasst und ein Ausblick gegeben. 2

Konzept des medienwissenschaftlichen Arbeitsplatzes Mediana

2.1 Motivation Arbeitsplatzsysteme sind für verschiedene Anwendungen entwickelt worden [DWR+01; USC01; PSH98; ABD+96]. Das Merkmal eines Arbeitsplatzsystems für medienwissenschaftliche Untersuchungen ist die Archivierung und Verknüpfung von beliebigen multimedialen Daten, Textdokumenten, Metadaten sowie semantischen Hintergrunddaten als Grundlage für Analysen. Die ersten verfügbaren „multimedialen“ Systeme (z. B. Film-Lexika auf CD-ROM) [Stei00; KaMe97; MeGr97] waren reine Auskunftssysteme mit statischem Datenbestand ohne Techniken zur Videoanalyse und zur Erweiterung des Archivs. Der Schwerpunkt lag in der Bereitstellung von Methoden zur Speicherung und Verbreitung von Videodaten, z. B. Video-on-Demand [HET00; ATN98]. Die Trennung in einer privaten und öffentlichen Datenhaltung sowie die Definition entsprechender Rechte war nicht vorgesehen. Zudem waren diese Systeme auf Grund ihres spezialisierten Anwendungsbereichs nicht mit vertretbarem Aufwand anzupassen und zu einen Arbeitsplatz zu erweitern. Ein medienwissenschaftlicher Arbeitsplatz beinhaltet im wesentlichen die Funktionalität von digitalen Video-Archivsystemen, wie sie z. B. im Projekt Informedia [OlHa99] entwickelt wurde. Der Schwerpunkt liegt dabei auf Methoden zur automatischen Analyse der Videodaten, um so den Zugriff und die

Attributdaten, Metadaten

Arbeitsprozess.tif Erfassung Archivierung

Analyse

Charakterisierung (Form und Inhalt)

Attributanalyse Statistik Verknüpfungen

Bild 1 Modell des medienwissenschaftlichen Arbeitsprozesses Suche nach Videoausschnitten zu beschleunigen. Es wurden Methoden entwickelt, die aus den Bild-, Audio- und Textkomponenten des Videomaterials als auch aus der zeitlichen Abfolge der Bilder Metadaten extrahieren und Inhaltszusammenfassungen generieren, die dann für intelligente Retrievalmethoden indiziert werden. Neuere Dateiformate für Bilder und Videos speichern ein Großteil dieser Metadaten mit den eigentlichen Videodaten ab (z. B. MPEG-7 [MPEG01]). Jedoch fehlt eine Integration mit den semantischen Hintergrunddaten des Forschungskontextes, wie sie in den medienwissenschaftlichen Projekten wichtig ist. Zum anderen ist eine Unterstützung für qualitative, manuelle Analysen gefordert. Ein anderes Problem ist, dass eine Reihe von für den Arbeitsplatz verwendbaren Technologien – zu nennen sind vor allem spezifische Analysealgorithmen für Stand- und Bewegtbilder, nichtkonventionelle DBMS, Retrieval-Techniken und graphische Editoren zur Annotation und Verknüpfung von Daten – existieren, jedoch weder frei kombinierbar noch innerhalb einer grafischen Benutzungsoberfläche als Softwarekomponenten zu integrieren sind. Die Entwicklung von frei integrierbaren und parametrisierbaren Softwarekomponenten ist Gegenstand aktueller Forschungsarbeiten in der Informatik [WHS01; Grif98]. 2.2 Modell des medienwissenschaftlichen Arbeitsprozesses Die leitende Systemmetapher des medienwissenschaftlichen Arbeitsplatzes ist die eines Schreibtisches, auf dem wichtige medienwissenschaftliche Arbeitsmittel wie Karteikästen (Metapher zur Speicherung von Metadaten und semantischen Zusatzinformationen zu audiovisuellen Daten) und Videorecorder (Zugriff und Anzeige von audiovisuellen Daten) Platz haben. Dabei integriert die grafische Benutzungsoberfläche ein Modell der Arbeitsweise, wie sie in unterschiedlichen Variationen in den Untersuchungen der Medienwissenschaftler wiederzufinden ist (Bild 1). Ausgangspunkt jeder medienwissenschaftlichen Untersuchung ist die Selektion und Erfassung der Mediendaten, d. h. des Video-, Bild- oder Textmaterials. Zum Teil wird dabei auf schon archiviertes Material oder auf Dokumente aus dem WWW zurückgegriffen, zum Teil werden Originaldokumente, z. B. Fernsehproduktionen, Filme, Abbildungen oder Aufsätze als ganzes oder in Ausschnitten neu aufgenommen und digitalisiert. Video- und Textmaterialen werden automatisch in Sequenzen resp. Abschnitte unterteilt, die die Grundlage für qualitative Analysen bilden. Eine zusätzliche inhaltliche Strukturierung des Videomaterials orientiert sich dabei z. B. an Videoschnitten oder an einem Vorkommen von bestimmten, für die Fragestellung wichtigen Texten und Gesichtern, wie z. B. bei der Untersuchung von Nachrichtensendungen [Lude01; Lude98]. Da solche Analysen jedoch allgemeingültig nicht möglich sind, ist immer eine individuelle Anpassung an die spezielle Fragestellung und Datengrundlage notwendig. Sequenzen oder Abschnitte werden anschließend nach den für den Untersuchungsgegenstand und der zu untersuchenden Fragestellung wichtigen strukturellen und inhaltlichen Eigenschaften charakterisiert. Die ermittelten Eigenschaftswerte werden pro Segment gespeichert und nach statistischen und qualitativen Kriterien ausgewertet. Die Ergebnisse dieser Arbeit bilden die Grundlage für die Bestätigung oder Ablehnung einer Arbeitshypothese oder für die erneute Charakterisierung bez. einer neuen Fragestellung. Damit zielt der Prototyp des medienwissenschaftlichen Arbeitsplatzes auf einen spezialisierten „Editor“ ab, der alle notwendigen Funktionen zur Behandlung und Analyse von multimedialen Datenbeständen und deren Attributdaten enthält.

Zugangskontrolle

WWWAbfrageClient

Grafische Benutzerschnittstelle (GUI) Editieren

Suche + Anzeige

EditierSuchAnzeigeGRobKonzept.tif Tools Tools Tools

Analyse

Text -/BildDarstellung; Video-Player

AnalyseTools

Internet Relationale Datenbank für Attribut- und Metadaten von Medienobjekten

Archiv (Web-Server) für Medienobjekte Text

Bild

Video

Bild 2 Grobstruktur des medienwissenschaftlichen Arbeitsplatzes Mediana

2.3 Grobstruktur von Mediana Die konzeptuelle Grobstruktur des medienwissenschaftlichen Arbeitsplatzes Mediana mit seinen beiden Client-Anwendungen wird in Bild 2 gezeigt. Großer Wert wurde auf eine offene Architektur mit Standardschnittstellen gelegt, die es ermöglicht, bekannte, aber heterogene Komponenten des Arbeitsplatzes, z. B. WWW-Browser, „Video Player“, Datenbankabfrage-Tools, und zukünftige Werkzeuge, z. B. weitere Bild-/Videoanalyse-Tools, zu integrieren. Die Verwendung bekannter Softwarebausteine und konzepte verringert die Entwicklungskosten und erleichtert zusätzlich für zukünftige Anwender die Benutzung und Bedienung des Arbeitsplatzes. Wesentlicher Bestandteil eines solchen Arbeitsplatzes ist die Datenhaltung. Sie ist unterteilt in ein WWW-basiertes Multimedia-Archiv zur permanenten, verteilten Speicherung der Mediendaten, d. h. Lösch- und Editierfunktionen für diese Datenbestände sind nicht vorgesehen, und in eine Standarddatenbank zur Speicherung der editierbaren Attribut-, Meta- und Kontextdaten. In der nächsten Ausbaustufe des Arbeitsplatzes sind auch entsprechende Editiertools für Bilder und Videos enthalten. Verschiedene inhaltsbasierte Suchoperationen, die in konventionellen DBMS nicht unterstützt werden, erleichtern den Zugriff auf Mediendaten. Da ein automatisches Videoparsing ohne semantisches Zusatzwissen allgemeingültig in absehbarer Zukunft nicht möglich ist, werden die bereits existierenden semantischen Zusatzinformationen (d. h. Attribut- und Metadaten) des vorliegenden Bild-/Videomaterials für inhaltsbasierte Zugriffstechniken verwendet. Mediendaten werden in Abhängigkeit von ihrem Medientyp angezeigt, d. h. Videodokumente werden in einem „Video Player“, Textdokumente dagegen in einem Browser angezeigt. Ein besonderes Charakteristikum des Arbeitsplatzes sind Werkzeuge zur Erstellung und kontextbezogenen Visualisierung von Annotationen und Verknüpfungen zwischen Meta- und Attributdaten. Diese erlauben Medienwissenschaftlern, Untersuchungen nach Zusammenhängen und Abhängigkeiten zwischen unterschiedlichen mono- und audiovisuellen Daten sowie deren Metadaten durchzuführen. Im Gegensatz zur Anzeige von Attributdaten, die sich an Formularen orientiert, macht die kontextbezogenen Visualisierungen von Verknüpfungen eine grafische Arbeitsumgebung erforderlich. Eine Reihe von Analysetechniken zu audiovisuellen Daten übernehmen mechanische und manuelle Aufgaben bei der Vorbereitung von Bild- und Videomaterial für medienwissenschaftliche Untersuchungen.

Zur Gewährleistung individueller und persönlicher Arbeitsumgebungen und -materialien wird der Zugang zum Arbeitsplatz durch eine Benutzerauthentisierung kontrolliert. 3

Entwurf der medienwissenschaftlichen Datenbank

3.1 Klassifikation der Datenbestände Die medienwissenschaftliche Datenbank ist die zentrale Komponente des Arbeitsplatzes. Folgende Datenarten fallen an: -

audiovisuelle Daten, wie Video-Aufzeichnungen, Filme, Fotografien (z. B. Bühnenbilder, Bilder von Originalschauplätzen);

-

textuelle Daten, wie Drehbücher, Literaturvorlagen, Kritiken oder Publikationsdaten;

-

deskriptive Daten, wie Hintergrundinformationen, Querverweise zwischen Daten, Markierungen von Filmabschnitten.

Dabei werden insbesondere bez. der Zugriffskontrolle drei Klassen von Datenbeständen unterschieden: -

Primärdaten: alle audiovisuellen Originaldatenobjekte;

-

Sekundärdaten: im wesentlichen Textdokumente, die -

öffentlich zugänglich sind, wie wissenschaftliche Beiträge, Dokumentationen und andere Archivmaterialien;

-

nicht öffentlich zugänglich sind, wie private Anmerkungen, Querverweise oder Markierungen, die das Ergebnis medienwissenschaftlicher Arbeit und damit das persönliche geistige Eigentum der Wissenschaftler darstellen.

Zur Kontrolle des Datenzugriffs wurde eine Benutzerrechteverwaltung auf Basis von Arbeitsgruppen/Benutzerklassen implementiert. Dabei wird für jeden zugelassenen Benutzer eine private Datenbank angelegt, in der alle Änderungen des Datenbankschemas und des Datenbestandes (d. h. alle neuen Datenobjekte und Verknüpfungen) sowie der Systemeinstellungen gespeichert werden. Zur Datenhaltung der verschiedenen Datentypen ist ein Datenbankmanagementsystem (DBMS) notwendig, wie z. B. H-PCTE [Kelt92]. Aufgrund der freien Verfügbarkeit, der Qualität und der weiten Verbreitung (mehrere Plattformen werden unterstützt) ist das relationale DBMS MySQL ausgewählt worden. 3.2 Datenbank für Medienattribute und Metadaten (Metadaten-/Attributdatenbank) Als Ersatz für die obligatorischen Karteikästen haben Medienwissenschaftler schon früh mit unterschiedlichen Datenbanken gearbeitet. Projektübergreifend gab es jedoch keinen zentralen strukturierten Datenbankentwurf, sodass viele heterogene, redundante, z. T. unstrukturierte Datenbestände mit begrenzter Gültigkeit in unterschiedlichen DBMS aufgebaut wurden, deren Vollständigkeit, Konsistenz sowie Dokumentierung und Pflege üblicherweise zu wünschen übrig ließ. Eine wichtige Aufgabe bei der Entwicklung des medienwissenschaftlichen Arbeitsplatzes Mediana war daher der Aufbau einer zentralen Datenhaltung für die Attribut-, Meta- und Kontextdaten. Dazu waren -

die unterschiedlichen Datenbankschemata zu vereinheitlichen und

-

die Daten der vorhandenen Projektdatenbanken zusammenzuführen.

Im Zusammenhang damit sollten auch erste Schritte in Richtung Datenpflege, Dokumentation und bereichsübergreifendem Datenzugriff getan werden. Dabei bestand das Problem, dass die medienwissenschaftlich interessanten Datenobjekte der vorhandenen Datenbanken aufgrund der hohen Zahl von Verknüpfungen (d. h. dem Vorkommen in verschiedenen Projektkontexten) nur sehr schwer in einem konsistenten, redundanzfreien und normalisierten Datenbankschemata zu modellieren sind. Aus diesem Grunde wurde ein „Kernschema“ entwickelt, das die häufigs-

Serie (zu n Folgen)

Produktion (Film, Realisat)

Ausstrahlung (Folge Fernsehsendung)

Ausstrahlungsabschnitt

Literatur (Publikation) Stelle (in Literatur)

Ort (Adresse)

Akte Nicht

Organisation (Sender, Inst.)

publizierte Schriftstücke

DB-Schema.tif Person (Autor, Schauspieler)

Programm (des Senders)

Nachweis URL

Ereignis

Referenz zum Medienarchiv

Bild 3 Datenbankschema zu den Attribut- und Metadaten von Medienobjekten ten medienwissenschaftlichen Objekttypen umfasst. Sie orientieren sich an den Originaltabellen und an in der Sekundärliteratur (Bibliografien, Filmografien etc.) häufig verwendeten Attributen. Es gibt drei Kategorien von Objekttypen (Bild 3): -

Objekttypen zu audiovisuellen Ausstrahlung (Sendung);

Daten

(Video-/Bilddokumente),

wie Fernseh-/Filmproduktion,

-

Objekttypen zu textuellen Daten (Textdokumente), wie Literatur und Akteneintrag; und

-

organisatorische Objekttypen, die für Medienwissenschaftler einen geringeren eigenständigen Wert haben, wie Person, Institutionen/Organisation, Ereignisbeschreibungen, Orte und Fernsehprogramme. Diese besitzen aber Bezüge mit Objekttypen der beiden anderen Kategorien und sind sowohl im Sinne der Normalisierung des Datenbankschemas als auch für Recherchezwecke notwendig.

Zusätzlich wurden strukturelle Objekttypen eingeführt, die es erlauben, Texte und Filme in Abschnitte und Teilelemente zu strukturieren, z. B. Ausstrahlungsabschnitt für Fernseh- und Filmproduktionen und Literaturstelle (Textabschnitt) für Textdokumente. Diese Objekttypen eröffnen die Möglichkeit, sowohl unvollständige Datenbestände präzise zu beschreiben als auch Datensätze zu erstellen, die Teile größerer Einheiten genau bezeichnen. Zu allen Objekttypen können Nachweise gespeichert werden, d. h. direkte Verknüpfungen mit textuellen und/oder audiovisuellen Mediendaten, z. B. das Bild zu einer Person, zu einem Handlungsort, das Textdokument zu einer Literaturquelle oder das Video zu einer Fernsehsendung. Sie besitzen zwei Attribute: a) URL-Adressen zur Beschreibung des Standortes im digitalen Archiv; und b) Texte/Kodierungen, die eine Beschreibung des Standortes im herkömmlichen Archiv bezeichnen. Auf die Modellierung spezifischer Attributtabellen zu Medienobjekten, die die besonderen methodischen Untersuchungsansätze der Projekte implementieren, und Objekttypen, die von bestimmten sozial- oder geisteswissenschaftlichen methodischen Vorgaben ableitet sind, wurde zunächst verzichtet. Aber es wurde mit dem Datenobjekttyp-Editor ein Verfahren konzipiert, mit dem solche Datentabellen und Objekttypen einfach definiert und in den Kerndatenbestand integriert werden können. Zur Aufrechterhaltung der Datenkonsistenz ist bislang nur das Hinzufügen neuer und das Löschen alter Datentabellen möglich, nicht jedoch die Änderung existierender. Diese eignen sich z. B. zur Speicherung umfangreicher projektabhängiger Charakterisierungen von Mediendaten. Exemplarisch wurde eine mehrseitige Charakterisierungsliste für Nachrichtensendungen implementiert [Lude01; Lude98]. Die zwischen den Datenobjekten aufgebauten Beziehungen existieren in unterschiedlichen Rollen. So kann eine Person zu einer Produktion in der Rolle des Regisseurs, Drehbuchautors oder Schauspielers

auftreten. In der Datenbank werden diese Verknüpfungen direkt als „Links“ modelliert. Da in einer relationalen Datenbank kein derartiger Mechanismus existiert, werden die Links in einer Linktabelle mit entsprechender Typisierung, z. B. die Beziehungsrolle Regisseur, implementiert. Die Eigenschaften des Linktyps werden in einer Linktypentabelle zusammengefasst, die von einem speziell dafür entwickelten Linktyp-Editor verwaltet wird.

Video.tif 3.3 Archiv für audiovisuelle Daten und Textdokumente (Medienobjekt-Datenbank) Auch wenn die Digitalisierung der gesamten Videobestände des SFB von ca. 16.000 Stunden auch bei weiterhin fallenden Kosten für Massenspeichersysteme illu- Bild 4 Visualisiertes Medienobjekt Video sorisch bleibt, wurde trotzdem ein Archiv für Video-, mit Schnittliste Bild- und Textdokumente (Medienobjekte) als Client/Server-System unter folgenden Vorgaben entwickelt [EFZ99]: -

Benutzung von standardisierten Datenformaten, wie HTML, PDF, MPEG 1-Video, GIF, JPG, PNG;

-

Implementierung der Client-Software in der Programmiersprache Java;

-

Einsatz von Open Source-Programmen und Standard-Software, wie z. B. WWW-Browser.

In einer ersten Konzeption und Realisierung wurden die Medienobjekte als „streaming media“ direkt auf einem Web-Server gespeichert und von dort mit der WWW-Server-Software an die Client-Anwendung versendet. Dabei wurde zunächst auf Werkzeuge zum Streamen der Medienobjekte verzichtet. Über Meta-Tags (Sprungadressen für Textdokumente, Timecodes für Videos) werden zusätzlich strukturelle Informationen kodiert, wie z. B. Sequenzen und Schnitte für Videos; Abschnitte, Absatz, Satz oder bibliografische Daten für Textdokumente. Die Verwaltung der Medienobjekte wird in der zentralen Metadaten-/Attributdatenbank über MedienReferenzobjekte (Datenobjekttyp Nachweis-URL) realisiert. Zu jedem auf dem Web-Server gespeichertem Medienobjekt existiert in der Metadaten-/Attributdatenbank ein Referenzobjekt mit einer Kurzbeschreibung und der Web-Server-(URL-)Adresse. Die Verwaltung der Referenzobjekte (Ändern, Löschen, Generieren) integriert dabei die Funktionen zur Verwaltung der Medienobjekte auf dem Web-Server. Zur Visualisierung der Medienobjekte werden in beiden Client-Anwendungen, sowohl in der Webgestützten Browser-Anwendung Mediana-W3 als auch in der grafischen Arbeitsumgebung Mediana-Vis, Standard-Tools eingesetzt: Videodaten werden über eine MPEG-Player-Software (MPEG-DecoderSoftware mit einer Laufleiste angezeigt, die Vor- und Rückspulfunktionen sowie Stop- und Startfunktion integriert) angezeigt. Diese Software wurde um eine zu den Videodaten automatisch ermittelte Schnittliste (siehe Abschnitt 4.1) erweitert, die im Zusammenhang mit dem Videoobjekt dargestellt wird. Zukünftig werden auch benutzer-definierte Videopositionen auf Basis der „Timecodes“ integriert. Beide Informationen eignen sich für den direkten Zugriff auf spezielle Positionen im Video (Bild 4). Textdokumente werden in einem integrierten HTML- und PDF-Browser angezeigt, der auch Bilddokumente anzeigen und Hyperlinks verfolgen kann. 3.4 Erfassung und Archivierung von Video, Bild und Text Die Erfassung und Archivierung der Video-, Bild- und Textdokumente erfolgt bislang nach einem zweistufigen Verfahren. Im ersten Schritt werden die Medienobjekte auf dem WWW-Server gespeichert. Im zweiten Schritt werden dann dazu vom Benutzer manuell Referenzobjekte in der Metadaten/Attributdatenbank generiert, die auf die Medienobjekte verweisen (Datenobjekttyp Nachweis-URL).

Frame-Wipe.tif

Bild 5 Gradueller Übergang (fade) über 4 Video-Frames Lösch- und Änderungsoperationen der Referenzobjekte schließen das Löschen des Medienobjekts auf dem Web-Server mit ein. Dadurch wird sichergestellt, dass zu jedem Medienobjekt nur ein Referenzobjekt in der Metadaten-/Attributdatenbank existiert. Der Vorteil dieses Verfahrens ist, dass mit dem Datenobjekttyp Nachweis-URL auch nur Abschnitte oder Indexpositionen in den Medienobjekten referenziert werden können, ohne dass dabei erneut eine Kopie des Medienobjekts oder des Teilstücks auf dem WWW-Server angelegt wird. Diese Teilstücke werden in der Metadaten-/Attributdatenbank wie Medienobjekte behandelt und verwaltet. Der Objekttyp NachweisURL ist generisch und kann auch zur Referenzierung von HTML-Seiten im WWW genutzt werden, das dabei selbst als dynamisches Archiv angesehen wird. Zukünftig wird das oben beschriebene Erfassungsverfahren automatisiert. Dazu wird auf dem WebServer eine Erfassungsmaske (für Metadaten) mit Uploading-Funktionalität eingerichtet. Sie liest automatisch die digitalisierten Medienobjekte, speichert diese typabhängig auf dem WWW-Server und ermittelt aus den Metadaten die Informationen zu den Referenzobjekten in der Metadaten-/Attributdatenbank, die, falls nicht vorhanden, neu generiert werden. Die Metadaten und die URL-Adresse zu dem gespeicherten Medienobjekt werden mit dem Referenzobjekt in der Metadaten-/Attributdatenbank gespeichert. 4

Bild- und Videoanalyse

Die Arbeiten an rechnergestützten Methoden zur Analyse von Bewegt- und Standbildern orientieren sich an wiederkehrenden Anforderungen mit dem Ziel, Medienwissenschaftler von weitgehend „mechanischen“ Tätigkeiten zu entlasten, die viel Zeit in Anspruch nehmen. Die drei lohnenswerten Ziele, die verfolgt wurden, sind (I) die zeitliche Segmentierung digitaler Videos (Schnittdetektion), (II) die Detektion von Texten sowie (III) von Gesichtern in digitalen Bild-/Videodaten. Das Ergebnis ist jeweils ein vollautomatisch arbeitendes Programm, das interaktiv parametrisiert und an die spezielle Fragestellung und dem zu Grunde liegendem Videomaterial angepasst werden muss. Die errechneten Ergebnisse werden zur Speicherung an die Datenbank weitergereicht. Um die Einbettung in den medienwissenschaftlichen Arbeitsplatz Mediana zu erleichtern, wurden alle Verfahren in Java implementiert. 4.1 Schnittdetektion Wegen des hohen Speicherbedarfes müssen Videodaten für Analysezwecke zeitlich segmentiert werden. Dazu sind Einstellungssendepunkte und Szenenwechsel automatisch aufzufinden. Sie sind neben ihrer Bedeutung für die Analyse des strukturellen Aufbaus von unbekanntem Videomaterial auch für bestimmte medienwissenschaftliche Untersuchungen (insbesondere quantitative und statistische) von großem Interesse. Zusätzlich eignen sich Schnitte hervorragend zur Indizierung von Videomaterial. Dabei sind nicht nur Schnitte, sondern ebenso graduelle Übergänge, wie die unterschiedlichen Formen von Blenden, z. B. fade (langsames Einblenden des neuen Bildes), wipe (Einschieben des neuen Bildes), dissolve (punktuelles Auflösen des alten Bildes) (Bild 5), von Bedeutung. Grundlegende Verfahren zur Schnittdetektion werden z. B. in [Seyl65; BoWi98] oder speziell für MPEG1-Videos in [AHC93; YeLi96; KDLF97] beschrieben. Die Grundlage der hier entwickelten Schnittdetektion ist das Verfahren nach [YeLi96], das die gleichzeitige Definition eines Detektors für Schnitte und graduelle Übergänge ermöglicht. Im folgenden werden kurz die einzelnen Arbeitsschritte und die Ergebnisse dieser Schnittdetektion nach [Wald99] vorgestellt:

1. Extraktion von Frames aus dem MPEG-Datenstrom (MPEG-Decoder) auf Basis von Frametypen, z. B. Vollbilder, reduzierte Bilder (sog. DC-Frames), approximierte DC-Frames. 2. Reduktion der Anzahl der Farben durch Transformation in andere Farbräume, z. B. RGB, YUV. 3. Berechnung der Differenzen zweier aufeinanderfolgenden Frames durch Verwendung von Metriken auf Basis von Histogrammdifferenzen, z. B. 6-Bit-Code Histogramm, 3-Kanal-linearisiertes Histogramm, 3D-Histogramm. 4. Detektion von Schnitten und graduellen Übergängen. 5. Integration der Ergebnisse durch den Übergangsanalysierer in einer Schnittliste. Dabei können noch Schwellwertoperationen durchgeführt werden. Eine einfach zu bedienende Benutzungsoberfläche erlaubt, die Parameter der einzelnen Arbeitschritte vorzugeben. Zum Test wurden Nachrichtensendungen verwendet, für deren Segmentierung die günstigste Parametrisierung ermittelt wurde. Dabei wurden für Schnitte auf Basis von DC-Frames Detektionsraten von 98 % erreicht (Tabelle 1), die mit den in [YeLi96] dokumentierten Ergebnissen korrelieren. Es fällt auf, dass die Erkennung gradueller Übergänge weitaus schwieriger ist als harte Schnitte. Es kommt insbesondere zu Detektionsfehlern, wenn das Videomaterial viele schnelle aufeinanderfolgende, kurze Übergänge aufweist, die von viel Bewegung begleitet sind. Dies führt zu einer mangelnden Auflösungsfähigkeit des Detektors. Die Ergebnisse bei Verwendung von approximierten DC-Frames ist bei graduellen Übergängen etwas schlechter, bei harten Schnitten gleich gut. Die Geschwindigkeit des hier entwickelten Verfahrens hängt stark von der verwendeten Bildauflösung im Videomaterial ab. Im Durchschnitt werden von dem Algorithmus 1,5 bis 2,5 Frames pro Sekunde (P II, 350 MHz) bearbeitet.

korrekt

nicht gefunden

Schnitte

≥ 98%

≤ 2%

graduelle Übergänge

≥ 94%

≤ 7%

Tabelle 1 Ergebnisse der Schnittdetektion bei Nachrichtensendungen

4.2 Textdetektion Die Einblendung von Text in Bewegtbildmaterial ist ein wesentliches Instrument zur Kommunikation wichtiger Inhalte an den Betrachter. Zu den Funktionen zählen unter anderen die Anzeige aktueller Meldungen (z. B. Börsenticker), die Illustration der gesprochenen Worte (z. B. Nachrichten [Lude98]), die Benennung der Handlungsfunktion von Personen (z. B. in Spielshows) oder die Darstellung von Informationen (z. B. Untertitel). Ziel dieser Arbeit ist die automatische Detektion von Texten in unbekanntem Bildmaterial. Hierdurch wird die zeitaufwendige visuelle Sichtung des Materials vereinfacht, da nur noch das konkrete Auftreten von Text in den im jeweiligen Forschungskontext relevanten Bildbereichen näher untersucht werden muss. Textstellen können auf diese Weise sowohl zur Strukturierung eines Videos, zur automatischen Erhebung von Metadaten als auch zur Wiedergabe semantischer Informationen genutzt werden. Die meisten existierenden Ansätze zur Textdetektion in Bildmaterial (z. B. [JaYu98; WMR97; SuWa96]), nicht Texterkennung im Sinne von Optical Character Recognition (OCR), basieren auf idealisierenden Annahmen, die auf das Bild-/Videomaterial in medienwissenschaftlichen Projekten nicht zutreffen: -

Text- oder Bildkomponenten befinden sich auf einem homogenen Hintergrund. Tatsächlich ist der Bildhintergrund oft extrem inhomogen.

-

Für die Eingabe ist ein spezielles Bildformat vorgegeben, das bei dem vorliegenden Bild/Videomaterial nicht vorhanden ist.

-

Alle Zeichen haben die gleiche Farbe bzw. Helligkeit. Tatsächlich schwankt die Farbe bzw. Helligkeit der einzelnen Buchstaben teilweise extrem.

Auch aus Gründen fehlender Performanz der existierenden Verfahren wurde ein eigenständiger Ansatz mit folgenden Arbeitsschritten entwickelt [Knol00]: 1. Extraktion von Frames aus dem Videomaterial (MPEG).

2. Konvertierung des farbigen Videobildes in Graustufen, da die Farbinformationen irrelevant sind. Dies verstärkt den Kontrast von Text zu der Umgebung. 3. Reduktion der Anzahl der Graustufen von 256 auf 16 bei gleichem Kontrast, um Helligkeitsschwankungen zu verringern (Quantisierung). Zusammen werden in den letzten beiden Schritten die möglichen Farbwerte auf ungefähr 1 Millionstel reduziert.

TextDetekt.tif

4. Suche nach Kanten (markante Helligkeitsunterschiede) mit Hilfe eines Canny-Filters [Can86] und Verbinden derer Kantenpunkte zu Kantenzüge. 5. Bestimmung möglicher Textkandidaten aus allen gefundenen Kantenzügen. 6. Verbinden der Kantenzüge, soweit möglich, so dass die, durch die Kantenzüge definierten Komponenten einen Bildbereich umschließen.

Bild 6 Detektierter Text in einem Video-Frame

7. Analyse der Komponenten und ihrer Nachbarn auf mögliche Textkandidaten unter Berücksichtigung der Größe und des Aufbaus der Komponenten, ihrer relativen Lage und der Schwankungen der (in ihnen enthaltenen) Graustufenwerte. 8. Markierung und Ausgabe der Ergebnisse. Anhand von Videoaufzeichnungen von Nachrichtensendungen wurden für den 7. Schritt unterschiedliche Verfahren getestet. Der erfolgversprechendste Ansatz ist eine Gruppierung der potentiellen Textteile nach Farb- und Helligkeitswerten. Insbesondere bei Texten, die durch eine Videomaschine generiert (z. B. Untertitel) und nicht als Bestandteil des Bildes (z. B. T-Shirt-Aufdruck) gefilmt werden, bei Screenshots von Internetseiten als auch bei fremden Schriftzeichen (z. B. Kanjis) bringt dieser Ansatz gute Ergebnisse (Bild 6). Je nach Bildgröße sind für dieses Verfahren zwischen 1 und 5 Sekunden pro Bild (P II, 350 MHz) zu veranschlagen. 4.3 Gesichtsdetektion Die Suche nach Personen in Bewegtbildmaterial oder ihre Lokalisation in bestimmten Bildbereichen ist für medienwissenschaftliche Untersuchungen ebenfalls von großer Bedeutung. Personen und Gesichter spielen in Bild-/Videomaterial eine tragende Rolle, zum einen als Handlungsträger, zum anderen für Untersuchungen bzgl. der Form der Darstellung [Lude98; Tech98]. Ziel der Arbeiten ist die automatische Detektion von Gesichtern in unbekanntem Bildmaterial. Dies ist besonders bedeutsam z. B. bei der Videoindizierung, bei der Klassifikation von unbekanntem Videomaterial (z. B. Filme mit/ohne Menschen) oder im Zusammenhang mit einem Ähnlichkeitsalgorithmus bei der Suche von ähnlichen Gesichtern. Die aus der Literatur bekannten Verfahren zur Gesichtsdetektion ([WPB+98] gibt einen Überblick) basieren im wesentlichen entweder auf einem „feature matching“-Ansatz, auf einem geometrischen Ansatz oder auf einem „template matching“-Ansatz [BrPo95]. Der letzte Ansatz bildet die Basis des hier entwickelten Verfahrens. Es vergleicht Muster von Gesichtsformen mit im Bild auftretenden Komponenten. Die einzelnen Schritte des Verfahrens sind: 1. Extraktion von Frames aus dem Videomaterial (MPEG). 2. Konvertierung des farbigen Videobildes in Graustufen (siehe Textdetektion). 3. Reduktion der Anzahl der Graustufen (siehe Textdetektion). 3. Setzen von einer bestimmten Anzahl von „Saatpunkten“ in das Bild für einen „Region Growing“–Ansatz. Hierzu wird das Bild nach Pixel untersucht, an denen sich der Helligkeitswert

maßgeblich ändert und gleichzeitig die gemessene Helligkeit in einem bestimmten, empirisch ermittelten Intervall liegt. 4. Durchführen des „Region Growing“ für jeden Saatpunkt: Jeder Umgebungspunkte eines Saatpunktes wird untersucht und zu diesem hinzugefügt, falls die Abweichung der Punkte unter einer Schranke liegt.

GesichtsDetekt.tif

5. Auswahl von Gesichtskandidaten aus den entstandenen Regionen auf Basis derer Größe. 6. Vergleich der Regionen mit sechs „Gesichtsformen“ und sechs „Nicht-Gesichtsformen“. Die letzteren Bild 7 Detektierte Gesichter in einem Formen sind dem menschlichen Gesicht aufgrund der Video-Frame Verteilung der Helligkeitsstufen sehr ähnlich. Alle als „Nicht-Gesichtsform“ klassifizierten Regionen werden verworfen. 7. Markierung und Ausgabe der Ergebnisse. Der Algorithmus erzeugte, insbesondere nach einer Phase der Parameteradjustierung, sehr zufriedenstellende Ergebnisse (Bild 7). In der Folge wurde an der Verfeinerung des vorletzten Schritts sowie an einer exakteren Markierung der Ergebnisse gearbeitet. Für Bilder in der Größe 320 x 240 Pixel benötigt das Verfahren zwischen 1 und 5 Sekunden (P II, 350 MHz). 5

Mediana: Client-Funktionalität und Benutzungsoberfläche

Eine wesentliche technische Anforderung für den Entwurf der Client-Anwendung für den medienwissenschaftlichen Arbeitsplatz Mediana ist durch die Heterogenität der im Einsatz befindlichen Rechnerplattformen (Wintel-, Apple-, und Linux-Rechner) und durch die geografische Verteilung der Projekte gegeben, die entfernte Zugriffe über das Internet notwendig macht. Dies bedingt den Einsatz von Standardschnittstellen, Java und HTML. Die Funktionalität der Client-Anwendung hängt von den unterschiedlichen Zielsetzungen in bezug auf die Arbeitsabläufe der Medienwissenschaftler ab. Deshalb wurden zwei Client-Anwendungen entwickelt: Mediana-W3 ist ein HTML-/CGI-basierter Abfrage-Client (im WebBrowser) für Recherchearbeiten, der sich auf mengenorientierte Suchoperationen via HTMLAbfragemasken und auf die text-basierte Anzeige von Medienobjekten und den damit verbundenen Metadaten beschränkt. Mediana-Vis ist eine in Java implementierte grafische Arbeitsumgebung, die neben Recherche-, vielfältige Editier- und auch interaktive, grafische Visualisierungsmöglichkeiten besitzt. Im folgenden werden die Funktionen und Aspekte der Client-Anwendungen von Mediana näher vorgestellt. 5.1 Anzeige medienwissenschaftlicher Meta- und Attributdaten Bei der text-basierten Anzeige der medienwissenschaftlichen Datenobjekte in Masken wird zwischen direkten und indirekten Attributen unterschieden. Direkte Attribute bezeichnen alle vordefinierten Attribute eines Datenobjekts. Indirekte Attribute sind die Attribute eines zweiten Datenobjekts, das mit dem ersten Datenobjekt über einen Link verknüpft ist. Für jedes Datenobjekt sind vier Formen der Darstellung möglich: -

„Voll-“Darstellung: Anzeige aller direkten und indirekten Attribute.

-

„Teil-": Anzeige nur der direkten Attribute, die zur Identifikation des Objekts nötig sind.

-

„Ikonen-“: Anzeige der Signatur eines Datenobjekts. Diese Darstellung vereinfacht die grafische Visualisierung von Verknüpfungen oder assoziative Strukturen zwischen Datenobjekten.

-

„Editier-“: Änderungen an den direkten Attributen des Datenobjekts sind möglich.

Um jeden Benutzer eine individuelle und detailliertere Darstellungsform von Datenobjekten zu ermöglichen, wurde ein Datenobjektmasken-Editor entwickelt. Damit kann benutzerabhängig spezifiziert werden,

Links.tif

Bild 8 Visualisierung der Beziehung zwischen Schauspielern welche der direkten und indirekten Attribute eines Datenobjekttyps in welcher Reihenfolge und mit welchen Bezeichnertexten angezeigt werden. Die Anzeige von Datenobjekten des Typs Nachweis-URL integriert typabhängig die Visualisierung von Video-, Bild- und Textdokumenten sowie HTML-Seiten. Diese ist zusätzlich mit der Visualisierung der Ergebnisse der Analysemodule Schnitt-, Text- und Gesichtsdetektion verbunden (Bild 4). 5.2 Anzeige der Verknüpfungen zwischen medienwissenschaftlichen Datenobjekten Die Recherche und Anzeige einzelner Datenobjekte ist in beiden Client-Anwendungen möglich. Mediana-Vis erlaubt zusätzlich die gleichzeitige Darstellung einer beliebigen Anzahl von Datenobjekten. Die Kernfunktion von Mediana-Vis ist jedoch die Visualisierung der zwischen den Datenobjekten bestehenden Verknüpfungen (Beziehungen/Links). Verknüpfungen zwischen Datenobjekten existieren in verschiedenster Form und Anzahl. Visualisierungen von Verknüpfungen helfen besonders die assoziativen (netzartigen) Strukturen, in denen die Datenobjekte miteinander verbunden sind, sichtbar zu machen. Auf diese Weise können Verbindungen und Abhängigkeiten zwischen (auch entfernteren) Datenobjekten entdeckt und sichtbar gemacht werden (Bild 8). Auf die Bedeutung der Visualisierung von Objektbeziehungen weisen verschiedene Arbeiten in [CMS99] hin. Verknüpfungen werden in Form von Verbindungslinien zwischen zwei Datenobjekten dargestellt. Dabei besteht für den Betrachter die Möglichkeit, die grafische Position der Datenobjekte interaktiv zu ändern, um so Beziehungen zwischen entfernteren Objekten klarer sichtbar zu machen. Neben den Standardtypen für Verknüpfungen ist es möglich, in der Datenbank private Verknüpfungstypen zu definieren und diese mit Annotationen zu versehen. Annotationen werden für jeden Benutzer separat gespeichert. Damit kann eine weitergehende individuelle und projektspezifische Strukturierung des Datenbestandes vorgenommen werden. Datenobjektbeziehungen können jederzeit neu generiert oder gelöscht werden. Die Darstellung der privaten Links beinhaltet die Anzeige des Verbindungstyps und der Annotation. 5.3 Recherchemasken Zur Vereinfachung von Abfrage-/Suchoperationen auf Datenobjekten ist für jeden Datenobjekttyp eine Recherchemaske implementiert, die Wertangaben zu allen definierten direkten und indirekten Attributen eines Datenobjekts erlaubt. Die Ergebnisse der Suchanfrage werden in einer Liste mit sensitiven Einträgen angezeigt: Zu jedem Eintrag wird durch Anwählen des „Linkknopfs“ die Einzeldarstellung des jeweiligen Datenobjekts gestartet. Um Änderungen und Erweiterungen der Darstellungs- und Abfrage/Suchmasken zu erleichtern, werden ihre Ausgestaltung und Eigenschaften in die Datenbank abgelegt. Zusätzlich ist in Mediana-Vis ein Web-Browser für Web-basierte Dokumentrecherchen integriert. Die Recherche auf Web-basierten Textdokumenten ist eine der grundlegendsten Tätigkeiten von medienwis-

senschaftlichen Untersuchungen. Dabei wird zur Textrecherche häufig eine Stichwortsuche verwendet, wie sie von vielen WWW-Suchmaschinen (z. B. Alta-Vista, Google) angeboten wird. Jedoch sind die Ergebnisse solcher Suchanfragen schwer zu bewerten, weil sie nicht kontextbezogen und schwer auf eine bestimmte Auswahl von öffentlichen und privaten Textdokumenten eingrenzbar sind. Aus diesem Grunde wurde die Volltext-Suchmaschine Web-Glimpse [WebG00] auf den WWW-Server des Medien-Archivs installiert und mit den im Textarchiv verfügbaren Textdokumenten indiziert. Eine wesentliche Eigenschaft dieser Suchmaschine ist die Eingrenzung der Suche auf eine Auswahl von Textdokumenten. Eine ganz andere Recherchemöglichkeit besteht durch die in der Datenbank abgelegten Beziehungen zwischen Datenbankobjekten. Durch das Anwählen der in den Darstellungsmasken vorhandenen „Linkknöpfe“ werden, ähnlich einem Hyperlink, die Einzeldarstellung des mit dem ursprünglichen Datenobjekt in Beziehung stehenden Datenobjekts geladen und dargestellt. Von dort kann weiteren Links nachgefolgt werden und so der gesamte gespeicherte, verknüpfte Datenbestand inkl. der mit Referenzobjekten verknüpften mono- und audiovisuellen Mediendaten navigatorisch erfasst und visualisiert werden (Bild 8). 5.4 Zusatzfunktionen Verschiedene Zusatzfunktionen wurden in den medienwissenschaftlichen Arbeitsplatz Mediana integriert: - Export von Datenobjekten: Beliebige vom Benutzer spezifizierte Mengen von Datenobjekten und deren Beziehungsinformationen werden zum Austausch oder Export aus der Datenbank ausgelesen und in Textform in einer HTML-Seite aufbereitet. Diese kann entweder innerhalb der Datenbank, als lokale Datei oder als Attachment an einer E-Mail an andere Benutzer weitergegeben werden. - "Bookmarks": Die Bedeutung grafischer Darstellungen von Verknüpfungsinformationen zwischen den Datenobjekten zur Analyse und Exploration von assoziativen Strukturen wird durch die Möglichkeit unterstrichen, diese in sog. „bookmarks“ zu speichern und zu einem späteren Zeitpunkt wieder sichtbar zu machen. - Benutzer-spezifische Arbeitsumgebung: Verschiedene persönliche Systemeinstellungen werden bei Beendigung der Arbeitssitzung benutzer-spezifisch gespeichert. Dazu gehören die möglichen Konfigurationsvarianten der Arbeitsumgebung, die Ausgestaltung und der Status der Benutzungsoberfläche (z. B. die Anzahl und der Inhalt der „Bookmarks“) sowie der Status der Arbeitssitzung (d. h. der grafische und datentechnische Inhalt der Arbeitsfläche). Bei einer erneuten Anmeldung wird mit Hilfe dieser Daten der letzte Zustand wiederhergestellt. Zusätzlich ist der medienwissenschaftliche Arbeitsplatz Mediana als offenes System konzipiert, um Erweiterungen zu ermöglichen. Ein Beispiel dafür sind die Analysemodule Schnitt-, Text- und Gesichtsdetektion, die als Erweiterung der Kernfunktionalität in Form von externen Funktionen nachträglich in den Arbeitsplatz integriert wurden. 6

Diskussion

Obwohl einzelne Komponenten des medienwissenschaftlichen Arbeitsplatzes Mediana sowohl in Autoren- als auch in Archivierungssystemen wiederzufinden sind, werden hier unter einer gemeinsamen Benutzungsoberfläche verschiedene Datenbanken und Arbeitsabläufe zusammengeführt. Dieser Ansatz vermeidet den unzureichenden Mechanismus, verschiedene Programme parallel zu verwenden und via „cut’n’paste“ Informationen zwischen den Programmen austauschen zu müssen. Dies gilt insbesondere für Anwendungen, in denen sowohl audiovisuelle Daten als auch Attributdaten und semantische Kontextdaten in direkter Beziehung zueinander stehen und gemeinsam als Untersuchungsgrundlage verwendet werden. Diese Datenintegration ermöglichte den Entwurf von assoziativen Navigationsmethoden. Das funktionale Konzept des Arbeitplatzes mit der Möglichkeit der Erweiterung ist so angelegt, dass viele implementierte Funktionen und Hilfsprogramme für ähnlich gelagerte Aufgaben in anderen Kontexten eingesetzt werden können. Dies gilt insbesondere für den Datenobjekttyp-Editor sowie für die Visualisierung der Datenobjekt-Verknüpfungen. Dieses Konzept erlaubt es auch, für eine neue Anwendung schnell und einfach spezifische Analysemethoden zu entwickeln und zu integrieren.

Die Verwaltung/Archivierung und inhaltsbasierte Analyse von Bildmaterial ist und wird in der Praxis von Print- und Fernsehmedien stärker in den Vordergrund treten, sodass die vorgestellten Ergebnisse des Arbeitsplatzes Mediana als Prototyp hierfür verstanden werden. 7

Zusammenfassung und Ausblick

Das zentrale Ergebnis dieser Arbeit ist der medienwissenschaftliche Arbeitsplatz Mediana, der in der jetzigen Ausbaustufe die Basisfunktionen eines auf die Belange medienwissenschaftlicher Forschungen zugeschnittenen Arbeitsplatzes bereitstellt und die wesentlichen Abläufe unter einer Benutzungsoberfläche integriert. Dazu gehören die Verwaltung medienwissenschaftlicher Datenbestände, die Archivierung von Video-, Bild- und Textdokumenten, die automatische strukturelle Analyse von audiovisuellen Medienobjekten sowie die Abfrage und interaktive Visualisierung (Exploration) der Datenbestände, Medienobjekte und deren gespeicherte Verknüpfungen. Zukünftige Arbeiten konzentrieren sich auf die Konzeption des Mehrbenutzerbetriebs des DatenbankServers bei Dateneditionen und den damit verbundenen Aspekten, wie Versionierung, langen Transaktionen und Datenabstimmung. Zusätzlich soll die Benutzungsoberfläche weiterhin an die Anforderungen der medienwissenschaftlichen Arbeitsweise angepasst und optimiert werden. Weitere Abfragetechniken, wie z. B. komplexe Anfragen, die mehrere Einzelanfragen verbinden, oder hierarchische Anfragen, die Attribute zu mehreren verlinkten Datenobjekten integrieren, sind mit einer neuen Datenbankversion in Planung. Ebenfalls sind weitere Analysetechniken, wie z. B. statistische Untersuchungen zu dem Auftreten bestimmter Attributwerte, vorgesehen. Literatur [ABD+96] Aberdeen, L.; Burger, J.; Day, D.; Hirschman, L.; Palmer, D.D.; Robinson, P.; Vilain, M.: MITRE: Description of the Alembic System as Used in MET. Proceedings of the TIPSTER 24-Month Workshop, May 5-8, 1996. [AHC93] Armann, F.; Hsu, A.; Chiu, M.-Y.: Image Processing on Compressed Data for Large Video Databases. In: Proc. 1st ACM Int. Conf. on Multimedia, Anaheim. ACM Press 1993, S. 267-272. [ATN98] Aberer, K.; Thimm, H.; Neuhold, E.-J.: Multimedia Database Management Systems. In: Furht, B. (Hrsg.): Handbook of Multimedia Computing. CRC Press 1998, S. 579-604. [BoWi98] Boreczky, J.S.; Wilcox, L.D.: A Hidden Markov Model Framework for Video Segmentation using Audio and Image Features. In: Proc. of IEEE Int. Conf. on Acoustic, Speech and Signal Processing 6, Seattle. IEEE Press 1998, S. 3741-3744. [BPSM00] Bray, T.; Paoli, J.; Sperberg-McQueen, C.M.; Maler, E. (Hrsg.): Extensible Markup Language (XML) 1.0. World Wide Web Consortium (W3C) 2000. [BrPo95] Brunelli, R.; Poggio, T.: Template Matching: Matched Spatial Filters and Beyond. Technical Report, MIT AI Lab. 1995. [Can86] Canny, J.F.: A computational approach to edge detection. In IEEE Transactions on Pattern Analysis and Machine Intelligence, (PAMI) 8 (1986) 6, S. 679--698. [CMS99] Card, S.K.; MacKinlay, J.D.; Schneiderman, B. (Hrsg.): Information Visualization: Using Vision to Think. Morgan Kaufman Publishers 1999. [DWR+01] Duncan, G.; Weisstein, T.; Romanowicz, J.; Coleman, B.; Jakobsson, E.: The Biology WorkBench: A Molecular Biology Discovery Tool for Studying Evolution. http://bioweb.ncsa.uiuc.edu/educwb/tutorials_current/BioQUEST/, Abruf am 2001-05-21. [EFZ99] Engel, M.; Faerber, N.; Zellentin, A.: Ein Client-/Server-System für digitale Videodaten. Studienarbeit, Fachbereich Elektrotechnik und Informatik, Universität Siegen 1999. [FGK99] Freisleben, B.; Grauer, M.; Kelter, U. (Hrsg.): Methoden und Werkzeuge zur rechnergestützten medienwissenschaftlichen Analyse. Arbeitshefte Bildschirmmedien 76, Universität-GH Siegen 1999. [GrMe97] Grauer, M.; Merten, U.: Multimedia – Entwurf, Entwicklung und Einsatz in betrieblichen Informationssystemen. Springer-Verlag, Berlin / Heidelberg 1997. [Grif98] Griffel, F.: Componentware. Konzepte und Techniken eines Softwareparadigmas. dpunkt-Verlag, Heidelberg, 1998.

[HET00] [Info01] [JaYu98] [KaMe97] [Kelt92]

[KDLF97]

[Knol00] [KrTh94] [Lude98] [Lude01] [MPEG01] [OlHa99] [PSH98] [PüSt00] [Seyl65] [SFB98] [Stei00] [SuWa96] [Tech98] [USC01] [Wald99] [WebG00] [WHS01] [WMR97] [WPB+98] [YeLi96]

Hollfelder, S.; Everts, A.; Thiel, U.: Designing for Semantic Access: A Video Browsing System. In: Multimedia Tools and Applications 11 (2000) 3, S. 281-293. Carnegie Mellon University: Informedia Digital Video Library. http://www.informedia.cs.cmu.edu/, Abruf am 2001-05-21. Jain, A.K.; Yu, B.: Automatic Text Location in Images and Video Frames. In: Pattern Recognition, 31 (1998) 12, S. 2055-2076. Kampffmeyer, U.; Merkel, B.: Grundlagen des Dokumentenmanagements: Einsatzgebiete, Technologien, Trends. Gabler, Wiesbaden 1997. Kelter, U.: HPCTE – A High Performance Object Management System for System Development Environments. In: Proc. of 16th Annual Int. Computer Software and Application Conf.. IEEE Press 1992, S. 45-50. Kobla, F.; Dormann, D.; Lin, K.-P.; Faloutsos, C.: Compressed Domain Video Indexing Techniques Using DCT and Motion Vector Information in MPEG Videos. In: Proc. of the Conf. on Storage and Retrieval for Image and Video Databases 5. SPIE Proc. 3022, SPIE Press 1997, S. 200-211. Knoll, M.: Algorithmen zur Extraktion von Text aus digitalen Bildern. Diplomarbeit, Fachbereich Elektrotechnik und Informatik, Universität Siegen 2000. Kreuzer, H.; Thomsen, C. (Hrsg.): Geschichte des Fernsehens in der Bundesrepublik Deutschland, 5 Bände. Fink-Verlag München 1994. Ludes, P.: Schlüsselbilder von Staatsoberhäuptern. Pressefotos, Spielfilme, Fernsehnachrichten, CDROMs und World Wide Web. Arbeitshefte Bildschirmmedien 72, Universität Siegen 1998. Ludes, P.: Multimedia und Multi-Moderne: Schlüsselbilder. Westdeutscher Verlag, Wiesbaden 2001. MPEG. http://www.mpeg.org/MPEG/index.html, Abruf am 2001-05-21. Olligschlaeger, A., Hauptmann, A.: Multimodal Information Systems and GIS: The Informedia Digital Video Library. 1999 ESRI User Conference, July 27-30, 1999. Pörner, B.; Steinmetz, A.; Hemmje, M.: PuMa - Ein webbasiertes Publikations-Management-System. GMD Report 10, GMD - Forschungszentrum Informationstechnik GmbH, Sankt Augustin 1998. Pütz; S.; Stankovic, S.: Veröffentlichungen aus dem Sonderforschungsbereich 'Bildschirmmedien' V. Arbeitshefte Bildschirmmedien 80, Universität Siegen 2000. Seyler, A.J.: Probability Distribution of Television Frame Difference. In: Proc. Institution of Radio and Electronic Engineers Australia 26 (1965) 11, S. 355-366. DFG Sonderforschungsbereich 240 (Hrsg.): Ästhetik, Pragmatik und Geschichte der Bildschirmmedien. Projektübersicht. Arbeitshefte Bildschirmmedien 74, Universität Siegen 1998. Steinmetz, R.: Multimedia-Technologie: Grundlagen, Komponenten und Systeme. Springer-Verlag 2000. Suen, H-M.; Wang, J.-F.: Text String Extraction from Images of Colour-Printed Documents. In: IEEE Proc. on Vison, Image and Signal Processing 143(4). IEEE Press 1996, S. 210-216. Techentin-Bauer, I.: Präsidenten der USA und deutschen Bundeskanzler auf Pressefotos von 1949 bis 1995. In: [Lud98], S. 13-39. University of Southern California: Neuroinformatics Workbench. http://wwwhbp.usc.edu/workbench.html, Abruf am 2001-05-21. Waldhans, J.: Ein System zur Verwaltung und semiautomatischen Analyse von Nachrichtensendungen für medienwissenschaftliche Zwecke. Diplomarbeit, Siegen/Bonn 1999. WebGlimpse: http://www.webglimpse.net, Abruf am 2000-10-10. Wallnau, K.; Hissam, S.; Seacord, R.: Building Systems from Commercial Components. Addison Wesley Publishing Company, 2001. Wu, V.; Manmatha, R.; Riseman, E.M.: Finding Text in Images. In: Allen, R.B.; Rasmussen, E. (Hrsg.): Proc. Of the 2nd ACM Int. Conf. on Digital Libraries. ACM Press, New York 1997, S. 3-12. Wechsler, H.; Phillips, P.J.; Bruce, V.; et al. (Hrsg.): Face Recognition – From Theory to Application. Springer, Berlin 1998. Yeo, B.-L.; Liu, B.: A Unified Approach to Temporal Segmentation of Motion JPEG and MPEG Compressed Video. In: Proc. of 2nd Int. Conf. on Multimedia Computing and Systems, Los Alamitos. IEEE Press 1996.

View more...

Comments

Copyright � 2017 SILO Inc.