DBI-Angebot

Strukturanalyse und Retrodigitalisierung von wissenschaftlichen Dokumenten

English Version

Antragsteller und ProjektpartnerInstitut für Experimentelle Mathematik der Universität/GH Essen
(Professor Dr. Gerhard Michler)
gemeinsam mit
Department of Information Engineering, Faculty of Engineering, Shinshu University, Nagano, Japan (M. Okamoto)
und
Graduate School of Mathematics, Kyushu University, Fukuoka, Japan (M.. Suzuki)
ProjektbezeichnungStrukturanalyse und Retrodigitalisierung von wissenschaftlichen Dokumenten
FörderinstitutionDeutsche Forschungsgemeinschaft
FörderprogrammBibliotheksfoerderprogramm "Internationale Kooperationen" im Förderbereich Verteilte Digitale Forschungsbibliothek Merkblatt (Vordruck 1.53)
Laufzeit2000 - 2002
Kurzcharakterisierung, ggf. Bezug zu Vorgängerprojekten In der Zeit vom 1.4.1997 bis zum 30.9.2000 hat die DFG für das Forschungsprojekt des Antragstellers "Retro-Digitalisierung der Zeitschrift 'Archiv der Mathematik'" eine finanzielle Unterstützung bereitgestellt. Um die in diesem Projekt von der Essener Arbeitsgruppe entwickelten Methoden auch auf die Retrodigitalisierung von unterschiedlichsten wissenschaftlichen Zeitschriften anwenden zu können, erscheint ein tieferes Verständnis der OCR-Technologie notwendig.
Die beiden japanischen Forschergruppen von Professor Okamoto (Nagano) und Professor Suzuki (Fukuoka) haben eine lange Erfahrung in der Entwicklung spezieller OCR-Programme zur Strukturanalyse und Erkennung von wissenschaftlichen Dokumenten. Beide OCR-Systeme sind aber nicht für den speziellen Zweck der Retrodigitalisierung großer Mengen von mathematischen oder anderen wissenschaftlichen Forschungszeitschriften konzipiert.
Die Essener Arbeitsgruppe hat erfolgreich Okamotos speziellen mathematischen Formelerkenner EXP für die Retrodigitalisierung von 6 Jahrgängen der mathematischen Zeitschrift "Archiv der Mathematik" genutzt. Aber es sind noch substantielle Erweiterungen der entwickelten Retrodigitalisierungssoftware notwendig.
Die geplanten neuen Programme zur Trennung der mathematischen Formeln von dem übrigen Text einer gescannten Seite werden die Erfolgsrate des genau erkannten Textes deutlich erhöhen. Die Forschungszusammenarbeit wird sich den folgenden Teilprojekten widmen:
- Verbesserung der Spezial-OCR-Software für die Erkennung von mathematischen Formeln und anderen wissenschaftlichen Symbolen oder Diagrammen,
- Verbesserung der Programme für die Trennung der mathematischen Formeln vom üblichen Text einer gescannten Seite,
- Segmentierungsprogramme für die Auflösung von sich berührenden Zeichen im gewöhnlichen Text oder in mathematischen Formeln.
AnsprechpartnerProfessor Dr. Gerhard Michler
Institut für Experimentelle Mathematik
der Universität / GH Essen
Ellernstraße 29
45326 Essen
URL--

Stand: Oktober 2000

Seitenanfang