Bibliotheksdienst Heft 12,2000

BIBLIOTHEKSDIENST Heft 12, 2000

Die quantitative Grenze der Informationsflut

Henning Klauß

Seit etlichen Jahren geistert mit dem Begriff "Informationsgesellschaft" zugleich der von der "Informationsflut" durch die Medien. Lügger (2000, 134) schreibt von der Befürchtung mancher Person, "dass er in der aufkommenden Informationsflut untergeht". Teilweise findet sich der Begriff / Sachverhalt auch implizit in den Medien, wenn z. B. Simon (2000, 41) nicht im Sinne einer insofern ausgerichteten analytischen Bemühung, sondern mit einer scheinbaren Selbstverständlichkeit von der "unermesslichen Zunahme des Wissens" schreibt: Die "Informationsflut" ist zum Bestandteil des derzeitigen allgemeinen Alltagsbewusstseins geworden. Die Debatten um die Informationsflut bemühen sich, abgesehen von der Erörterung der psychischen und sozialen Implikationen (Nuber 1999) sowie der Benennung und Analyse der anstachelnden Momente im wesentlichen auf die Möglichkeiten, dieser Informationsflut durch geschicktes Indizieren, Navigieren und Selektieren Herr zu werden (z. B. Schräder-Naef 1993; Gesellschaft für Klassifikation 1997; Spallek 2000; Hooffacker 2000...).

Reflexionen bzgl. limitierender Bedingungen (insbes. Kosten) sind selten und darüber hinaus auch notwendigerweise vage. Die Vagheit verdankt sich zum einen der Schwierigkeit, Prozesse des Politischen, Finanziellen etc. präzise zu prognostizieren, zum anderen aber auch dem Umstand, dass sich mit dem Begriff der "Informationsflut" oftmals die Vorstellung der Grenzenlosigkeit, einer niemals endenden Explosion verbindet. So sprach bereits 1997 Stanislaw Lem von der "Informationssintflut". Während die Vorstellung einer Flut von Wasser stets an das Korrektiv Ebbe und an die Gewissheit eines zyklischen Gesamtzusammenhanges gebunden ist - schlimmstenfalls wird die "Arche Noah" bemüht, wird die Vorstellung einer Flut von Information oftmals als per se grenzenlos dargestellt.1

Im Folgenden möchte ich anhand von zwei Ansätzen zeigen, dass die Informationsflut hinsichtlich der Schriftform nicht nur im Prinzip begrenzbar ist, sondern per se durch die Zahl der potentiell zu schreibenden Dokumente quantitativ limitiert ist. Ich werde keine historisch gehaltvolle Betrachtung liefern, der zufolge bereits x Dokumente verfasst, mithin also y% des denkbaren Limits erreicht sind. Ich werde nicht bestimmen, wo diese Grenze genau liegt, aber nachweisen, dass eine solche Grenze existiert, dass die Informationsflut quantitativen Bestimmungen zugänglich ist.

Erster Ansatz (reduktiv):
Bestimmung der potentiellen Obergrenze von Informationsvielfalt abzüglich sprachwissenschaftlich verbürgter Unmöglichkeiten

Die Darstellung der Sprache in Schriftform bedarf eines Zeichenvorrates in Gestalt von Buchstaben, Ziffern, Satzzeichen inkl. Leerzeichen und gewissen Sonderzeichen (Absatzzeichen, Diakritika ...). Dieser Zeichenvorrat ist durch die ASCII-Tabellen definiert, deren 7-Bit-Variante 128 (Standard-ASCII-Satz), die 8-Bit-Variante 256 Zeichen (erweiterter ASCII-Satz) beinhalten. Mit 256, also 2⁸ verschiedenen Zeichen ist das Gros der im deutschen und angelsächsischen Sprachkreis verwendeten Zeichen (in der EDV: mittels der Codeseite) hinreichend genau darstellbar. Nimmt man nun das z. B. von der VG-Wort definierte Maß von 1.500 Zeichen pro Seite, so erhält man m = 2^{8 x 1500} = 2¹²⁰⁰⁰ formal verschiedene Möglichkeiten, eine einzige Seite zu gestalten. Bei einem Dokument mit p Seiten wären es m = 2^12000pformal verschiedene Möglichkeiten.2

Diese Aussage gilt für die Gesamtheit von Spickzetteln, Briefen, Aufsätzen, Büchern - wobei Fragen der graphischen Gestaltung (hand- oder maschinenschriftlich, fett oder kursiv etc.) wenn auch lebensweltlich, aber nicht hinsichtlich ihres Informationsgehaltes Differenzen ergeben.3 Ebenso gilt diese Aussage für die Gesamtheit von belletristischer, wissenschaftlicher, journalistischer ... Art und zwar für alle Sprachen, die sich mit dem erweiterten ASCII-Code angemessen darstellen lassen. Selbst Computerprogramme und selbstverständlich auch WWW-Seiten sind in dieser Bestimmung enthalten.4Nicht einbezogen ist hierbei die Literatur, in der mathematische Formeln vorkommen, da hierbei weitere Sonderzeichen, die bedeutungsrelevante Positionierung der Zeichen sowie geometrische Darstellungen maßgeblich sind.5 Auch sonstige grafische oder malerische Darstellungen spielen an dieser Stelle keine Rolle. Dererlei Literatur, ggf. auch nur Teile davon, ist von dieser Betrachtung ausgeblendet. - Das heißt nicht, dass sie solchen Betrachtungen grundsätzlich entzogen ist, aber das Herangehen ist in einem solchen Fall notwendigerweise anders, nämlich aufwändiger.6

Die obige Bestimmung, dass bei einem Dokument mit p Seiten m = 2^12000pverschiedene Möglichkeiten der inhaltlichen Gestaltung existieren, gibt selbstverständlich nur die formale Obergrenze an und würde infolgedessen auch massenhaft quasi-dadaistische Literatur beinhalten: Es kämen "Wörter" wie "xcszyhi" und "Sätze" wie "jhgk trdr rd%rdr xx?xxxx qwswq!" vor. Diese Grenze kann durch eine Reihe sprachwissenschaftlicher Überlegungen erheblich gekürzt werden, wobei diese sprachwissenschaftlichen Überlegungen zunächst allgemeiner Art sein müssen und im nächsten Schritt die in einem bestimmten Sprachkreis gültigen Regeln hinsichtlich ihrer, die potenzielle Vielfalt reduzierende Funktion untersuchen müssen: Leerzeichen und Kommata dürfen nicht zweimal hintereinander auftreten; bestimmte Buchstaben dürfen im deutschen Sprachkreis nicht dreimal hintereinander folgen; eine unmittelbare Folge von vier identischen Buchstaben ist in keinem Fall zulässig;7 nach Komma und Semikolon darf kein Ausrufe- und kein Fragezeichen folgen etc. - es sei denn, es handelt sich um Tippfehler, aber damit wird die Menge der Informationsangebote nicht erhöht. - Zudem ist die sprachkreisspezifische Häufigkeit einzelner Zeichen zu berücksichtigen: Im deutschen Sprachkreis z. B. treten die Buchstaben e, n, i, r, s, t, d, a besonders häufig, z, x, y sowie viele Sonderzeichen dagegen besonders selten auf (Lewandowski 1990, 445). Lt. Berger (1962, 62) ist auch die statistische Häufigkeit von bestimmten Buchstabenfolgen zu berücksichtigen; so folgt im deutschen Sprachkreis auf "q" fast immer ein "u", auf "sc" in der Regel ein "h" usw. (Markov-Kette)

Eine weitaus gravierendere Reduktionsmöglichkeit ergibt sich aus der folgenden Überlegung: Die Alphabete der verschiedenen Sprachkreise haben teilweise unterschiedlich viele Buchstaben; das im deutschen und dem angelsächsischen Sprachkreis übliche hat 26 Buchstaben. Nimmt man Groß- und Kleinschreibung, Ziffern sowie eine Reihe von Sonderzeichen, so wird man feststellen, dass 128, also 2⁷ verschiedenen Zeichen (Standard-ASCII-Satz) für die meisten Darstellungen hinreichend sind - schließlich ist der Standard-ASCII-Satz lange Zeit als hinreichende Differenzierungsmöglichkeit lange Zeit weit verbreitet gewesen. Ein so definierter Zeichensatz würde für das Gros der bei uns vorzufindenden Schriftsprache vorab eine erhebliche Reduzierung der Möglichkeiten ergeben!8

Ich kann und will an dieser Stelle diese Reduktionsmöglichkeiten nicht genau quantitativ bestimmen; aber selbst dann, wenn diese Reduktionsmöglichkeiten minimal wären (sie sind es nicht!) erhielte man als Ergebnis: Die Zahl der potentiell zu schreibenden Dokumente ist limitiert.9

Zweiter Ansatz (expansiv, gestuft kombinatorisch):
Bestimmung der potenziellen Obergrenze von Informationsvielfalt auf der Basis von Buchstaben, des regelgeleiteten Aufbaus von Wörtern aus Buchstaben und des regelgeleiteten Aufbaus von Sätzen aus Wörtern ...

Die Basis der bei uns üblichen Schriftsprache sind, wie gesagt, Zeichen wie Buchstaben, Ziffern, Satzzeichen und gewisse Sonderzeichen. In der ersten Stufe gibt es zunächst allgemeingültige und dann sprachkreisspezifische Regeln, nach denen der Aufbau von Wörtern aus Buchstaben gestaltet wird; an dieser Stelle muss sprachwissenschaftlich definiert werden, welche Kombinationen von Buchstaben zu Wörtern als zulässig betrachtet werden. In der zweiten Stufe gibt es wiederum zunächst allgemeingültige und dann sprachkreisspezifische Regeln, nach denen Wörter zu Sätzen zusammengefügt werden. An dieser Stelle muss sprachwissenschaftlich definiert werden, welche Kombinationen von Wörtern zu Sätzen als zulässig betrachtet werden. Für die dritte Stufe wäre zu untersuchen, welche Kombinationen von Sätzen zu Absätzen, für die vierte usw. Stufe, welche Kombination von Absätzen zu Kapiteln, Aufsätzen, ganzen Büchern als zulässig betrachtet werden. - Da es m. E. ab der dritten Stufe nur noch sehr wenig Möglichkeiten einer formalen Bestimmung gibt (z. B.: "Die Informationsvielfalt wächst nicht durch mehrfache Wiederholung von Sätzen, gar ganzen Absätzen."), sollte ein solches Vorgehen sich auf die Abarbeitung der ersten beiden Stufen beschränken.

Auch ein solches gestuftes, kombinatorisches Verfahren lässt sich expansiv die potenzielle Obergrenze von Informationsvielfalt bestimmen.

Ein Verfahren zur Integration der zweiten, dritten usw. Stufe könnte sich der folgenden Rechnung bedienen: Man nehme die in einer Sprache vorhandenen Wörter,10 dann die durchschnittliche Anzahl von Wörtern dieser Sprache pro gedruckter Seite und berechne auf dieser Basis (unter Berücksichtigung der Streuung der Wortlängen und der durch die Grammatik definierten Regeln zum Aufbau von Sätzen aus Wörtern) die potenzielle Vielfalt der Dokumente. Da mit einem solchen Verfahren eine Reduktion auf die nach dem jetzigen Standpunkt sinnvolle Anordnung von Zeichen zu Wörtern vorgenommen wird, würde die damit erhaltene Zahl ungleich kleiner als die nach dem ersten Ansatz bestimmbare sein.

Problematisch an diesem Ansatz ist allerdings der Bezug auf den jetzigen Standpunkt; zudem könnte ein solcher Ansatz zunächst auch nur unter Bezug auf eine bestimmte Sprache durchgeführt werden. Da aber sowohl die Anzahl der in Frage kommenden Sprachen wie auch die Umfänge von deren Wörterbüchern begrenzt ist, ist auch das Ergebnis, die Zahl der potenziell zu schreibenden Dokumente, limitiert.11

Fazit

So unterschiedlich die Ergebnisse des reduktiven und des expansiven Ansatzes auch wären, wenn man sie zu Ende durchführen würde: Diese Ansätze beweisen bereits in diesem Stadium ihrer Durchführung, dass die Informationsflut quantitativ beschränkt ist.

Qualitativ ist sie es ohnehin. Das zu erörtern, wäre ein weites Feld ... Die Bestimmung der quantitativen Grenzen wird hier nicht genau vorgenommen; es wird an dieser Stelle lediglich gezeigt, dass es Näherungsverfahren gibt und wie ein Teil davon aussehen können.

Welchen Ansatz auch immer man verwendet: Es lässt sich nicht plausibel machen, dass das Ende neuer Informationen in eine zwar weit entfernte, aber doch immerhin schon sichtbare Nähe gerückt sei. Es soll nicht versucht werden, den Begriff der "Informationsgesellschaft" als gegenstandslos zu entlarven, sondern diesen in seinem zwar sehr üppigen, aber dennoch letztlich begrenzten Gehalt deutlich zu machen. Die Bibliotheken haben auf jeden Fall auf absehbare Zeit das Problem der Finanzierung und Einarbeitung inkl. Erschließung von enormen Medienmassen inkl. elektronischer Ressourcen sowie die Zurverfügungstellung von Regalkapazitäten. Die Notwendigkeit, den Benutzern sinnvolle Instrumente zur adäquaten Informationsselektion zur Verfügung zu stellen, bleibt nicht nur erhalten, sondern wird sich noch für etliche Jahre weiter enorm verschärfen.

Kurz: Derlei Überlegungen sollen nicht die Funktion haben, Phantasien und Praktiken anzuregen, die bibliothekarischen Hände in den Schoß zu legen, denn dafür ist die Limitiertheit der Informationsflut auf einem viel zu hohen Niveau! Die Funktion dieser Überlegungen soll es sein, zu zeigen, dass es an dieser Stelle eine Grenze gibt, dass die Informationsflut Grenzen hat, die nicht "irgendwo" liegen, sondern quantitativ bestimmbar sind.

Literatur

Berger, Erich R. (1962): Nachrichtentheorie und Codierung - In: Taschenbuch der Nachrichtenverarbeitung - Hrsg. von Karl Steinbuch - Berlin

Dornseiff, Franz (1965): Der deutsche Wortschatz nach Sachgruppen - 6., unveränd. Aufl. - Berlin

Flechtner, Hans-Joachim (1972): Grundbegriffe der Kybernetik : eine Einführung - Stuttgart

Gesellschaft für Klassifikation (1997): Datenautobahnen und Informationsflut als Herausforderungen an Klassifikation und Datenanalyse : Zusammenfassungen ; 21. Jahrestagung, 12. - 14. März 1997 - Potsdam

Hooffacker, Gabriele (2000): Informationen gewinnen im Internet : zielgenau suchen und auswerten - (rororo ; 60070 : rororo Computer) (SmartBooks) - Orig.-Ausg. - Reinbek bei Hamburg : Rowohlt-Taschenbuch-Verl.

Lem, Stanislaw (1997): Informationsbarriere. URL: http://www.ct.heise.de/tp/deutsch/Kolumnen/Lem/2089/1.html (am 15.11.2000)

Lewandowski, Theodor (1990): Linguistisches Wörterbuch - 5., überarb. Aufl. - Heidelberg

Lügger, Joachim (2000): Über Suchmaschinen, Verbünde und die Integration von Informationsangeboten. - In: ABI-Technik, 2000, 20 (2), S. 132-156

Menzerath, Paul (1954): Die Architektonik des deutschen Wortschatzes : mit 24 Tabellen - Bonn

Nuber, Ursula (1999): Stresskrankheit Depression. - In: Psychologie heute, 1999, 26 (3), S. 20-25

Schaeder, Burkhard (2000): Wortschatz. - In: Metzler Lexikon Sprache - Hrsg. von Helmut Glück - 2. Aufl. - Stuttgart

Schräder-Naef, Regula D. (1993): Informationsflut : gezielt suchen, kritisch bewerten, rationell speichern - 3., überarb. und erg. Aufl. - Weinheim [u.a.]

Simon, Dieter (2000): Demokratisiert die Wissenschaft! - In: DIE ZEIT Nr. 38, 14.9.00

Spallek, André Michael (2000): Suchmaschinen : gezielt recherchieren im Internet / von André M. Spallek und Marcos Kreinacke - (dtv ; 50229 : Beck-EDV-Berater) - Orig.-Ausg. - München : Dt. Taschenbuch-Verl.

1 Es hat sehr viel Zeit gekostet und enormer Kämpfe bedurft, um hinsichtlich der Naturressourcen die Vorstellung der Grenzenlosigkeit durch die der Limitiertheit zu ersetzen. M. E. gibt es eine Lust an Unbegrenztheit, deren favorisierter Gegenstand heute gezwungenermaßen nicht mehr das Reich der Natur, sondern das der Information ist.

2 Zur Erläuterung: Selbst für p=1 handelt es sich um eine 3.612-stellige Zahl! Es ist also energisch nach Reduktionsmöglichkeiten (s. u.) Ausschau zu halten.

3 Flechtner (1972, 57) schreibt dazu, dass "... z. B. das Antiqua-e, das Fraktur-e und das e irgendeiner Handschrift nicht verschiedene Zeichen, sondern alle Vertreter der Klasse 'e-Zeichen' sind". Nach heutigem Usus würde sich eine solche Position möglicherweise dem Vorwurf des Reduktionismus aussetzen. Die Berücksichtigung der Protokollform, der graphischen Gestaltung von Dokumenten widerlegt aber nicht grundsätzlich den hier vertretenen Ansatz, sondern macht - falls das gewünscht wird - eine etwas aufwändigere Berechnung notwendig.

4 Vgl. Flechtner's (1972, 84) gedankenspielerische Überlegung zur "Universalbibliothek", in der alle "wissenschaftlichen, literarischen usw. Werke, die in Zukunft geschrieben werden", enthalten sind. - Es wird dort allerdings eine andere Rechenbasis unterstellt; zudem geht Flechtner (ebd.), anders als ich, davon aus, dass in einer solchen Bibliothek "alles" steht.

5 In kleinem Umfang ist das auch für diesen Aufsatz von Belang, da auch hier mathematische Formeln eine gewisse Rolle spielen.

6 Denkbar wäre z. B. eine statistische Analyse der Verteilungsmöglichkeiten von Pixeln verschiedener Farbe mit verschiedenen Hintergrundfarben.

7 Für die oben erwähnten Computerprogramme trifft diese und die folgende Beschränkung selbstverständlich nicht zu.

8 Während m = 2^{8 x 1500} eine 3.612-stellige Zahl ist, ist m' = 2^{7 x 1500} = 2¹⁰⁵⁰⁰ eine 3.160-stellige Zahl, also eine Zahl, die 452 Stellen weniger hat!

9 Das gilt im strengen Sinne nur, sofern p nicht unendlich groß ist - und ich unterstelle in der Tat, dass jedes Dokument quantitativ, in punkto Seitenzahlen limitiert ist.

10 Die Angaben dazu schwanken erheblich: Dornseiff (1965, 7) spricht allgemein von "30.000 bis 100.000 Wörtern, die in einer Kultursprache gesprochen und geschrieben werden." Für den deutschen Sprachkreis spricht Menzerath (1954) von 300.000 - 500.000 Wörtern. Schaeder (2000, 800) beziffert den in der deutschen Standardsprache allgemein gebräuchlichen Wortschatz auf 75.000 Wörter. - Dass diese Zahlen so weit voneinander abweichen, liegt u. a. an der Abhängigkeit vom Zählmodus und den unterschiedlichen Wörterbüchern, denn diese beziehen sich teils auf Alltags-, teils auf Dichter-, teils auf Wissenschaftssprache, teils auf die Summe von allem.

11 Gewiss haben auch Grammatiken eine geschichtliche Entwicklung durchlaufen, aber die geschichtliche Variabilität von Grammatiken ist ungleich niedriger als die von Wörterbüchern.

Stand: 15.12.2000