Gutenberg oder tausend und eine Nacht 

Gunter Hille  
 
 
 
  

RealVideo: Modem | ISDN 
Ich möchte einen kurzen Überblick geben, wie es zu dem Projekt gekommen ist, und dann ein paar Fakten zu dem Projekt und zum Schluß möchte ich über Probleme von Copyright reden: Was ist erlaubt? Was darf man heute offen ins Internet stellen? Wo sollte man vorsichtig sein? Und was darf man gar nicht anfassen? Über diese Sachen möchte ich reden. Noch eine Vorbemerkung. Sollte jetzt hier auf der Präsentation irgendwo noch der Schriftzug "Die digitale Bibliothek" stehen, so möchte ich Sie bitten, das zu ignorieren. Das ist kein Kennzeichen einer Firma. Das ist kein Reihenkennzeichen eines Buches. Ignorieren Sie es einfach. Ich werde es zukünftig wohl nicht mehr verwenden dürfen. Projekt Gutenberg hat eine Abmahnung bekommen. Das heißt "Projekt Gutenberg". Das ist keine digitale Bibliothek, weil eine digitale Bibliothek liefert kostenlos die Texte. Projekt Gutenberg liefert die auch kostenlos, das muß ich schon dazu sagen.  

Zur Geschichte: Es ist ziemlich genau zehn Jahre her. Ich hatte mich drei Jahre von der Universität beurlauben lassen und hatte das große Glück, mit einem eigenen Segelboot drei Jahre in der Südsee zu schippern. Mir ist der Lesestoff ausgegangen. Ich konnte gar nicht so viele Bücher mitschleppen. Drei Jahre sind in etwa tausend und eine Nacht, daher auch mein Obertitel: "Gutenberg oder tausend und eine Nacht". Ich habe mich dann irgendwann hingesetzt und mir ein Konzept zusammengeschrieben. Ich habe gesagt, digitale Information muß auch für den Einhandsegler irgendwo auf der Welt zugänglich sein. [Applaus]  

Das war eine Zeit, da gab es schon das Internet. Ich hatte schon seit 1985 eine eMail. Ich habe gesagt, ich brauche ein Lesegerät. Ich hatte nicht so ein großes Schiff. Ich konnte gar nicht soviel Bücher mitbringen für tausend und eine Nacht. Das wären tausend Bücher gewesen. Da brauchen Sie schon ein ganz großes Schiff. Dann hätten Sie kein Geld mehr gehabt zum Segeln. Ich bin dann zurück zur Uni gegangen und habe im Internet gesucht, was gibt es denn da? Es gab als Protokolle FTP und Mail, ja sicher, aber FTP als Protokoll für Texte. Und was gab es für Texte? Computer related stuff in English language. Eigentlich alles nur, was mit Computern zu tun hatte, und alles nur in Englisch. Da habe ich gesagt, da muß man mal gegen halten. Bloß, mit was? Und so kam ich auf die Idee und fand natürlich auch in der Zeit das Project Gutenberg in den USA. Ich habe mir das angesehen und überlegt, nehme ich daran teil? Ich hatte mir noch mal die Richtlinien von Michael Hart für das Formatieren der Texte angesehen. Und das war plain-vanilla-ASCII: keine Markierung, Kursivschrift gab es nicht, Betonungen gab es nicht. Und dann habe ich lange überlegt, was soll man machen? Das eine geht ganz schnell. Das Gopher-System war damals, 1991/92, auch gerade aktuell. Gopher oder HTML war da die Frage. Ich habe mich zum Glück für HTML entschieden. Heute bereue ich es natürlich aus anderen Gründen, weil es bessere Dinge gibt, die damals auch schon verfügbar waren, aber nicht bezahlbar.  

Und so begann das Projekt an der Uni in meiner Freizeit mit einer kleinen Märchensammlung, und es wurde trotzdem schon bekannt. Als es, ich glaube es war so Ende 1995, mit meiner universitären Laufbahn zu Ende ging, mußte ich mich entscheiden, was ich mit den 1000 Arbeitsstunden, die ich reingesteckt hatte, machen soll. An der Uni lassen und keiner macht es weiter oder mitnehmen? Ich hatte mich dann entschlossen, das Projekt in die neue Internet-Firma, die ich damals dann gegründet hatte, mitzuziehen und dort liegen zu lassen und weiter zu pflegen.  

Ich sage jetzt erst einmal etwas über unsere Leser. Das ist ja auch immer interessant, wer liest so was eigentlich im Internet? Die jüngste Leserin hat sich per eMail bei uns gemeldet. Sie ist zwölf Jahre alt und hat auch schon einen eigenen Text in der Abteilung "Mein Text" abgelegt. Den ältesten Leser kenne ich auch per eMail. Der ist Jahrgang 1919. Der druckt die Texte in 36-Punkt-Schrift aus für seine Mutter. Die ist 103 Jahre alt und braucht eine ganz starke 12-Dioptrien-Brille. Ich weiß nicht wieviel Dioptrien das sind, aber das ist die älteste Leserin. Und der fleißigste Leser in dem Projekt hat alles gelesen -- das sind ungefähr 100 Tage 8 Stunden Lesen --, der ist blind. Das war ein großes Glück. Als ich den kennenlernte -- der hat sich telefonisch bei uns gemeldet --, habe ich das ganze HTML-Archiv, mit Programmen glücklicherweise, aber auch noch mit viel Handarbeit, in eine ASCII-Version überführt für die blinden Leser, die heute damit auch die ASCII-Texte lesen können. Machen Sie mal in einem Windows-Betriebssystem die Augen zu und nehmen Sie die Maus in die Hand und versuchen Sie mal im Browser zu lesen, dann werden Sie sehen, das geht einfach nicht mehr. Das ist also sozusagen unsere Klientel. Es gibt viele, viele andere Beispiele: Auslandsdeutsche, die in, sagen wir, Papua-Neuguinea sitzen und keine Bücher oder nur sehr teuer bekommen. Es sind Literaturstudenten auch in anderen Sprachen. Ich habe Post gekriegt aus Taiwan, wo gefragt wird: 'Ist das im Almanach 1826, '27 oder '28 gewesen?' Und ich muß immer sagen: 'Sorry, ich bin Informatiker und kein Literaturwissenschaftler.'  

Zur Textsubstanz: Es ist in allen Texten markiert, woher die Quelle stammt, in nahezu 95 bis 98% der Texte in den Metainformationen, also nicht unbedingt das, was der Leser lesen will, daß das nun eine ISBN 3-489 hat, aber es steht drin, von wo er stammt, das heißt, aus welchem Buch es gemacht wurde, getippt oder gescannt, wer der Einsender ist -- das habe ich auch gemacht zur Verfolgung des Projektes -- und was für eine Art von Text es ist. Es muß nun nicht immer der Frakturtext von 1826 sein, sondern es kann sehr wohl ein Buch von 1956 gewesen sein, was im Antiquariat erworben ist. Es sind deutsche Klassiker und damit ist die Textsubstanz hoffentlich die, die auch 1826 geschrieben worden ist. Deswegen steht die Quelle drin. Wer wirklich das Original braucht und sicher sein will, daß kein 'th' bei 'Thür' verloren gegangen ist, der sollte sich nochmal das alte Original ansehen. Soviel zur Zitierfähigkeit des Projektes Gutenberg, was die Literaturwissenschaftler sicherlich interessiert.  

Zum Bestand des Projektes ganz kurz nur: Angefangen haben wir mit, sagen wir mal, 50 Märchen mit dem Handscanner gescannt und zwanzig Gedichten mit der Hand eingetippt. Es ist so gewesen, daß 1996 schon die erste CD-Rom rauskam mit einem Datenbestand von insgesamt 100 Megabyte. Vermutlich war es ASCII und HTML zusammengezählt, ich habe die Zahlen nicht mehr im Kopf. 1998 folgte die zweite CD-Rom mit 180 Megabyte an Datenbestand und die '99er CD-Rom mit knapp 600 Megabyte Datenbestand, wieder ASCII- und HTML-Version parallel. Da reichte der Platz nicht einmal mehr für die Volltextsuche, die wir in der '98er Version angeboten hatten. Es sind im Moment etwa 35.000 Einzeldokumente, davon ungefähr 1.000 vollständige Romane, Novellen und Erzählungen. Das läßt sich schlecht auseinander halten, weil, in vielen Büchern sind zwölf Novellen drin, und wir teilen sie als eine Novelle ein, und das ist bei uns ein Dokument. Viertausend Märchen, Fabeln und Sagen und insgesamt ein Bestand von etwa 300 deutschen Klassikern. Warum sind keine Ausländer dabei? Hier ist das Problem, bei den Übersetzungen sind die Lebensdaten des Übersetzers ganz, ganz selten zu erhalten. Wenn ein Buch 1930 übersetzt worden ist, dann wissen wir, daß der Übersetzer noch gelebt hat, aber wenn es 1910 übersetzt worden ist, kann der Übersetzer auch erst 1940 gestorben sein und hätte noch Copyright darauf.  

Es ist auch eine häufige Kritik am Projekt Gutenberg: 'Warum nehmt ihr nicht den ganzen Text in eine Datei, so daß ich den dann schön zu Hause lesen kann?' Die Idee, die dahintersteckte, war eigentlich, das Lesen am Monitor oder an irgendeinem Bildschirm auch ein bißchen zu favorisieren. Meine private Meinung war, ich als Informatiker saß schon sechs Stunden vor dem Bildschirm (na gut, ich trage eine Brille, gebe ich zu, ob es daher kommt, weiß ich nicht), aber ich glaube schon, daß das Lesen am Bildschirm machbar ist, insbesondere wenn die Qualität der Displays besser wird. Zweiter Grund war natürlich, als wir damit angefangen haben, war die Bandbreite der Informatik bei 9,6 kbps, die gesamte Uni hatte eine 64 Kilobit-Leitung und die Benutzer kamen höchstens mit 9,6 kbps-Modems rein. Insofern haben wir gesagt: Häppchen in der Größenordnung von 16 Kilobyte und nicht die ganze Datei. Die Leute warten und lesen gar nicht, und es sollte gelesen werden. Das zur Größe des Archivs. Daß kein FTP-Archiv parallel zu den Texten existiert, liegt daran, daß es ein Hypertextsystem ist, und ein FTP-Archiv im Hypertextmodus läßt sich nicht recht gut bedienen. Und die parallele Arbeit kommt auch dazu, insofern haben wir auf eine parallele Erzeugung der ganzen Dateien noch einmal als FTP-Archiv verzichtet. Auch das ist eigentlich nur aus Personalmangel zu sehen. Im Unterschied zum amerikanischen Projekt gibt es, wie gesagt, kein FTP-Archiv. Plain vanilla-ASCII war zu wenig. Wir haben HTML-Mark-up gewählt. Wir hätten besser SGML genommen. Aber, wie gesagt, die Tools waren so teuer, daß sie für ein Open-Projekt, wo keine Finanzierung dahinter steckt, einfach nicht bezahlbar waren. Und man braucht dann Tools zur Verifikation der Texte. So, das sind eigentlich schon die wichtigsten Sachen.  

Jetzt komme ich zu den Copyright-Problemen. Vorraussetzung für die Anlieferung eines Textes zum Projekt Gutenberg.de ist, der Autor muß mehr als 70 Jahre tot sein. Also, niemals wieder anfragen, warum Herrmann Hesse nicht im Projekt Gutenberg ist. Den kriegen wir erst 2020, 2026, glaube ich, genau bin ich auch nicht sicher. Kommen Einsendungen an das Projekt Gutenberg mit Texten von Autoren, die noch Copyright haben, so löschen wir sie nicht, sondern sie werden archiviert. Die werden archiviert vermutlich bis über die Zeit hinaus, wo ich noch Projektleiter Gutenberg bin. Wir haben also Texte, die erst 2030 oder so frei sind. Wir nehmen sie an, wir löschen sie nicht, weil wir sagen, da hat jemand sich viel Mühe gemacht, und man weiß nicht, hat er gescannt oder getippt. Wir lassen die Texte im Archiv, sie sind nur nicht verfügbar. Bei Übersetzungen ist es noch schwieriger, sagte ich auch schon. Der Übersetzer muß siebzig Jahre tot sein. Deswegen fällt es uns sehr, sehr schwer Übersetzungen reinzustellen. Nur in ganz wenigen Fällen, wenn es bekannte deutsche Schriftsteller waren, von denen man Biographien findet, kann man Übersetzungen machen. Aber uns fehlt Balzac, uns fehlt Jules Verne, also wirklich schöne Klassiker in fremden Sprachen, russische Autoren. Und was man heute tatsächlich sieht, ist, auch die Verlage verwenden nicht eine wunderschöne Übersetzung, sagen wir von Christoph Martin Wieland, sondern sie lassen neu übersetzen. Nicht weil der neue Übersetzer das besser kann als ein Klassiker, der Klassiker geschrieben hat, sondern weil ein Übersetzer für die Übersetzung eines 400 Seiten-Buchs vielleicht 4.000 DM bekommt und der Verlag die Rechte an den Texten hat. Deswegen haben Verlage gar kein Intresse daran, die alten Übersetzer noch mal zu kopieren, sondern sie setzen lieber einen neuen Übersetzer ran, dann haben sie auch noch das Copyright. Insofern wäre das natürlich schön, aber da haben wir null Übersetzungen aus dem Internet, die zu uns ins Projekt kommen.  

Der Anteil der Arbeit am Projekt Gutenberg: Ich schätze es sind in den letzen fünf Jahren insgesamt 10.000 Arbeitsstunden in das Projekt geflossen. Davon 4.000 bis 5.000 von meiner Seite, weitere 4.000 von einem Mitarbeiter, und sagen wir mal die restlichen 5% bis 8% vom Rest des Internet. Das Projekt Gutenberg ist also wider Erwarten nicht eine Gemeinde von Hunderten oder Tausenden. Sicherlich ist die Anzahl der Einsender schon weit über 300 oder 400, bloß, bei einem fünfzeiligen Gedicht, das in ASCII als eMail-Attachment kommt, dauert das Formatieren nach HTML und das Einfügen von Metainformationen darüber, woher das Gedicht stammt, aus welcher Sammlung es kommt, länger, als das eigentliche Eintippen von 2x4 Zeilen Text. Insofern ist das Projekt Gutenberg nicht so ein großes Projekt, wie man das meinetwegen beim Linux-Projekt sehen kann. Es hat aber ein Renomee, als sei es ein solches. Und das ist eigentlich interessant, daß vielfach angenommen wird: 'Mein Gott, da müssen aber viele Leute gestanden und getippt oder gescannt haben.' Es ist aber tatsächlich so, daß eben sehr viel im eigenen Haus gemacht worden ist.  

Dann noch zur Zukunft: Gutenberg nimmt am Open eBook-Standard teil. Das hat nichts mit Open Software zu tun, hat auch nicht mit Open Content zu tun. Das Wort 'Open' ist sehr schlecht gewählt worden. Es soll aber ein Standard werden für zukünftige, digitale Editionen, um den Verlegern die Möglichkeit zu geben, Content für digitale Lesegeräte zu präparieren. Da macht Projekt Gutenberg mit, hat es aber leider nicht mehr geschafft, ist sozusagen zu spät gekommen, um von HTML weg auf bessere Markierungssprachen zu kommen. Wir sehen Möglichkeiten, daß man Autoren, die heute nicht mehr verlegt werden, neu auflegt. Das hier [zeigt ein Buch] ist aus dem Projekt Gutenberg mit einem Arbeitsaufwand von 6 Stunden entstanden, es ist im Printing-on-demand-Verfahren bei Xerox aus dem Archivmaterial Gutenberg hergestellt worden. Wir hatten letztes Jahr eine Aktion gemacht, wo das Internet bestimmte, was in das Buch soll. Das war das erste Wunschbuch des Projektes Gutenberg. Ich würde sagen, es war eine schöne Spielerei. Geld verdient man damit bestimmt nicht. Die Auflage von diesem Buch ist 50 Exemplare.  

Gut, aber ich sehe trotzdem eine Zukunft im Archiv Gutenberg. Und die liegt wohl mehr in diesen Geräten hier. Wir sind natürlich auch interessiert daran, unseren Gutenberg-Content dafür vorzubereiten. Das ist also ein Lesegerät, wie es vielleicht in zwei Jahren bei 2.000 Leuten, in drei Jahren bei 30.000 Leuten und in fünf Jahren vielleicht bei 50% liegt. Das Volumen ist im Moment 4.000 Din A4-Seiten, das ist aber nur eine technische Frage des Speichers. Auf jeden Fall brauche ich für diesen Sommer -- ich fliege nächsten Monat in Urlaub -- nicht mehr viereinhalb Kilo mitzuschleppen. Ich habe mein Buch dabei. Und das kann ich übrigens auch Einhand segeln, weil ich es mit einer Hand vorwärts und zurück blättern kann. Und das war die Zukunftsaussicht.  
  

(Transkription Katja Pratschke)