Diskussionsbeitrag Carl-Martin Bunz, Saarbrücken

zum Rundtischgespräch
"Wozu (heute) noch Indogermanistik?"

bei der XI. Fachtagung der Indogermanischen Gesellschaft, Halle /Saale 17.-23.September 2000
zum Thema "Sprachkontakt und Sprachwandel"

Meine Präsentation "Indogermanistik und Informationstechnologie" sollte ein Beitrag zum Rundtischgespräch sein. Dadurch daß es aus organisatorischen Gründen nicht möglich war, daß ich vor dem Rundtischgespräch spreche, konnte ich den notwendigen Hintergrund für meine Beteiligung an der Diskussion nicht schaffen. Daher wurden meine Äusserungen teilweise gründlich mißverstanden. Meine Präsentation am Samstag, 23.9., 10:30-11:00 h, sprengte bedauerlichweise den Zeitrahmen, so daß keine Diskussion mehr möglich war.

Ich nütze daher sehr gerne dieses Forum, um Reaktionen auf meinen Beitrag zu erhalten. Ich stelle mich gerne der Diskussion.

Als Ersatz für die fehlenden Seiten 2 und 3 meiner Tischvorlage habe ich in Aussicht gestellt, eine Broschüre zusammenzustellen, in der die Thesen meines Beitrags illustriert werden. Nach meinem Vortrag erhielt ich die Anregungen, eine solche Broschüre möglichst selbsterklärend zu gestalten, sämtliche Termini aus der Informatik sollten erläutert werden. Diesem Wunsch komme ich gerne nach.

1. Die Indogermanistik besitzt noch keine ausreichende informationstechnologische Kompetenz. Während bei manchen Projekten der EDV-Einsatz in vorbildlicher Weise konzipiert und durchgeführt wird, begeben sich andere Projekte in beträchtliche Gefahr, weil die Anwendung von Rechnern nicht ausreichend geplant wurde und später ein unverhältnismäßiger Mehraufwand an Zeit und Energie oder sogar Informationsverlust hingenommen werden muß. Die Anforderungen der Indogermanistik an die EDV sind besonders hoch. Umso wichtiger ist es, auf sorgfätig Vorausplanung zu achten, wenn wissenschaftliche Arbeiten mit elektronischen Hilfsmitteln erstellt und präsentiert werden.

2. Meine These, daß die Indogermanistik noch keine informationstechnologische Kompetenz besitzt, impliziert nicht, daß Computeranwendung allein die Existenz des Faches rechtfertigt. Es ist selbstverständlich ein oberflächlicher Trugschluß, daß nur ein Computer-anwendendes Fach ein "modernes" und damit erhaltenswertes Fach sein könne, dessen Inhalte für die heutige Welt relevant sind. Daß die Computeranwendung für die Zukunft des Faches dennoch essentiell ist, hat hauptsächlich zwei Gründe:

2.1. Wie auch aus vielen Diskussionsbeiträgen deutlich wurde, ist es unabdingbar, daß die Indogermanistik unter dem derzeitigen Rechtfertigungsdruck auf die *Texte* verweist, aus denen sie das Sprachmaterial zur Erforschung von Sprachwandel und zur Rekontruktion vorhistorischer Stadien bezieht. Diese Texte sind in vielen Fällen Schlüsseltexte von Weltkulturen oder aber einzige Überreste untergegangener Schriftkulturen, deren Dokumentation kulturgeschichtliches Interesse beansprucht. Elektronische Textdatenbanken erlauben nun die Analyse dieses Textmaterials in mehreren Dimensionen. Insbesondere die Struktur der metrischen Texte kann durch entsprechende Indizierung der elektronischen Texte mit bislang unerreichter Präzision erforscht werden. Die Anlage elektronischer Textdatenbanken und ihre Indizierung mit verschiedenen Parametern bedeuten demnach einen *Erkenntnisgewinn*.

2.2. Ohne Computeranwendung wird ein Fach und damit auch die Indogermanistik kommunikationsunfähig. Insbesondere das World Wide Web ermöglicht einen Informationsaustausch durch Texte und (bewegte) Bilder mit differenzierten Darstellungsoptionen. Über den Kommunikationsbedarf im Wissenschaftsbetrieb selbst hinaus besteht ein weiteres Interesse an einer Beteiligung des Faches. Die Inhalte, die die Indogermanistik bearbeitet, sind als Weltkulturerbe von hoher Relevanz (s.o. 2.1.). Die Teilnahme der Indogermanistik an der elektronischen Kommunikation kann folglich nicht allein als Selbstdarstellung betrachtet werden, sondern ist notwendig, wenn kulturhistorisch bedeutende Texte für das elektronische Medium aufbereitet werden müssen.

3. Es kann nicht die Rede davon sein, daß künftige Indogermanisten eine Informatikausbildung benötigen. Unabdingbar ist allerdings ein Einblick in die Strukturen der Textdatenverarbeitung, damit eine Verständigung mit Informatikern möglich ist. Diese Kenntnisse werden durch die Bedienung kommerzieller Textverarbeitungsprogramme *nicht* erworben.

Zu großen Projekten kann nur dann ein Informatiker hinzugezogen werden, wenn die beteiligten Fachwissenschaftler in der Lage sind, die notwendigen Strukturinformationen zu liefern.

4. Die Frage der Computeranwendung ist nicht keine Frage der *Präsentationsform*. Entscheidend ist die *innere Strukturierung* der Textdaten, die der Wissenschaftler selbst vornehmen muß. Textauszeichnung, d.h. die Festlegung von Hierarchien, Bezügen und anderen Begriffszuordnungen im Text sind eine genuin geisteswissenschaftliche Arbeit, keine technische Zurichtung, die allein der maschinellen Verarbeitung dient. Der Editor eines Primärtextes bzw. der Autor eines Textes im wissenschaftlichen Diskurs macht Bedeutung im Text explizit, indem er metasprachliche Elemente einbringt. Allein der Fachwissenschaftler (Sprachwissenschaftler, Philologe) hat diese Kompetenz, nicht der Informatiker. Diese Strukturierung ist Voraussetzung für den Zugriff auf den Text sowie für die Vernetzung von Texten, d.h. die Erzeugung von Hypertext. Der Schritt vom linearen Text zum Hypertext kann nur dann vollzogen werden, wenn der elektronische Text nicht nur auf eine Präsentation im Druck hin produziert, sondern mit semantischen Auszeichnungen versehen wurde, die seine Struktur explizit machen.

Selbstverständlich kann eine sinngemäße Präsentation aufgrund eines derart ausgezeichneten Textes erzeugt werden, und zwar auf verschiedenen Medien: Druck und, heute immer wichtiger, HTML-Text im WWW.

Nur strukturierte Daten machen das Fach Indogermanistik als Ganzes kommunikationsfähig mit Nachbarfächern und Forschungsbereichen wie Computerlinguistik und Künstliche Intelligenz: Als Sprachwandelforschung par excellence kann die Indogermanistik diesen Disziplinen das reichhaltigste Datenmaterial liefern und in Forschungsprojekten mit diesen Bereichen fruchtbar kooperieren -- allerdings nur dann, wenn die elektronischen Daten wohlstrukturiert sind.

5. Moderne kommerzielle Textverarbeitungsprogramme können nach wie vor nicht, in mancher Hinsicht sogar schlechter als bisher, die Bedürfnisse der Hist.-Vgl. Sprachwissenschaft decken. Auch wenn der gegenwärtige Trend der Software-Entwicklung mit den Schlagwörtern "Internationalisierung" und "Lokalisierung" zu beschreiben ist, bleiben die Entwicklungen, die vermarktet werden, grundsätzlich an marktspezifische Vorgaben gebunden. Das sog. Locale, die Sprach- und Ländereinstellung in Betriebssytemen und Anwendungsprogrammen, wird somit immer eine typisch kommerzielle Lösung sein. Eine wissenschaftlich brauchbare Software für multilinguale Text*daten*verarbeitung kann von der Industrie nicht erwartet werden.

6. Für den Wissenschaftler ist eine maximale Kontrolle über die Struktur der Daten notwendig -- der Wissenschaftler darf nicht der Software ausgeliefert sein. Es geht nicht an, daß in Projekten bestimmte Informationen aus elektronischen Textdatenbanken nicht abgefragt werden, oder daß bei der Gestaltung einer Edition bestimmte Pläne nicht verfolgt werden, nur weil die verwendete kommerzielle Software die benötigten Funktionen nicht bietet.

7. Der Computer ist kein Zauberkasten: Die Grenzen der Möglichkeiten elektronischer Datenverarbeitung müssen erkannt und einkalkuliert werden. Allerdings wären viele Herausforderungen, z.B. bei der Erstellung von Parsern, die morphologische und syntaktische Strukturen erkennen sollen, hinreichender Inhalt computerlinguistischer Forschungsprojekte und somit ideale Schnittpunkte, die eine Zusammenarbeit beider linguistischer Disziplinen begründen. Und dies nicht deswegen, weil die Computerlinguistik ein "modernes" Fach ist, an die sich das "alte", überkommene, traditionelle anhängen müßte, sondern weil die Formalisierung sprachlicher Strukturen und Vorgänge, d.h. in erster Linie des Sprachwandel, einen bedeutenden Erkenntnisgewinn bedeutet. Die Essenz computerlinguistischer Forschung ist nicht das Spiel mit dem Computer, sondern die Erkenntnis über das Wesens der Sprache, die sich eben nicht durch simple Mechanismen abbilden läßt.

8. Die sorgfältige Planung des EDV-Einsatzes in Projekten ist unabdingbar: Die erforderlichen Strukturen und die geeigneten Werkzeuge müssen festgelegt, Datenbank-Strukturen von Text-Strukturen getrennt und die Möglichkeiten der Erschließung der Daten (Abfrage und Präsentation über das WWW) konzipiert werden. Der Austausch von Erfahrungen zwischen Projekten ist dabei äußerst wichtig, was natürlich voraussetzt, daß im wissenschaftlichen Diskurs generell über Methoden gesprochen wird, nicht allein über Ergebnisse.

9. Unicode(R) (= ISO/IEC 10646) ist ein internationaler Standard der Schriftzeichencodierung im Computer, der seit 1991 Normstatus hat. ISO/IEC 10646/Unicode teilt sich in einzelne 16-Bit-Räume auf. Im ersten 16-Bit-Raum, Unicode im engeren Sinne bzw. Basic Multilingual Plane (BMP), sind die wichtigsten lebenden Schriften erfaßt. Die nächsten 15 16-Bit-Räume bzw. Planes (über 1 Million Zeichen) sind aus Unicode heraus mittels eines Escape-Mechanismus (Surrogate Pairs) erreichbar. Gemäß der Architektur dieser 16-Bit-Codierung (65.536 Zeichen) werden Schriften im Sinne von übergeordneten, von einem bestimmten Schriftsystem unabhängigen Zeicheninventaren codiert, keine sprachspezifischen Schriftsysteme. Das Code-Element ist der "Abstract Character" im Unterschied zum "Glyph", der Präsentationseinheit. Im BMP wurden aus praktischen und strategischen Gründen zunächst die kommerziell und industriell relevanten Schriften aufgenommen; diese Codierungen sind mittlerweile fast vollständig codiert.

Unicode (http://www.unicode.org) ist ein von der Computerindustrie getragener Verein. Die enge Verflechtung mit der Industrie bedeutet zwar einerseits eine gewisse Abhängigkeit von kommerziellen Bedürfnissen, andererseits jedoch ist sie der Garant für die weltweite Akzeptanz des Standards. War es noch vor fünf Jahren durchaus unsicher, ob Unicode zum maßgebenden Codierungsstandard avancieren würde, sind heute keine Zweifel mehr angebracht, daß Unicode der Nachfolger von ASCII wird. Schon heute ist Unicode die Grundlage der weltweiten Kommunikation über das World Wide Web. Gerade die Wissenschaft nutzt das WWW: Der Ausbau der Zeichencodierung liegt also in unmittelbarem Interesse der Wissenschaft, ganz besonders derjenigen Disziplinen, die Bedarf an Spezialzeichen haben. Daß die Indogermanistik hier einen wichtigen Platz einnimmt, liegt auf der Hand.

Die Unicode-Idee kennt keine Beschränkung auf wirtschaftlich relevante Zeicheninventare. Von Anfang an war es erklärtes Ziel der Unicode-Designer, ein Universal Character Set zu schaffen, was dieser Bezeichnung auch gerecht wird. Historische Schriften sind somit integraler Bestandteil des Codierungsstandards. Vor 14 Tagen wurde in Athen auf der ISO/JTC1/SC2/WG2-Sitzung Plane 1, d.h. ein weiterer 16-Raum, zur Belegung eröffnet. Dort sollen hauptsächlich historische Schriften codiert werden.

Die nationalen und internationalen Normenausschüsse und das Unicode Technical Committee brauchen wissenschaftliche Unterstützung, um diese Aufgabe zu bewältigen. Wird den Ausschüssen diese Unterstützung versagt, besteht die Gefahr, daß die historischen Schriften von interessierten Laien aufgrund allgemein verfügbarer Handbücher zur Codierung vorbereitet und im internationalen Standard abgelegt werden. Historische Schriften wären dann auf Sachbuchniveau codiert; für wissenschaftliche Arbeit wären diese Codierungen nicht brauchbar, sie könnten, z.B. im WWW, niemals als Kommunikationsgrundlage für wissenschaftliche Inhalte dienen. Man denke nur an die äußerst komplexe Problematik der Keilschriftcodierung. Es ist wohl selbstverständlich, daß nur die kompetentesten Philologen die altmesopotamische Keilschrift zur Codierung im internationalen Standard vorbereiten können.

Für die Ingenieure ist es offensichtlich, daß unter den Wissenschaften, die sich mit Sprache und Schrift befassen, die Indogermanistik die ideale Ansprechpartnerin ist, wenn es um die Codierung historischer Schriften geht. Selbstverständlich wird ein Codierungsvorschlag für eine bestimmte Schrift in jedem Fall unter Beteiligung der zuständigen Philologie erarbeitet werden, aber die Indogermanistik hat gerade durch ihre interdisziplinäre Natur Koordinierungskompetenz, da die vergleichende Analyse von Graphem-Phonem-Relationen in einer Vielzahl von Schriftsystemen zu ihrem Forschungsgegenstand gehört. Dadurch ist die Indogermanistik prädestiniert, Normenausschüsse zu beraten und bei der Erstellung von Codierungsvorschlägen mitzuwirken.

Mitarbeit in den Normierungsausschüssen bedeutet demnach Mit*gestaltung*. Es kann also nicht davon die Rede sein, daß sich das Fach industriellen Interessen beugt oder sich wirtschaftlich-technischen Trendsettern anbiedert, indem es ein vermeintliches Interesse vorschiebt und sich dadurch selbst verrät. Nein, es sind vielmehr die Inhalte des Faches als "Sachwalter des Weltgedächtnisses" (vgl. mein Paper "Browsing the Memory of the World", 11th International Unicode Conference, San Jose 1997), die hier gefragt sind. Gegenüber den Forschungsaufgaben des Faches, ist die Ausarbeitung von Zeichencodierungen zweifellos keine genuine *Forschungs*leistung, sondern die Schaffung von Arbeitsmitteln bzw. Grundlagenforschung. Es dürfte allerdings kein Zweifel bestehen, daß in eine Zeichencodierung sämtliche derzeit verfügbare fachliche Kompetenz einfließen muß, falls die Codierung tatsächlich wissenschaftlich nutzbar sein soll. Es wäre absurd, die Ausarbeitung einer Codierung als Beschaffung von Hilfsmitteln einzustufen und z.B. einer studentischen Hilfskraft zu überlassen. Durch eine aktive Beteiligung bei der Standardisierung, einer wahrhaftigen Jahrhundertaufgabe, gewinnt die Indogermanistik eine Außenwirkung, die ihrem Wesen entspricht -- und es handelt sich eben nicht um eine sekundär aufgesetzte, konstruierte Rechtfertigung des Faches. Um schwierige Codierungsvorhaben zu realisieren, könnten auch Projekte ins Leben gerufen werden, deren Finanzierung industrienahe Stiftungen (z.B. Gates Foundation, Hewlett-Packard Sponsorship Marketing Group, u.a.) übernehmen.

Meine Beschreibung dieser Verhältnisse resultiert nicht aus Mutmaßungen oder Informationen Dritter, sondern aus vierjähriger Erfahrung in persönlichem Kontakt mit den Unicode Technical Directors, vier Vorträgenauf International Unicode Conferences (IUC10, Mainz 1997; IUC11, San Jose 1997; IUC16, Amsterdam 2000; IUC17, San Jose 2000), sowie bei der Zusammenarbeit mit Mitgliedern von Normenausschüssen (DIN, CEN, ISO).

10. Die Codierung von Transliterations- und Transkriptionszeichen in Unicode erfolgt im Falle von Grundzeichen-Diakritika-Kombinationen grundsätzlich analytisch, d.h. als Sequenz Grundzeichen + Combining Diacritical Mark(s). Da noch vor wenigen Jahren die bislang verfügbare Software die Kombination von Grundzeichen und Diakritika gar nicht oder nur sehr ungenügend unterstützte, hat sich das TITUS-Projekt entschlossen, eine möglichst umfassenden Datenbank von Umschriftzeichen anzulegen und diese Zeichen als Precomposed Characters in der Private Use Area von Unicode zu codieren; der entsprechende Font kann vom TITUS-Server heruntergeladen werden (vgl. http://titus.fkidg1.uni-frankfurt.de/unicode/tituut.asp). Unicode enthält noch nicht alle Diakritika, die in wissenschaftlichen Umschriften benötigt werden. Daher ist es wichtig, daß alle sprachwissenschaftlichen und philologischen Disziplinen kooperieren, um den Umschriftzeichenbedarf festzustellen -- die Abfrageseite der Datenbank ermöglicht es nachzuprüfen, welche Zeichen in Unicode und/oder in der TITUS-Datenbank bereits erfaßt sind; bislang nicht erfaßte Zeichen können sofort angemeldet werden (vgl. http://titus.fkidg1.uni-frankfurt.de/database/unicode/unicsel.htm). Dann kann ein Codierungsvorschlag für Diakritika ausgearbeitet werden. Außerdem ist es notwendig, daß die Verwendung der bislang erfaßten Umschriftzeichen in der Datenbank dokumentiert wird.

Auch außerhalb der Wissenschaft haben Transliteration und Transkription große Bedeutung. Die Normenausschüsse, die sich mit Umschrift befassen (die entsprechende ISO-Komitee ist ISO/JTC1/SC2/TC46 "Conversion of Written Languages"), sind auf Unterstützung seitens der Wissenschaft angewiesen. Auch hier hat die Indogermanistik eine besondere Kompetenz aufzuweisen, da sie Transliteration und Transkription problematisiert und, bedingt durch den Sprachvergleich, ständig verschiedene Umschriftsysteme bewertet. In der Kommunikation über das WWW spielt Umschrift eine bedeutende Rolle, da ja gerade jetzt, wenn Webseiten aller möglicher Sprachen und Schriften im Browser angezeigt werden, das Bedürfnis besteht, eine Umsetzung in eine andere Schrift vorzunehmen, um bestimmte Elemente im Text erkennen zu können.

11. In Gesprächen mit Projekten stoße ich immer wieder auf den Mythos von Unicode als Zukunftsvision: Diesen Mythos gilt es zu entzaubern. Alle gängigen Browser können die 8-Bit-Codierungsform (Unicode Translation Format 8 Bit, UFT-8) lesen und die Zeichen korrekt anzeigen. Unicode ist die Referenzcodierung der Betriebssyteme Microsoft Windows NT 4.0 und Windows 2000. In meiner Präsentation habe ich gezeigt, daß man heute schon einen beliebigen vedischen Text in Transliteration auf einer Webseite darstellen kann. Das ist Unicode hic et nunc.

12. Die Indogermanische Gesellschaft könnte Tutorien organisieren, um Studenten und Nachwuchswissenschaftlern die unabdingbaren Kenntnisse zu vermitteln, damit sie die Werkzeuge der elektronischen Datenverarbeitung und Kommunikation beherrschen und richtig einsetzen. Dozenten bzw. Übungsleiter solcher Tutorien wären Informatiker, die in geisteswissenschaftlichen, insbesondere linguistischen und philologischen Projekten arbeiten und dort Erfahrung mit der Problemen des Computereinsatzes in der Historisch-Vergleichenden Sprachwissenschaft gesammelt haben.

13. In einem informationstechnologischen Kontext ist die Relevanz der Indogermanistik offensichtlich, und umgekehrt ist der umsichtig geplante Computereinsatz für die Indogermanistik unabdingbar. Die Frage nach dem wirtschaftlichen Nutzen des Faches ist grundsätzlich mit nein zu beantworten; es läuft daher dem Wesen des Faches zuwider, einen vermeintlichen Nutzen zu konstruieren. Wenn sich das Fach Indogermanistik in einen informationstechnologischen Zusammenhang einordnet, bedeutet dies nicht, daß es seine Ziele, die sprachhistorische Erschließung der indogermanischen Einzelsprachen und die Rekonstruktion der Ursprache, aufgibt. Vielmehr bietet die Indogermanistik ihre Inhalte, ihre Methoden und ihre Kompetenz anderen Sprachwissenschaften und Philologien an, indem sie ihre Daten elektronisch erfaßt und angemessen strukturiert. Dieses Angebot ist kein Ausverkauf des Faches, sondern ist Äußerung seiner Spinnenfunktion, seiner naturgemäßen Interdisziplinarität mit elektronischen Kommunikationsmitteln. Dabei kann die Mitarbeit bei der Erstellung der internationalen Schriftzeichencodierung (Unicode/ISO 10646) freilich nicht als Forschungsinhalt, unbedingt aber als Mitgestaltung einer Kommunikationsbasis gelten, die nicht nur der Wissenschaft, sondern der ganzen Welt dient.

Diskussionsbeitrag Carl-Martin Bunz, Saarbrücken

zum Rundtischgespräch "Wozu (heute) noch Indogermanistik?"

bei der XI. Fachtagung der Indogermanischen Gesellschaft, Halle /Saale 17.-23.September 2000 zum Thema "Sprachkontakt und Sprachwandel"

zum Rundtischgespräch
"Wozu (heute) noch Indogermanistik?"

bei der XI. Fachtagung der Indogermanischen Gesellschaft, Halle /Saale 17.-23.September 2000
zum Thema "Sprachkontakt und Sprachwandel"