Was eine Sprache ausmacht.
Ist HTML eine Sprache?

von Gerd Heinz

Zitat Wikipedia [1]:

"Unter Sprache versteht man im allgemeinen Sinn alle komplexen Systeme der Kommunikation. ... In einem noch weiteren Sinn werden auch Symbolsysteme, die nur zur Repräsentation und Verarbeitung von Information dienen, als Sprache bezeichnet, etwa Programmiersprachen oder formale Sprachen in Mathematik und Logik. ... Im Weltatlas der gefährdeten Sprachen listet die UNESCO alle weltweit vom Aussterben bedrohten Sprachen auf. Mit dem Erlöschen einer Sprache geht auch ein kulturelles Gedächtnis verloren."

Überraschenderweise haben Sprachexperten der Wikipedia bereits erkannt, daß es auch formale Sprachen gibt. Die "Hypertext Markup Language" (HTML) [2] gehört bei Wikipedia im Jahre 2023 nicht dazu. Kurios, weil es die am meisten genutzte Sprache der Welt ist. Quelle [1] sagt dazu:

"Programmiersprachen wie ALGOL, APL, Fortran, COBOL, BASIC, C, C++, Ada, Lisp, Prolog, Python, Java oder Perl sind für bestimmte Zwecke konstruiert und beruhen auf theoretischen sowie pragmatischen Überlegungen."

Betrachtet man HTML als die Symbolsprache des Internet schlechthin, so wird schnell klar, daß auch HTML vom Aussterben bedroht ist. Nicht etwa, weil es niemand mehr nutzt, im Gegenteil. Eigentlich alle Webseiten sprechen HTML.

War vor 25 Jahren HTML noch von jederman zu verstehen, so haben sich inzwischen Nerds dieser Sprache angenommen. Sie wird von Jahr zu Jahr mehr verstümmelt, sie wird immer komplexer und komplizierter. Schlimmer noch: Elementarste Dinge, wie die Darstellung einer Webseite in einheitlicher Schriftart und Größe funktionieren zum Beispiel bei modernen Android-Browsern nicht mehr ohne riesigen Sprachzirkus.

So werden plötzlich die Konstrukte <table>, <pre>, <xmp> und andere in Android-Browsern nur noch in winziger Schriftgröße dargestellt - ohne daß eine einfache Möglichkeit besteht, das zu korrigieren (siehe zum Beispiel die gelblich mit <pre> vorformatierten Bereiche in [4].

Und hier wird es kritisch. Um einen (hinkenden) Vergleich zu bemühen: Es ist so, als würde man "Guten Tag!" nicht mehr verstehen können, ohne daß einem vorab die Syntax der nun folgenden zwei Worte lang und breit in einer unbekannten Fremdsprache erklärt werden muß.

Wußten meine Webseiten bis zur Jahrtausendwende noch nicht viel von Styles und Stylesheets, so kommt diese Webseite selbstverständlich mit einem Stylesheet daher (Cascading Style Sheet, CSS, [3]). Früher hatten die Webbrowser Standardeinstellungen für das Aussehen, die halbwegs brauchbar waren. Wenn es schnell gehen mußte, konnte man schon mal schnell irgendetwas aufschreiben. Heute kaum noch denkbar.

Der Trend geht in die entgegengesetzte Richtung. Immer mehr Tools versuchen dem Erstnutzer des Internet den Eindruck zu vermitteln, daß es ohne sie nicht geht. Immer mehr Tools schalten sich zwischen Sprache und Nutzer der Sprache. Immer mehr Experten versuchen, mit HTML ihren Unterhalt zu verdienen. Und was wäre da geeigneter, als HTML beständig weiter zu verkomplizieren?

Wo ist das Problem, werden Sie nun vielleicht fragen?

Es ist die Wertbeständigkeit [5] der abgelegten Inhalte, wie auch der steigende Stromverbrauch durch ausufernde Syntax. Hat man in dreißig Jahren tausende Files in hunderten Verzeichnisse geparkt, so kann man deren Syntax kaum noch verändern, nur weil wieder Elemente auf "depricated" gesetzt wurden oder plötzlich anders behandelt werden.

Es ist so, als würde man in der deutschen Sprache jährlich immer weitere Worte verbieten und die Menschen zur Umschreibung der Begriffe zwingen (na gut werden Sie vielleicht sagen, das kennen wir auch schon, wenn wir an die Neue, Deutsche Rechtschreibung oder an Gender#Sprech denken).

Tools werden von Firmen gemacht, die nach einigen Jahren nicht mehr existieren. Sei es, weil sie sich spezialisiert haben, sei es, daß sie lukrativere Geschäftsfelder gefunden haben, oder sei es, weil sie insolvent sind: Plötzlich fehlt das Bindeglied zwischen dem Nutzer und der abgelegten Sprache. Kleinste Änderungen, Erweiterungen oder Aktualisierungen seiner Webseite können dann nicht mehr erfolgen.

Wie an sovielen anderen Stellen hätte die Volksbildung hier eine Aufgabe zu erfüllen: Jugendlichen wäre transparent zu machen, daß HTML eine Sprache ist. Und Ihnen wäre die wesentlichste Eigenschaft einer Sprache zu vermitteln:

Eine Sprache muß einfach und konsistent sein, soll sie auch in tausend Jahren noch gelesen werden können.

An diesem Anspruch gemessen, sind allerdings weder HTML noch CSS "Sprachen", denn sie wandeln sich extrem schnell und beständig. Was heute noch galt, ist morgen bereits "deprecated", was auf einem Browser funktioniert, funktioniert lange nicht auf einem anderen.

Da Sprachveränderungen permanent erfolgen und die Browser-Entwickler dem Treiben nur noch hilflos zusehen können, herrscht mehr und mehr Chaos. Selbst im Web ist es unmöglich, herauszufinden, wie HTML zu schreiben ist, um auf allen Bildschirmen (PC, Tablet, Smartphone) und mit allen Browsern (Windows, Apple, Android) halbwegs gut darstellbare Ergebnisse zu erzielen.

Entsprechend verschwanden gegen 2010 riesige Mengen an wissenschaftlichen HTML-Seiten und -Publikationen, die mit Filmen, Klängen oder Movie-GIFs unterlegt waren. Man wandte sich wieder dem PDF-Format zu, mit der Vision, daß PDF für Smartphones vollkommen ungeeignet ist.

Um an eine alte Weisheit zu erinnern:

File-Extensions (*.htm, *.css, *,txt) wurden in den achtziger Jahren eingeführt, um zu gewährleisten, daß der Inhalt mit dem dafür zuständigen Programm ausgeführt wird.

Diese Weisheit ging verloren. Ein HTML-File kann in den unterschiedlichsten Versionen (siehe [2] "Versionen") erscheinen, die die unterschiedlichsten Dinge unterstützen. Statt mit jeder neuen HTML-Version auch die Extension zu ändern (z.B. *.htm1, *.htm2, *.htm3, *.htm4, *.htm5), heißen alle Files unabhängig von der verwendeten HTML-Version *.html oder *.htm.

Dies hätte Vorteile gebracht:

Dem Browser hätte man die Möglichkeit einer korrekten Darstellung gegeben.
Der Nutzer hätte syntaktisch korrekten HTML-Code schreiben können.
Suchmaschinen hätten über die Zahl der Aufrufe erkennen können, welche HTML-Version eigentlich die gefragteste ist, welche also mit Priorität zu unterstützen ist.

Dasselbe gilt analog für CSS. Auch hier wäre es sinnvoll gewesen, über die Extension die unterstützte Variante kundzutun. So hätte man die verschiedenen Versionen problemlos mit *.cs1, *.cs2, *.cs3 bezeichnen können.

Das Zitat aus [2] ist bezeichnend:

"HTML dient als Auszeichnungssprache dazu, einen Text semantisch zu strukturieren, nicht aber zu formatieren. Die visuelle Darstellung ist nicht Teil der HTML-Spezifikationen und wird durch den Webbrowser und Gestaltungsvorlagen wie CSS bestimmt. Ausnahme sind die als veraltet (englisch deprecated) markierten präsentationsbezogenen Elemente."

Stellt sich dem Nutzer von HTML die Frage, was unter semantische Auszeichnung fällt, und was nicht. Überschriften <h1...h6>, Listen <ol> und Anstriche <ul> fallen darunter, warum nicht vorformatierter Text <pre>, Tabellen <table>, oder Quelltexte <xmp>? Auch sie sind Bestandteil von Texten. Und warum lassen sich diese Elemente in Android-Browsern nicht mehr korrekt formatieren?

Hier drei Beispiele, die auf alten Browsern funktionieren, die aber unter modernen Android-Browsern auf dem Smartphone unerklärlich meist mit falscher Schriftgröße dargestellt werden:

1) Tabelle: Ein Element einer Tabelle.
2) Hier ein 
	vorformatierter 
		Text.
3) Und hier folgt ein vorformatierter Quelltext: <link rel="stylesheet" type="text/css" href="../gheinz.css">

Um es auf den Punkt zu bringen:

Um deutsch sprechen zu können, muß ich kein Sprachwissenschaftler sein. Um HTML und CSS zu beherrschen, muß ich inzwischen sehr wohl ein Sprachwissenschaftler sein!

Nicht zuletzt stellt sich die Frage, warum mit dieser Fehlentwicklung wertvollstes Wissen in unglaublichen Dimensionen aus dem Internet verschwand.

Nun ist zu vermuten, daß die gesamte Entwicklung der letzten zwanzig Jahre nur einem Ziel diente: Geld mit der kommerziellen Nutzung des Internet [6] zu verdienen. Da kümmerte es nicht, daß die Erbauer des Internet außen vor blieben.

Was uns Wissenschaftlern bleibt, ist wohl nur ein alternatives Internet ohne Kommerz. Also nochmal ein Neues aufbauen?

Um den gigantisch steigenden Stromverbrauch des Internet zu drosseln, ist es höchste Zeit, darüber nachzudenken, wie man die irrwitzigen Mengen an zu transportierendem und zu verarbeitendem, syntaktischem Müll vermeiden kann!

Jeder redet über CO₂-Einsparung. Aber man sieht den Wald vor lauter Bäumen nicht. Gerade habe ich ein Kochrezept aus dem Internet heruntergeladen: 2,3 Megabyte. Nach Textextraktion sind knapp 3 Kilobyte übrig: Mit anderen Worten: Die enthaltene Information ist ein tausendstel des übertragenen Datenvolumens! Das ist krank! Und es ist nicht die Ausnahme, es wurde inzwischen (2023) zur Regel.

Mit anderen Worten: Wenn ein 1000 Megawatt-Block gebraucht wird, um eine Serverfarm zu speisen, dann werden davon 999 Megawatt verheizt, um syntaktischen Müll und sinnleere Bilder in höchster Auflösung zu transportieren. Und in dem verbleibenden einen Megawatt steckt die Information.

Mit den Plattenkapazitäten sieht es genauso aus. Egal ob auf meinem Rechner, meinem Handy oder in der Serverfarm. 99% der Kapazität enthalten keine Informationen.

Wie wir sehen, enstand mit einer unausgegorenen Philosophie der permanenten Verschlimmbesserung von HTML und CSS und der Addition von Javascript, Phyton u.a. ein heilloses Chaos. Letztlich wird HTML damit den Weg alles Irdischen gehen.

Sind diese Fehler noch zu korrigieren?

Möglicherweise. Indem wir Wissenschaftler zu Mosaic oder Netscape zurückkehren, und nur die File Extension ändern. Entwickler von Browsern sollten eine Chance haben. Veraltete Webseiten (*.html, *.htm) müßten nur umbenannt werden. Der alltägliche Kommerz kann ja so weiter machen, wie bisher.

Quellen

[1] Wikipedia "Sprache". Aufgerufen am 17.11.2023 (Link)

[2] Wikipedia "HTML". Aufgerufen am 17.11.2023 (Link)

[3] Wikipedia "CSS". Aufgerufen am 17.11.2023 (Link)

[4] Heinz, G.: Boolesche Algebra? (Link)

[5] Heinz, G.: Konnten die Computer das Papier ablösen? (Link)

[6] Wikipedia "Internet". Aufgerufen am 17.11.2023 (Link)

Zurück zum Anfang
Created Nov.17, 2023
Mail to info@gheinz.de
Besucher seit dem 6. Dez. 2021:

Was eine Sprache ausmacht. Ist HTML eine Sprache?

Quellen

Was eine Sprache ausmacht.
Ist HTML eine Sprache?