FAIR and interactive data graphics from a scientific knowledge graph

Eine formale Sprache ist eine abstrakte Sprache, bei der im Unterschied zu natürlichen Sprachen oft nicht die Kommunikation im Vordergrund steht, sondern die Definition und Anwendung formaler Systeme im engeren Sinn und der Logik im weiteren, allgemeinen Sinn. Eine formale Sprache besteht aus einer bestimmten Menge von Symbolketten (im Allgemeinen Zeichenketten) („Wörter“ der Sprache), die aus einem Zeichen-/Symbolvorrat („Alphabet“, Grundsymbole) zusammengesetzt werden können. Während die Logik die Begrifflichkeit „Formale Sprache“ untersucht, finden formale Sprachen z. B. in der Mathematik, in der Linguistik und der theoretischen Informatik eine praktische Anwendung.

Formale Sprachen eignen sich zur (logisch) präzisen Beschreibung des Umgangs mit Zeichenketten. So können zum Beispiel Datenformate oder ganze Programmiersprachen spezifiziert werden. Zusammen mit einer formalen Semantik erhalten die definierten Zeichenketten eine (logische) Bedeutung. Bei einer Programmiersprache kann damit einer Programmieranweisung (als Teil der formalen Sprache) ein eindeutiges Maschinenverhalten (als Teil der Semantik) zugeordnet werden.

Aufbauend auf formalen Sprachen können aber auch Logikkalküle definiert werden, mit denen mathematische Schlüsse gezogen werden können. In Verbindung mit formal definierten Programmiersprachen können Kalküle helfen, Programme auf ihre Korrektheit zu überprüfen.

Definition

Eine formale Sprache $L$ über einem Alphabet $\Sigma$ ist eine Teilmenge der Kleeneschen Hülle des Alphabets: $L\subseteq \Sigma ^{*}$ .

Ein Alphabet $\Sigma$ legt die Zeichen fest, aus denen ein Wort der Sprache gebildet werden kann. Zum Beispiel kann man die Dezimaldarstellung jeder natürlichen Zahl aus dem Alphabet $\Sigma =\{0,1,2,3,4,5,6,7,8,9\}$ bilden.

Alle aus einem gegebenen Alphabet $\Sigma$ beliebig bildbaren Wörter mit endlicher Länge (Länge 0 oder länger), deren jeder einzelne Buchstabe Element von $\Sigma$ ist, diese größtmögliche Wortmenge zum Alphabet $\Sigma$ , nennt man die Kleenesche Hülle des Alphabetes $\Sigma$ , kurz $\Sigma ^{*}$ . Eine formale Sprache über einem Alphabet $\Sigma$ ist also eine bestimmte Teilmenge der Kleeneschen Hülle ihres Alphabets – im Allgemeinen ist also nicht jede beliebige Zeichenkombination ein gültiges Wort der Sprache.

Formale Sprachen können leer, endlich oder unendlich sein; maximal können sie die gesamte Kleenesche Hülle ihres Alphabetes umfassen. Sie können über eine mathematische Bedingung an ihre Wörter definiert sein: „Die Sprache … ist die Menge aller Wörter, für die gilt …“.

Die in der theoretischen Informatik auftretenden Sprachen sind jedoch meistens spezieller durch ein bestimmtes Ersetzungsverfahren definiert – Regeln, wie die Alphabet-Zeichen kombiniert sein/werden dürfen. Von den Ersetzungsverfahren gibt es verschiedene Typen: Semi-Thue-Systeme, Chomsky-Grammatiken, Lindenmayer-Systeme u. a. Bei solchen Ersetzungsverfahren geht man beispielsweise von einer spezifischen Start-Zeichenkette aus, die man durch wiederholte („rekursive“) Anwendung der Regeln (Text-Ersetzungen) schrittweise in Wortgebilde überführt, die dann als ganzes, oder nur ein vorgegebener Abschnitt davon, als Wörter der Sprache gelten. Man redet hier auch von generativen Grammatiken, weil die Wörter einer Sprache über solche Textsubstitutionen schrittweise erzeugt werden. Umgekehrt kann man Sprachen auch definieren als die Menge aller Wörter, aus denen (über das Ersetzungsverfahren der Sprache) ein bestimmtes vorgegebenes Wort oder eines von mehreren vorgegebenen Wörtern erzeugbar ist. („Es gehört alles zur Sprache, was sich über die Regeln auf … zurückführen lässt.“)

Abgrenzung von natürlichen Sprachen

Mit Hilfe formaler Sprachen können auch natürliche Sprachen modelliert werden, vor allem deren Syntax. Beim Vergleich formaler Sprachen mit natürlichen Sprachen ist aber zu beachten, dass natürliche Sprachen oberhalb der elementaren Laut-Zeichen mindestens die zwei übereinander liegenden Hierarchieebenen des Wortes und des Satzes besitzen. Die Regeln für deren Aufbau trennt man gewöhnlich in Morphologie zum einen und in Syntax zum anderen. In formalen Sprachen dagegen liegt über dem elementaren Alphabet-Zeichen oft nur die eine Hierarchieebene des formalen Wortes, man redet im Hinblick auf den Bau der Wörter formalsprachlich von Syntax. Wenn eine natürliche Sprache mittels einer formalen modelliert wird, dann werden also die Sätze der natürlichen Sprache in formalsprachlicher Betrachtung Wörter genannt.

Beispiele

Die Programmiersprache C ist eine formale Sprache. Die Wörter von C sind die jeweiligen Programme. Das Alphabet von C sind die Schlüsselwörter und Zeichen, die in der Definition von C festgelegt sind.
Die natürlichen Zahlen in unärer Darstellung: $\mathbb {N} _{\rm {un}}:=\{\varepsilon ,1,11,111,1111,\ldots \}$
Die unäre Sprache über $\{a\}$ , die nur Wörter quadratischer Länge enthält: ${\rm {quad\_count}}:=\{a^{(n^{2})}\mid n\in \mathbb {N} \}$
Die Sprache, die $n$ $a$ s gefolgt von $n$ $b$ s enthält: ${\rm {count}}_{2}:=\{a^{n}b^{n}\mid n\in \mathbb {N} \}$
Die Sprache, die $n$ $a$ s gefolgt von $n$ $b$ s gefolgt von $n$ $c$ s enthält: ${\rm {count}}_{3}:=\{a^{n}b^{n}c^{n}\mid n\in \mathbb {N} \}$
Die Sprache aller Palindrome: ${\rm {pal}}:=\{w\in \{0,1\}^{*}\mid w=w^{R}\}$ , wobei $w^{R}$ die Spiegelung des Wortes $w$ ist.
Die Dezimalkodierung der Primzahlen: ${\rm {prim}}_{\rm {dec}}:=\{{\rm {dec}}(p)\mid p\in {\rm {PRIM}}\}$ .
Hierbei bezeichnet ${\rm {dec}}\colon \mathbb {N} \rightarrow \{0,1,2,3,4,5,6,7,8,9\}^{*}$ die Kodierung der natürlichen Zahlen im Dezimalsystem und PRIM steht für die Menge der Primzahlen.
Die Morse- oder Thue-Folge: ${\rm {thue}}:=\{h_{t}^{n}(0)\mid n\in \mathbb {N} \}$ ,
wobei $h_{t}$ ein Homomorphismus ist, der folgendermaßen definiert ist: $h_{t}(\varepsilon )=\varepsilon$ und $h_{t}(w0):=h_{t}(w)01$ , $h_{t}(w1):=h_{t}(w)10$ .
Somit sind die ersten Elemente der Thue-Folge: 0, 01, 0110, 01101001, 0110100110010110 …

Operationen auf formalen Sprachen

Zwei Sprachen $L_{1}$ über dem Alphabet $\Sigma _{1}$ und $L_{2}$ über dem Alphabet $\Sigma _{2}$ sind banalerweise beide Sprachen auch über $\Sigma _{1}\cup \Sigma _{2}$ , also Mengen von Wörtern aus $(\Sigma _{1}\cup \Sigma _{2})^{*}$ . Deshalb sind auch

die Vereinigung $L_{1}\cup L_{2}$
der Durchschnitt $L_{1}\cap L_{2}$
die Differenz $L_{1}\setminus L_{2}$

Sprachen über $\Sigma _{1}\cup \Sigma _{2}$ .

Weitere Operationen auf Sprachen sind:

Konkatenation

Die Konkatenation zweier Sprachen $L_{1}$ und $L_{2}$ ist die Sprache der Wörter, die durch Hintereinanderschreibung (Konkatenation) je eines beliebigen Wortes $u$ aus $L_{1}$ und $v$ aus $L_{2}$ entsteht:

L_{1}\circ L_{2}:=\{uv\mid u\in L_{1},v\in L_{2}\}

.

So sind zum Beispiel die Konkatenationen von verschiedenen Sprachen über dem Alphabet $\Sigma =\{a,\,b\}$ :

\{a\}\circ \{ab\}=\{aab\}

\{a,\,bb\}\circ \{aa,\,b\}=\{aaa,\,ab,\,bbaa,\,bbb\}

\{abb,\,bab\}\circ \{\varepsilon ,\,aab,\,bb\}=\{abb,\,bab,\,abbaab,\,babaab,\,abbbb,\,babbb\}

Das neutrale Element der Konkatenation ist die Sprache, welche nur das leere Wort enthält. So gilt für jede beliebige Sprache $L$ :

L\circ \{\varepsilon \}=\{\varepsilon \}\circ L=L

Das absorbierende Element der Konkatenation ist die leere Sprache, sodass für jede Sprache $L\subseteq \Sigma ^{*}$ gilt:

L\circ \{\}=\{\}\circ L=\{\}

Die Konkatenation von Sprachen ist wie die Konkatenation von Wörtern assoziativ, aber nicht kommutativ. So ist zum Beispiel:

(\{a,\,bab\}\circ \{a,\,b\})\circ \{ab\}=\{a,\,bab\}\circ (\{a,\,b\}\circ \{ab\})=\{aaab,\,abab,\,babaab,\,babbab\}

aber:

\{a,\,bab\}\circ \{a,\,b\}=\{aa,\,ab,\,baba,\,babb\}\not =\{aa,\,abab,\,ba,\,bbab\}=\{a,\,b\}\circ \{a,\,bab\}

Da außerdem die Potenzmenge der Kleeneschen Hülle eines beliebigen Alphabets $\Sigma$ (die gleich der Menge aller Sprachen ist, die aus $\Sigma$ gebildet werden können) abgeschlossen bezüglich Konkatenation ist, bildet sie zusammen mit der Konkatenation als Operator und der Sprache des leeren Wortes als neutrales Element ein Monoid.

Potenz

Die Potenz $L^{n}$ einer Sprache ist die $n$ -fache Konkatenation dieser Sprache mit sich selbst. Sie ist rekursiv definiert mit:

L^{0}:=\{\varepsilon \}

L^{n+1}:=L^{n}\circ L

(für

n\in \mathbb {N} _{0}

)

So sind zum Beispiel:

\lbrace aa,\,abab,\,bbab,\,ba\rbrace ^{0}=\lbrace \varepsilon \rbrace

\lbrace a,\,b\rbrace ^{2}=\lbrace a,\,b\rbrace ^{1}\,\circ \,\lbrace a,\,b\rbrace =(\lbrace a,\,b\rbrace ^{0}\,\circ \,\lbrace a,\,b\rbrace )\,\circ \,\lbrace a,\,b\rbrace =(\lbrace \varepsilon \rbrace \,\circ \,\lbrace a,\,b\rbrace )\,\circ \,\lbrace a,\,b\rbrace =\lbrace aa,\,ab,\,ba,\,bb\rbrace

\lbrace a\rbrace ^{4}=\lbrace a\rbrace \,\circ \,\lbrace a\rbrace \,\circ \,\lbrace a\rbrace \,\circ \,\lbrace a\rbrace =\lbrace aaaa\rbrace

Im Speziellen gilt für jede einelementige, formale Sprache $L=\lbrace w\rbrace$ (mit $w\in \Sigma ^{\ast }$ ) und jedes $n\in \mathbb {N} _{0}$ :

L^{n}=\lbrace w\rbrace ^{n}=\lbrace w^{n}\rbrace

Kleene-*-Abschluss und Kleene-+-Abschluss

Der Kleene-*-Abschluss $L^{*}$ (Kleenesche Hülle, auch Iteration genannt) und der Kleene-+-Abschluss $L^{+}$ (positive Hülle) einer formalen Sprache $L$ sind definiert über die Vereinigung der Potenzsprachen von $L$ :

L^{*}:=\bigcup _{i\in \mathbb {N} _{0}}L^{i}

L^{+}:=\bigcup _{i\in \mathbb {N} }L^{i}

Wichtige formale Sprachklassen

Noam Chomsky hat 1956 eine Hierarchie von formalen Grammatiken aufgestellt, die verschiedene Typen von formalen Sprachen erzeugen.^[1] Diese ist heute unter dem Namen Chomsky-Hierarchie bekannt. Hier wird unterschieden zwischen Typ 0, Typ 1, Typ 2 und Typ 3: Rekursiv aufzählbare, kontextsensitive, kontextfreie bzw. reguläre Sprachen.
Aristid Lindenmayer hat ein Regelsystem vorgeschlagen, in dem Ersetzungsschritte in jedem Schritt an jeder Stelle parallel durchgeführt werden. Diese Systeme heißen Lindenmayer-Systeme.
Mit Semi-Thue-Systemen lassen sich Sprachen festlegen, die aus Startwörtern abgeleitet werden.
Mit Church-Rosser-Systemen werden Sprachen erklärt, deren Wörter sich auf ein Terminalwort reduzieren lassen.
Termersetzungssysteme erzeugen die Menge von Termen, die zu einem Ausgangsterm äquivalent sind.
Verallgemeinerungen von formalen Sprachen erhalten wir mit Graphgrammatiken, mit denen wir Graphsprachen erzeugen können.
Hypergraphgrammatiken erzeugen Hypergraphen, eine Verallgemeinerung von Graphen.

Historisches

Als eine der ersten formalen Sprachen wird Gottlob Freges Begriffsschrift erachtet^[2], eine wie Frege schrieb „Formelsprache des reinen Denkens“. Axel Thues im Jahre 1914^[3] eingeführtes Semi-Thue-System, das verwendet werden kann, um Zeichenketten zu transformieren, hatte ebenfalls Einfluss auf die Entwicklung formaler Grammatiken.

Zitat

Die heutige Grundlagenforschung ist beherrscht

„[…] vom Geist der Mathematik. […] Sie ist durchmathematisiert bis an die äußersten Grenzen dessen, was heute auf Grund einer weit vorgerückten Formalisierungstechnik erreicht werden kann. Das Ziel dieser Forschung ist ein ziemlich hochliegendes Ziel. Es ist die Beherrschung einer möglichst großen Zahl von möglichst tiefliegenden Problemen aus dem Bereich der Grundlagenforschung mit einer Art von Genauigkeit, die als ‚Genauigkeit in den kleinsten Teilen‘ bezeichnet werden kann. […]
Die angestrebte Genauigkeit kann wie in der Mathematik nur durch die Schöpfung von Präzisionssprachen erreicht werden, die angestrebte Genauigkeit in den kleinsten Teilen nur durch die Schöpfung von Präzisionssprachen, deren Genauigkeitsgrad den Genauigkeitsgrad auch der höchstentwickelten mathematischen Präzisionssprache des gegenwärtigen Zeitalters, der Sprache der Mengenlehre und der Sprache der modernen Algebra wesentlich übertrifft. […] Eine solche Präzisionssprache ist eine formalisierte wissenschaftliche Sprache. […] ein Rüstzeug, dessen Leistungsfähigkeit mit dem Auflösungsvermögen eines Elektronenmikroskops verglichen werden kann. […] Leibniz ist der erste gewesen, der Präzisionssprachen von diesem Genauigkeitsgrad gefordert hat.“

– Heinrich Scholz im Jahre 1941: Eine neue Gestalt der Grundlagenforschung^[4]

Heinrich Scholz traf sich 1944 mit Konrad Zuse, der im Zuge seiner Doktorarbeit an seinem Plankalkül arbeitete. Im März 1945 sprach ihm Scholz für die Anwendung seines Logikkalküls seine Anerkennung aus.^[5]

Siehe auch

konstruierte Sprache
Computersprache
Kategorie:Formale Sprache – Auflistung von formalen Sprachen

Anwendungen siehe in:

Literatur

Lars Peter Georgie: Berechenbarkeit, Komplexität, Logik. Vieweg, Braunschweig/Wiesbaden,
- Eine dritte Auflage erschien 1995.
- Englische Ausgabe: Computability, Complexity, Logic. Erschienen in der Reihe: Studies in logic and the foundations of mathematics. North Holland, Amsterdam 1985.

Eine Darstellung der formalen Sprachen im Kontext der Berechenbarkeitstheorie, Logik und Komplexitätstheorie. Stellt hohe Anforderungen an den Leser, liefert dafür tiefe Einblicke.

Michael A. Harrison: Introduction to Formal Language Theory. Erschienen in der Reihe: Series in Computer Science. Addison-Wesley, 1978.

Eine sehr ausführliche und viel gelobte Einführung.

John E. Hopcroft und Jeffrey D. Ullman: Einführung in die Automatentheorie, Formale Sprachen und Komplexitätstheorie. Addison-Wesley, 1988.
- Englisches Original: Introduction to Automata Theory, Languages and Computation. Addison-Wesley, 1979.
- Eine überarbeitete dritte Auflage auf Deutsch erschien 1994 bei der Oldenbourg R. Verlag GmbH. Im Jahr 2004 erschien bei Addison-Wesley eine zweite überarbeitete Auflage.

Das englische Original ist das in der theoretischen Informatik am häufigsten zitierte Buch. Die Beweise sind in älteren deutschen Übersetzungen gelegentlich falsch wiedergegeben. Dieses Buch ist in zahlreiche Sprachen übersetzt worden.

Grzegorz Rozenberg und Arto Salomaa: The Mathematical Theory of L-Systems. Academic Press, New York 1980.

Das ausführlichste Buch über L-Systeme.

Grzegorz Rozenberg und Arto Salomaa (Herausgeber): Handbook of Formal Languages. Volume I-III, Springer, 1997, ISBN 3-540-61486-9.

Eine ausführliche Übersicht über die wichtigsten Gebiete der formalen Sprachen dargestellt jeweils von aktiv in diesem Gebiet arbeitenden Wissenschaftlern.

Arto Salomaa: Formale Sprachen. Springer, 1978.
- Englisches Original: Formal Languages. Academic Press, 1973.
Ingo Wegener: Theoretische Informatik. Teubner, Stuttgart 1993, ISBN 3-519-02123-4.

In der Darstellung der Formalen Sprachen wird stets die Komplexität der formalsprachlichen Konstruktionen mitbehandelt. Diese ist sonst nur in der Originalliteratur zu finden.

U. Hedtstück: Einführung in die Theoretische Informatik – Formale Sprachen und Automatentheorie. Oldenbourg Verlag, München 2000, ISBN 3-486-25515-0.
S. Abramsky, Dov M. Gabbay, T.S.E. Maibaum (eds.): Handbook of logic in computer science. Vol. 5: Logical and algebraic methods. Oxford University Press 2000, ISBN 0-19-853781-6.
Mogens Nielsen, Wolfgang Thomas: Computer Science Logic. Springer 1998, ISBN 3-540-64570-5

Einzelnachweise

↑ Chomsky, Noam (1956). "Three models for the description of language". IRE Transactions on Information Theory (2): 113–124.
↑ Martin Davis (1995). Influences of Mathematical Logic on Computer Science. In Rolf Herken. The universal Turing machine: a half-century survey. Springer. S. 290, ISBN 978-3-211-82637-9.
↑ Ronald V. Book, Friedrich Otto: String-rewriting Systems. Springer, 1993, ISBN 0-387-97965-4, S. 36.
↑ In: Forschungen und Fortschritte Nr. 35/36, Jahrgang 1941, S. 382 ff.
↑ Hartmut Petzold: Moderne Rechenkünstler. Die Industrialisierung der Rechentechnik in Deutschland. C.H. Beck Verlag, München 1992.

[1] Chomsky, Noam (1956). "Three models for the description of language". IRE Transactions on Information Theory (2): 113–124.

[2] Martin Davis (1995). Influences of Mathematical Logic on Computer Science. In Rolf Herken. The universal Turing machine: a half-century survey. Springer. S. 290, ISBN 978-3-211-82637-9.

[3] Ronald V. Book, Friedrich Otto: String-rewriting Systems. Springer, 1993, ISBN 0-387-97965-4, S. 36.

[4] In: Forschungen und Fortschritte Nr. 35/36, Jahrgang 1941, S. 382 ff.

[5] Hartmut Petzold: Moderne Rechenkünstler. Die Industrialisierung der Rechentechnik in Deutschland. C.H. Beck Verlag, München 1992.

[1]

[2]

[3]

[4]

[5]