Grammaires et algèbre

jeudi 15 juillet 2010
par  Alain BUSSER

Il y a

  • Les papous papas à poux papas ;
  • Les papous papas à poux pas papas ;
  • Les papous pas papas à poux papas ;
  • Les papous pas papas à poux pas papas ;
  • Les papoux papas pas à poux ;
  • Les papous pas papas pas à poux ;

et c’est tout !

Soit un ensemble $V=\left\{a, b, c ... \right\}$ appelé vocabulaire. Les éléments de $V$ sont appelés mots ou caractères. On appelle langage, ou grammaire, un ensemble de chaînes de caractères construites à partir des éléments de $V$.

On note $V^*$ l’ensemble de toutes les chaînes de caractères construites à partir des éléments de $V$. On peut donc dire qu’une grammaire est un sous-ensemble de $V^*$. On dit parfois mot (voir plus bas) pour un élément de $V^*$. En effet, le mot "mot" est plus simple que l’expression "chaîne de caractères"...

Comme $\emptyset \subset V^*$, le plus simple des mots est le mot vide qui s’écrit avec aucun caractère (parfois des caractères spéciaux ou invisibles).

Exemple : Le plus simple des vocabulaires non vides est un singleton comme $V=\left\{1\right\}$. Dans ce cas un mot est une suite de "1" collés l’un derrière l’autre (notation utilisée par une machine de Turing pour représenter les entiers naturels en base 1), et un langage un ensemble de tels objets (par exemple la suite de Fibonacci représentable par machine de Turing sous la forme $\left\{1, 11, 111, 11111, 11111111, 1111111111111, ... \right\}$).

En assimilant les lettres (caractères) d’un mot aux maillons d’une chaîne (la chaîne de caractères : Le mot), l’opération consistant à ouvrir le dernier maillon d’une chaîne A et d’y insérer le premier maillon d’une chaîne B avant de le refermer puis de le ressouder, et qui aboutit à une chaîne plus longue, équivaut ici à l’opération linguistique d’agglutination de mots.

Avant

Après

Pour cette raison, l’opération qui, à deux mots, associe celui qu’on obtient en collant le second après le premier, est appelée concaténation (du latin catena, chaîne). Deux exemples dans la langue malgache (qui est agglutinante et se base donc sur la concaténation pour fabriquer ses mots) :

  1. à partir de Vola (monnaie) et mena (rouge) on obtient par concaténation Volamena (l’or) ;
  2. à partir de Zaza (enfant) et kely (petit) on obtient par concaténation Zazakely (gamin).

Dans Scratch 1.4, la concaténation est appelée "jonction" :

La concaténation vue comme opération algébrique, vérifie 2 des 3 axiomes d’un groupe :

  • Le mot vide est élément neutre (on ne change pas un mot en lui concaténant du rien) ;
  • Elle est associative (par exemple à partir de Volamena (l’or, mot qui est lui-même obtenu par concaténation) et kely (petit) la langue malgache a formé le mot Volamenakely qui bizarrement ne désigne pas une pépite d’or mais une variété de riz...)

Une structure algébrique ayant ces propriétés s’appelle un monoïde.


Langues

La concaténation intervient à plusieurs niveaux dans les langues naturelles :

  1. En concaténant des lettres on obtient des mots. D’où le nom d’alphabet donné à $V$. Dans ce cas la concaténation est représentée par une absence de caractère.
  2. En concaténant des mots on obtient des phrases. D’où le nom de vocabulaire donné à $V$. Dans ce cas la concaténation est représentée par le caractère d’espace.
  3. En concaténant des phrases on obtient des paragraphes. Dans ce cas la concaténation est représentée par des signes de ponctuation comme le point.
  4. En concaténant des paragraphes on obtient des textes, et la concaténation est représentée par des retours à la ligne...

À partir de l’alphabet latin, on peut former par concaténation des 26 lettres beaucoup plus de mots que ceux de la langue latine, par exemple "bacrthf" et "zsxckfr" sont des mots qui ne semblent exister dans aucune langue connue. Un langage est donc un sous-ensemble de $V$ qui peut être décrit

  • par une description (liste des propriétés d’un mot qui font qu’il est accepté dans le langage)
  • par un procédé de construction du langage ; on parle alors de grammaire générative et transformationnelle.
  • par un algorithme permettant de savoir, un mot étant donné, s’il appartient ou non au langage. La classification de Chomsky est basée sur la complexité de ces algorithmes.

Le passage du français à l’argot "javanais" peut être considéré comme une règle de réécriture d’une grammaire transformationnelle. Ainsi "javanais" devient "javavavanaivais" dans cet argot imité par Bobby Lapointe dans "Aragon et Castille"...

Le fait que la concaténation n’est pas commutative permet l’existence d’anagrammes et de palindromes.


Commentaires