Pour montrer aux élèves que la statistique n’a pas été inventée uniquement pour les embêter, rien de mieux que l’algorithme d’al-Kindi, qui utilise la répartition statistique des lettres pour décoder un message.
Le TP a été présenté comme un exemple de fonction non numérique (ou application (mathématiques)), avec la question posée en distribuant les sujets : « On considère une fonction dont les antécédents et les images sont des lettres au lieu de nombres ; qu’est-ce que ça donne si on l’applique à des mots ? ». Réponse : « Des autres mots » ; prolongement : De la cryptographie ! Et comme Python a déjà servi à manipuler des ensembles, autant le garder pour formaliser des fonctions entre ensembles (finis), qui dans le langage de Python s’appellent des dictionnaires (ou « tableaux associatifs » dans d’autres langages de programmation).
Bien entendu, pour que les élèves puissent décrypter un message, il faut déjà que celui-ci soit crypté ! Pour éviter les risques d’erreur quand on crypte à la main, j’ai choisi un chiffre affine, et plus précisément un chiffre de Cesar, et encore plus particulièrement l’algorithme ROT13. Et bien entendu, le chiffrage a été fait en Python, avec l’algorithme suivant :
Récupérer le message à coder, en l’occurence un poème mathématique [1] stocké dans un fichier appelé texte1.txt et transposé en majuscules avec un éditeur de texte.
lire le message à coder qui est dans le fichier ;
fermer le fichier (pour ne pas risquer d’oublier cette étape par la suite)
créer un message à envoyer, initialement vide
pour chaque lettre x du message,
soustraire 65 (valeur du « a ») à son code ASCII (un entier)
si cette valeur est positive (c’est-à-dire si x est une vraie lettre), lui additionner 13 modulo 26
additionner à nouveau 65 pour avoir à nouveau une lettre affichable ;
ajouter la lettre codée (par concaténation) au message à envoyer ;
ouvrir un fichier de sortie (ici appelé texte2.txt)
entree=open('texte1.txt','r')
message=entree.read()
entree.close()
envoi=''
for x in message:
lettre=ord(x)-65
if lettre>=0:
lettre=(lettre+13)%26
lettre+=65
envoi+=chr(lettre)
sortie=open('texte2.txt','w')
sortie.write(envoi)
sortie.close()
Un bug (informatique) est apparu inopinément : J’avais oublié de mettre le « = » dans le test ce qui a eu pour effet que deux lettres différentes se codaient par « A » (en fait le « A » ne se codait pas). Ceci a au moins permis de rappeler qu’en général, une lettre peut avoir plusieurs antécédents [2]. Ceci dit la difficulté supplémentaire introduite par ce biais a été en général vécue comme un défi à relever...
La très impressionnante concision de Python est mise en brèche pour qui connaît l’algorithme de cryptage, celui-ci étant très rapidement mis en œuvre par le langage bash :
#! /bin/bash
cat texte1.txt | tr 'A-Z' 'N-ZA-M'
(la commande cat (Unix) affiche le contenu d’un fichier, ici celui à coder ; le tuyau (trait vertical) branché entre cat et tr a pour effet que l’affichage ne se fait pas dans la console, mais qu’il sert d’entrée à tr ; la commande tr (Unix) justement transpose les lettres de A à Z en les lettres de N à Z puis de A à M).
Le message à décrypter était celui-ci :
YR PNEER QR Y ULCBGRAHFR
RFG RTNY FV WR AR Z NOHFR
N YN FBZZR QRF PNEERF
QRF QRHK NHGERF PBGRF
L’algorithme d’al Kindi, ou analyse fréquentielle, est un cas particulier de l’inférence bayésienne : On compare les fréquences d’apparition des lettres dans le message et dans la langue française, et on identifie les lettres les plus fréquentes entre elles (on choisit celle qui offre un maximum de vraisemblance). Ceci dit, cela ne fonctionne qu’avec les lettres les plus fréquentes, le « i » par exemple étant anormalement rare dans le message d’origine. Le fait que les fréquences des lettres dans l’échantillon ne coïncident pas exactement avec celles des lettres dans la langue française en général illustre bien la notion de fluctuation d’échantillonnage, à laquelle les élèves ne sont pas spontanément sensibilisés. Pour réduire la fluctuation d’échantillonnage, on doit s’assurer
que l’échantillon (le message à décoder) soit suffisamment grand ;
que son style soit suffisamment typique de la langue française (d’où l’allusion à La Disparition (roman) en fin de sujet).
De ces solutions, la deuxième est la plus perceptible par les élèves.
Voici le sujet du TP (on remarquera que Python n’est utilisé que pour compter, et n’est donc absolument pas nécessaire pour ce TP, le comptage pouvant être fait de bien d’autres manières) :
Déroulement du TP
L’un des élèves a demandé s’il pouvait soumettre le message codé à Google, et a obtenu ceci :
Aucun document ne correspond aux termes de recherche spécifiés (YR PNEER QR Y ULCBGRAHFR RFG RTNY FV WR AR Z NOHFR N YN FBZZR QRF ...).
En fait, l’article wikipedia sur l’analyse fréquentielle comprend un script en Python, qui, une fois qu’on lui soumet le message du TP, le décrypte sans aucune erreur !
Et évidemment, tout élève qui aurait deviné l’algorithme de cryptage aurait pu utiliser le décodeur en ligne de l’algorithme (en php).
Un des élèves, visiblement herpétophobe, a utilisé la fonction de recherche d’un éditeur de texte pour se faciliter le comptage (mais cela ne l’a pas empêché de se tromper en comptant une des lettres). De façon générale, le comptage à la main engendre plus d’erreurs que la recopie du texte crypté dans le script Python.
Le premier mot a souvent été trouvé, ainsi que le premier mot du second vers. Surprenamment, le second mot du second vers, bien que l’algorithme d’al Kindi en fournisse trois lettres sur 4, n’a pas souvent été trouvé. Les élèves qui ont fini de décoder le message ont en général deviné le second ou le dernier mot du premier vers, qui les a très rapidement mis sur la voie de la suite...
Un des élèves a essayé de construire un dictionnaire Python pour réaliser le décryptage. Plusieurs autres ont utilisé l’éditeur IDLE de Python comme brouillon. Un autre a utilisé les couleurs dans un traitement de texte pour faire l’exercice (l’original en haut, colorié pour le comptage, le message décodé en bas, la partie déjà décodée en blanc) :
De manière générale, la statistique a aidé le décryptage au début, l’obstacle ayant suivi étant de nature essentiellement linguistique (manque de vocabulaire, méconnaissance de l’orthographe ...).
Comme exemple de fonction définie sur un ensemble fini, on peut considérer les valeurs hors-atout des cartes à la belote, qui définissent sur une carte prélevée au hasard, une variable aléatoire. On peut définir la variable aléatoire comme ce dictionnaire :
Dans un site très personnel, Olivier Sicard nous offres quelques « délires » de mathématiques, algorithmique et programmation. Entre autres pépites, on découvrira le Rubix-Tore, la loi normale asymétrique, la théorie du choix social et le dessin à l’aide des séries de Fourier.
Après Elwyn Berlekamp l’année dernière, c’est au tour du centenaire Richard Guy et de l’immense John Conway. Ce document de Richard Guy (une mise en garde contre le raisonnement inductif) montre bien le style unique de son auteur, en plus d’être une mine de ressources pour des exercices. Conway, outre son jeu de la vie, a créé des dizaines de jeux, dont Sprouts, très populaire dès le CP.
On sait bien que Nicolas Bourbaki n’était pas le nom d’une personne mais le pseudonyme d’un groupe. L’équivalent en informatique théorique est Claude Livercy, auteur de la théorie des programmes. Roger Mohr était un des membres de Claude Livercy.
Quand les chercheurs mettent au point des modèles d’optimisation et de recherche de plus court chemin qui s’inspirent du comportement de masse de colonies de fourmis...
À écouter : Sur les Épaules de Darwin, émission diffusée sur France Inter samedi 31 août 2013.
Les RMLLd se dérouleront pour la 2e fois à Saint-Joseph du 22 au 25 août.
C’est une opportunité pour les élèves qui suivent la spécialité ISN et les passionnés d’informatique.
Commentaires