mardi 12 novembre 2013

Le premier script Bash

Voilà notre tout premier script Bash qui va donner, en résultat, un joli tableau, avec de belles bordures. Cette étape nous permettra de créer un tableau html à 4 colonnes.
Dans la première il y aura la numérotation des URLs, dans la deuxième, les URLs tels quels, dans la troisième, les liens sur les pages aspirées et dans la quatrième, les liens sur les textes bruts du contenu des pages web.
On commence par donner le chemin du fichier à traiter, à condition que le Terminal soit dans le répertoire PROJET, (./URLS/francais.txt) et que celui à créer soit le fichier tableau.html (./TABLEAUX/tableau.html):


echo "<html><head><title>première page</title></head><body>" >$chemin_du_fichier_a_creer; - on rajoute le code html pour créer une page web classique: balises  <html><head><title>...; chevron unique > réexpédie le code directement dans le fichier tableau.html que l'on vient de créer

On introduit une variable i, un compteur pour les URLs.

echo "<table border=\"10\">" >> $chemin_du_fichier_a_creer; - on introduit les paramètres de la page du tableau; doubles chevrons >> pour ne pas écraser le code déjà existant.

Pour traiter chaque URLs de suite, on introduit une boucle for.

Avant d'afficher les résultats des traitements dans le tableau, il faut donner toutes les commandes nécessaires:

wget -O ./PAGES-ASPIREES/$i.html $ligne; - la commande wget nous sert à aspirer les pages web, c'est-à-dire, sauvegarder leur contenu tel quel, avec interface, dans des fichiers html, dans le répertoire PAGES-ASPIREES. Chacun de ces fichiers va prendre pour nom le nombre correspondant à la position de l'URL qui se trouve à la ligne du tableau, sous extension html.
A propos, on y ajoute une nouvelle variable $ligne qui comprend l'adresse-URL.

lynx -dump -nolist $ligne > ./DUMP-TEXT/$i.txt; - avec la commande lynx on saura récupérer le contenu de la page web en texte brut que l'on mettra dans des fichiers txt énumérés dans le répertoire DUMP-TEXT.

let "i=i+1"; - est la commande qui permet de tourner le compteur jusqu'à ce que les URLs finissent.

Il ne reste qu'à fermer notre tableau:
echo "</table>" >> $chemin_du_fichier_a_creer;
echo "</body></html>" >> $chemin_du_fichier_a_creer;






Lançons le script dans le Terminal:


Voyons ce que nous montre le Navigateur:
Joli, n'est-ce pas?! :) Passons maintenant aux problèmes d'encodage...


Aucun commentaire:

Enregistrer un commentaire