mardi 12 novembre 2013

Le premier script Bash

Voilà notre tout premier script Bash qui va donner, en résultat, un joli tableau, avec de belles bordures. Cette étape nous permettra de créer un tableau html à 4 colonnes.
Dans la première il y aura la numérotation des URLs, dans la deuxième, les URLs tels quels, dans la troisième, les liens sur les pages aspirées et dans la quatrième, les liens sur les textes bruts du contenu des pages web.
On commence par donner le chemin du fichier à traiter, à condition que le Terminal soit dans le répertoire PROJET, (./URLS/francais.txt) et que celui à créer soit le fichier tableau.html (./TABLEAUX/tableau.html):


echo "<html><head><title>première page</title></head><body>" >$chemin_du_fichier_a_creer; - on rajoute le code html pour créer une page web classique: balises  <html><head><title>...; chevron unique > réexpédie le code directement dans le fichier tableau.html que l'on vient de créer

On introduit une variable i, un compteur pour les URLs.

echo "<table border=\"10\">" >> $chemin_du_fichier_a_creer; - on introduit les paramètres de la page du tableau; doubles chevrons >> pour ne pas écraser le code déjà existant.

Pour traiter chaque URLs de suite, on introduit une boucle for.

Avant d'afficher les résultats des traitements dans le tableau, il faut donner toutes les commandes nécessaires:

wget -O ./PAGES-ASPIREES/$i.html $ligne; - la commande wget nous sert à aspirer les pages web, c'est-à-dire, sauvegarder leur contenu tel quel, avec interface, dans des fichiers html, dans le répertoire PAGES-ASPIREES. Chacun de ces fichiers va prendre pour nom le nombre correspondant à la position de l'URL qui se trouve à la ligne du tableau, sous extension html.
A propos, on y ajoute une nouvelle variable $ligne qui comprend l'adresse-URL.

lynx -dump -nolist $ligne > ./DUMP-TEXT/$i.txt; - avec la commande lynx on saura récupérer le contenu de la page web en texte brut que l'on mettra dans des fichiers txt énumérés dans le répertoire DUMP-TEXT.

let "i=i+1"; - est la commande qui permet de tourner le compteur jusqu'à ce que les URLs finissent.

Il ne reste qu'à fermer notre tableau:
echo "</table>" >> $chemin_du_fichier_a_creer;
echo "</body></html>" >> $chemin_du_fichier_a_creer;






Lançons le script dans le Terminal:


Voyons ce que nous montre le Navigateur:
Joli, n'est-ce pas?! :) Passons maintenant aux problèmes d'encodage...


A la recherche des URLs...

La première étape est la collecte des URLs. Pour cela on s'est mis à la recherche de nos 300 URLs sur Internet. Pour trouver nos 300 URLs, la méthode de recherche est simple: on met le mot-clé "effet placebo" (en 6 langues) dans le moteur de recherche Google, une fois le résultat trouvé, on stocke dans un fichier txt les liens des pages avec l'occurrence du mot "placebo".
En fait, si on ne tape que le mot "placebo" tout seul, le résultat se porte uniquement sur les pages web du groupe musical :), c'est pourquoi on cherchera "effet placebo".
Finalement, on obtient 6 fichiers avec 300 URLs dedans: francais.txt, anglais.txt, russe.txt, arabe.txt, espagnol.txt et italien.txt.

Thématique

Le choix d'une thématique était une étape importante et pas vraiment facile. On a proposé des idées différentes: le mot polysémique "si", la notion du temps dans la langue, la situation en Syrie vue par la presse internationale, mais rien ne nous parlait vraiment.
Après plusieurs discussions, nous nous sommes arrêtées sur le sujet effet placebo, inspiré par Monsieur Jean-Michel Daube qui parlait dans un de nos cours de son projet de traitement d'un corpus médical.
L'effet placebo est vivement discuté dans les médias, en plus, c'est une condition indispensable dans les essais cliniques d'un nouveau médicament. L'histoire connaît pas mal de cas miraculeux d'effet placebo.
Fouillons dans les opinions des gens et peut-être que nous trouverons quelque chose d'intéressant!
Thématique: Les "pour" et "contre" de l'effet placebo dans les sources médicales françaises, anglaises, russes, arabes, italiennes et espagnoles.

Placebo
"Substance inerte donnée à la place d'un médicament, ayant un effet psychologique sur le patient".
Wikipédia 



Bienvenue sur notre blog!

Ce blog est consacré à la vie multilingue des mots sur le web.

Dans le cadre du cours "Programmation et Projet Encadré", notre objectif est d'apprendre à maîtriser les bases de la programmation et d'effectuer un traitement semi-automatique d'un corpus.
Nous commencerons par construire ce corpus à partir d'une liste d'URLs sélectionnés en anglais, français, arabe, russe, italien et espagnol (50 URLs par langue).

A la fin d'un certain nombre d'étapes, nous construirons un site Internet qui comprendra un tableau représentant les différentes phases que notre projet aura connues. 

Ce blog sera le journal de travail des étudiantes Antoinette PERRY (Université Paris III Sorbonne Nouvelle), Anastasia FOMINA (Université Paris III Sorbonne Nouvelle) et Zakia HAFRAD (Université Paris X Ouest Nanterre).