Attention :
Pour réaliser facilement cet exercice, il faut avoir assimilé les notions d'importation de la leçon précédente.
Il consiste à mettre en forme dans le tableur les données de fichiers récupérés sur des bases de données de l'UCI Repository.
1) Récupérer sur UCI repository (http://archive.ics.uci.edu/ml/datasets.html) les données « Adult » sous la forme de deux fichiers adult.data et adult.names (en cas de difficulté, ils ont été recopiés sur le serveur). Les sauvegarder sur votre disque dur. Observez leur contenu en utilisant un éditeur de textes comme WordPad ou NotePad++ (Fig 2.7). Il y a 32561 lignes écrites dans le premier et 110 dans le second.
Télécharger l'archive (au format zip) contenant les fichiers adult.data et adult.names
Conseil :
Si vous ne disposez pas de NotePad++ sur votre machine, il serait bien de le télécharger. Il dispose de nombreuses fonctionnalités intéressantes, comme celle bien utile d'afficher les caractères « non affichables » qui pourraient perturber le fonctionnement du tableur. On voit ici l'affichage de « LF » qui indique la fin de ligne dans les systèmes de type Unix. Il a des fonctions de recherche très perfectionnées (utilisant les expressions régulières)
2) Importez le premier dans le tableur (choisissez bien le séparateur de colonnes). Vous devez obtenir 15 colonnes et 32561 lignes de données qui contiennent des textes et des nombres.
3) Importez le second dans le tableur afin de n'avoir que les noms des variables et la liste de leurs modalités.
Aide :
4) Sauvegardez le fichier contenant ces deux feuilles renommées respectivement « data » et « names » au format tableur par défaut (adult.xls ou adult.ods ou ...).
5) Sélectionner les 14 cellules de la feuille names (en les balayant à la souris, clic-gauche enfoncé)), les copier, puis sélectionner la cellule A16 et les coller en les transposant (par Edition>Collage-spécial). Puis sélectionner la ligne 16 qui contient maintenant les intitulés de colonnes et l'insérer en première ligne de la feuille data. Vérifiez bien que vous n'avez pas « écrasé » la première ligne de données. Le résultat doit être celui de la figure 2.12.