Prise en main du logiciel SPAD




Système Pour l'Analyse des Données
SPAD est un produit de DECISIA:
Pour plus de renseignements, voir le site de DECISIA:
http://www.decisia.com


Sommaire


  • 1. Présentation du logiciel
  • 2. Principes généraux de fonctionnement
  • 3. Gestion des données : les bases
  • 4. Gestion des analyses : les filières
  • 5. Gestion des résultats
  • 6. L'éditeur de graphique interne
  • 7. Ouvrages de références et liens


  • 1. Présentation du logiciel


    Le logiciel SPAD (Système Pour l’Analyse des Données) est développé par le CISIA (Centre International de Statistique et d’Informatique Appliquées). Il s’agit d’un logiciel essentiellement tourné vers l’analyse des données et le data mining. A cet effet, SPAD dispose d’une panoplie d’outils assez large :

  • Des outils de description des données
          Caractérisation des données qualitatives, quantitatives, de typologies
          Description statistique des variables
          Caractérisation des axes factoriels
          Tableaux croisés

  • Des outils d’analyses factorielles
          Analyse en composantes principales
          Analyse des correspondances binaires
          Analyse des correspondances multiples

  • Des outils de classification
          Classification hiérarchique directe
          Partition par coupure de l’arbre de classification
          Optimisation des partitions
          Calcul des " parangons " caractéristiques des classes



    2. Principes généraux de fonctionnement


    Existant depuis les années 70, le logiciel SPAD en est actuellement à la version 3.5 sous Windows. En outre, le programme est enrichi par des interfaces avec les logiciels Excel pour l'entrée des données et l'édition des résultats, SPSS et SAS pour les données.

    SPAD est un logiciel modulaire : c’est à dire qu’il intègre différents sous-programmes (ou modules) spécifiques. On retrouve l’existence de ces modules dans l’interface du logiciel.
    Dans SPAD, on distinguera trois ensembles du logiciel, chargés des taches respectives suivantes :

    SPAD différencie les données externes qu’apporte l’utilisateur (qui peuvent être dans un format libre) des données internes, une fois importées, que l’on appelle la base numérique ou plus simplement la base.

    Une analyse est considérée comme une suite de procédures à mettre en œuvre, laquelle suite est appelée filière.

    Les résultats sont sous la forme de texte (caractérisation des axes, résultats de la procédure, par ex.), ou de graphiques, qui sont gérés en format interne ou image.


    3. Gestion des données : les bases



    a) Principes de la base

    Une base est le nom donné à un ensemble de fichiers correspondants à un jeu de données que l’on veut traiter avec SPAD. Une base se divise en trois éléments:

    L’existence de ces trois ensembles disctincts est transparente pour l’utilisateur, puisque l’on manipule l’ensemble sous la forme de la base.



    b) Illustration de l’utilisation de la base

    5 individus dont on mesure la taille répondent à une question.

    Par convention, on place toujours les individus en ligne et les variables en colonne.

    On codera : Sexe=1 pour un homme, Sexe=2 pour une femme. Les réponses à la question sont codées 1 pour "Oui", 2 pour "Non" et 3 pour "Ne se prononce pas". On regroupe alors les données dans le tableau suivant :

    Figure I : Illustration des dictionnaires d’une base.

    Le dictionnaire des variables regroupe les 3 libellés (sexe, Taille, Question 1), et le type de chaque variable : la variable Sexe est nominale (à deux modalités), la variable Taille est numérique, et la variable Question 1 est nominale (3 réponse possibles).

    Le dictionnaire des individus regroupe les 5 prénoms, libellés des individus (au sens statistique) sur lesquels portent l’enquête (aussi appelés identificateurs). Il s’agit de la description de la première colonne du tableau.

    Enfin, le fichier des données en lui-même regroupe l’ensemble des informations numériques.

    Il est à noter que tout tableau de données doit respecter ce format rectangulaire, que SPAD ne travaille en interne qu’avec des valeurs numériques (et n’accepte pas des lettres ou autres codages). De plus, idéalement, il ne doit pas y avoir de " trou " dans le tableau, lesquels seraient des données manquantes. Au format interne, SPAD remplace les valeurs manquantes par une valeur numérique particulière (0 pour les variables nominales, "TEST" pour les continues).



    c) Création d’une base

    L’utilisateur a plusieurs possibilités pour créer une base : soit il entre les données directement dans SPAD, ce qui assure le bon format des données, soit il importe ces dernières dans SPAD. L’importation de données venant de SAS est intégrée en automatique dans la version 3.5 de SPAD. Si le fichier de données est dans un format libre (texte avec séparateur, par exemple), il faudra passer par le module intégré d’importation des données (menu Base… Importer è Importation texte…). L’étape d’importation des données sert en fait à créer les trois fichiers de la base, et nécessite de créer le dictionnaire des variables. Il faudra donc spécifier le type de chacune des variables.

    Si l’on reprend l’exemple du questionnaire, la phase d’importation des données au format texte aura la forme :


    Figure II : écran de SPAD lors de l’importation de données.

    Des données au format texte (bas de l’écran), on va créer une base interne (exécuter) avec les conditions apparaissant en haut (variable question nominale etc.)



    4. Gestion des analyses : les filières


    a) L’origine des filières

    Dans SPAD, tout traitement à effectuer sur une base est réalisé par procédures.

    Une analyse des correspondances fera appel à la suite de procédures suivantes : on commence par un appel à la procédure TABLE, qui sert à croiser deux variables nominales pour créer un tableau de contingence. Une fois ce tableau créé, le résultat est utilisé par la procédure SELEC qui sert à sélectionner les lignes et colonnes actives ou illustratives du tableau. Cette sélection est une phase obligatoire pour faire un appel à la procédure CORBI, qui est la commande qui effectue réellement l’analyse des correspondances. Enfin, le résultat de cette dernière peut être exploité sous la forme d’un graphique grâce à la procédure GRAPH.

    Une analyse des correspondances nécessite un minimum de 4 procédures. Cependant, chaque procédure doit elle-même faire appel à deux procédures servant à lire les données d’entrée et à créer les données de sortie. Et le nombre de procédures à enchaîner devient très vite assez grand. C’est la suite ordonnée des procédures à utiliser lors de l’analyse que l’on appelle filière.

    Depuis la version sous Windows, l’utilisateur peut manipuler les filières depuis une interface graphique. L’éditeur de filières est une fenêtre de SPAD où chaque procédure apparaît comme un carré, et où l’on détermine l’enchaînement des procédures en empilant les carrés.


    Figure III : exemple de filière : analyse des correspondances.

    A la base nommée ‘exemple’ , on appliquera deux procédures : une analyse des correspondances simples, ainsi qu’une description des axes factoriels engendrés par cette analyse. Cette filière est sauvegardée sous le nom COR_BI.FIL (extension FIL pour les filières) et porte l’intitulé ‘Exemple : analyse des correspondances’.

    Dès que l’on effectue une analyse des correspondances, on doit indiquer les variables qui seront actives, celles qui seront illustratives, les individus actifs, éventuellement la pondération utilisée etc. Dans les anciennes versions de SPAD, l’utilisateur devait régler ces paramètres en utilisant la procédure SELEC. Maintenant, ces réglages se font en réglant les paramètres de la procédure CORBI. L’accès aux paramètres d’une procédure, quand il y en a, se fait par un double-clic sur le carré correspondant dans la filière (ou un clic du bouton droit).

    Certaines procédures nécessitent des paramètres. C’est le cas notamment de la procédure CORBI. Une procédure qui a été paramétrée apparaît en jaune dans la filière, alors qu’elle est en gris lorsque l’utilisateur n’a pas encore fourni les paramètres nécessaires.

    b) Les filières prédéfinies

    Bien souvent, l’utilisateur a à effectuer la même suite d’opérations sur plusieurs jeux de données différentes. Soit dans SPAD : utiliser la même filière, appliquée à des bases différentes. C’est le rôle des filières prédéfinies (ou modèle de filière). Il est ainsi possible de créer une filière et de la sauvegarder en modèle, de telle sorte que l’on puisse la réutiliser plus tard sur n’importe quelle base.

    De plus, le logiciel dispose d’un ensemble de filières prédéfinies correspondant aux grandes méthodes statistiques les plus utilisées : tableaux croisés, analyse en composantes principales suivie d’une classification, etc.

    A titre indicatif, voici une filière entière paramétrée, qui a été exécutée :

    Figure IV : filière paramétrée et exécutée.


    5. Gestion des résultats


    Une fois la filière exécutée, chaque procédure constituant la filière fournit un ou des résultats. Ces derniers sont représentés par des icônes qui se rajoutent sur la droite de l’icône représentant la procédure dans la filière. On distingue plusieurs icônes différentes :

    Icône correspondant à un résultat sous forme de texte.

    Il s’agit du compte-rendu de la procédure (SPAD signale à l’utilisateur si l’appel à la procédure a échoué) et des résultats mis sous forme de tableaux en mode texte.
    Graphique issu d’une analyse factorielle.

    Les graphiques sont visualisés et édités dans le module éditeur de graphique intégré à SPAD
    Graphiques hiérarchiques d’une classification

    Ces graphiques sont visualisés et édités dans l’éditeur de graphique hiérarchique.
    Galerie de graphiques

    Il s’agit d’un module particulièrement puissant de SPAD, qui propose un accès instantané à n’importe quel graphique factoriel (visualisation des aperçus des croisements de chaque axe factoriel).
    Liaison avec une application externe (Excel)

    SPAD dispose d’un lien avec une application externe (le tableur EXCEL par défaut), ce qui permet de récupérer dans cette application les résultats des tris à plats et d’autres procédures
    Figure V : Explication de l’affichage graphique des résultats.



    a) Les résultats sous forme de texte

    La plupart des procédures sous SPAD ont une sortie sous forme texte. Les sorties en mode texte sont principalement de deux type : les résultats et les comptes rendus. On peut les visualiser en cliquant du bouton droit sur l’icône appropriée (voir tableau IV) et en choisissant dans le menu déroulant l’item à visualiser. Le texte correspondant est alors chargé dans l’éditeur de résultat incorporé dans SPAD.

    Le compte rendu donne l’enchaînement des procédures internes appelées, de telle sorte que l’on sait où précisément se situe le problème si la filière ne s’exécute pas correctement. Pour une demande d’A.C.P., par exemple, le compte rendu intégrera les procédures LBASE (lecture du fichier de base), SELEC (sélection des individus et variables actifs), COPRI (analyse en composantes principales) et ECGUS (écriture du fichier graphique factoriel).

    Les sorties plus classiques sont rassemblées dans le rapport des résultats. Toujours pour une analyse en composantes principales, on trouvera dans les résultats la matrice de corrélation, un rappel des statistiques de base de chaque variable (moyenne, minimum, maximum, effectif), le diagramme des valeurs propres ainsi que les coordonnées sur les 5 premiers axes.

    b) La liaison Excel

    Il est possible de récupérer les tris à plats et tris croisés effectués sous SPAD directement dans le tableur EXCEL. Pour tout résultat ainsi incorporable dans EXCEL, SPAD fait apparaître à la suite de la ligne des résultat une icône EXCEL (voit tableau IV). Un double-clic sur cette dernière lance alors le programme EXCEL et/ou charge une nouvelle feuille avec le résultat.



    6. L’éditeur de graphique interne


    Le logiciel SPAD intégre un éditeur de graphique extrêmement puissant pour la manipulation de grosses données. Ce dernier est doté d’un menu ainsi que d’une barre d’icônes où figurent les fonctions les plus souvent utilisées. Ces dernières sont :



    Figure IX: barre d’outils de l’éditeur de graphique de SPAD.

    D’autre part, le logiciel SPAD est bien pourvu en outils de sélection des points (menu Sélection). Il permet ainsi de sélectionner les points:

     

    Enfin, les options d’affichage des points (menu affichage) qui s’appliquent sur une sélection, sont elles aussi nombreuses :



    7. Ouvrages de référence et liens


    Ouvrages de référence
  • Lambert T., Lebart L., Morineau A., Pleuvret P. (1996) - Manuel de référence de SPAD. CISIA-CERESTA, Saint-Mandé.
  • Lebart L., Morineau A., Piron M. (1995) - Statistique exploratoire multidimensionnelle. Dunod, Paris


  • Liens
  • DECISIA
  • Méthodes statistiques multifactorielles : présentation générale de l'Analyse en Composantes Principales (ACP)


  • Page réalisée par Eric Lecoutre - Contact : lecoutre@stat.ucl.ac.be - Mai 1998