Journées d'Études en Statistique 2016

Cette page rassemble le matériel disponible pour les Journées d’Études en Statistique organisées du 2 au 7 octobre 2016 par la Société Française de Statistique. Ce matériel est organisé selon les différentes sessions de la formation :

En complément des présentations, il serait intéressant/profitable/utile de pratiquer par vous-même les méthodes et algorithmes qui seront abordés. Il vous suffit pour cela d’apporter votre ordinateur portable en prenant soin d’y installer quelques ressources logicielles au préalable car la liaison wifi du lieu n’autorise pas une bonne bande passante.

Deux environnements logiciels sont privilégiés :

  • R qui se charge très facilement pour tout système d'exploitation : https://cran.r-project.org
  • Python 2.7 Dont l'installation est un peu plus complexe, surtout sur Windows, mais la partie « libre accès » de la distribution Anaconda permet une installation sans difficulté particulière de tous les packages indispensables dont pandas, scikit-learn.
    Cette distribution inclut le Notebook Ipython qui permet, comme Rmarkdown, d'exécuter des scripts python à partir d'un simple navigateur (firefox, chrome) et d'intégrer codes et résultats dans un même fichier document à produire aux formats ipynb, html ou pdf.

Pour faciliter la compilation de documents au format RMarkdown (cours sur l’apprentissage connexionniste), l’environnement de travail RStudio peut également être installé :

   

Installer RStudio

RStudio version 0.99.902 sera utilisé (2016-05-14).
RStudio (Desktop version) peut être téléchargé gratuitement sur cette page. Choisissez votre version (en préférant « Installers ») en fonction de votre OS (Windows, Linux or Mac). Les utilisateurs Ubuntu (ou Debian) peuvent installer le fichier .deb avec
sudo dpkg -i rstudio-0.99.902-amd64.deb
sudo apt-get install -f

« Une brève histoire de l'apprentissage »

Le lecteur intéressé trouvera à ce lien la plupart des articles fondateurs du domaine qui sont cités dans ce cours. Le diaporama d’accompagnement, en particulier, est téléchargeable avec les autres documents.

« Fondamentaux de l'apprentissage statistique »

Pour ce cours, vous pouvez télécharger le diaporama d’accompagnement.

« Risque et choix de modèle en apprentissage - Exemples »

Pour ce cours, vous pouvez télécharger le diaporama d’accompagnement.

Des applications pratiques seront présentées durant cette séance qui nécessitent l’utilisation de R et de python (version 2.7, distribution Anaconda), à installer avant d’arriver à Fréjus.

Les cas d’études (nuages gaussiens, détection du pic d’ozone) sont traités en R et/ou Python. Les calepins (fichiers .ipynb) sont accessibles sur le site compagnon de wikistat (cliquer ici pour accéder au site wikistat lui-même).

« Introduction à l'optimisation pour l'apprentissage »

Pour ce cours, vous pouvez télécharger le diaporama d’accompagnement.

« Apprentissage connexionniste »

Pour ce cours, vous trouverez ci-dessous, le diaporama d’accompagnement, les fichiers RMarkdown (source) avec les scripts R correspondants et les fichiers de sortie au format HTML. Si vous souhaitez compiler les fichiers RMarkdown vous même, les packages suivants devront avoir été installés (RStudio les installera automatiquement à la première tentative de compilation) : evaluate, formatR, highr, markdown, yaml, htmltools, knitr, rmarkdown. Les fichiers RMarkdown se compilent depuis RStudio en appuyant sur la touche “Knit HTML”. Les packages suivants sont nécessaires pour la réalisation de l’application pratique : nnet, e1071, mlbench et devtools (ce dernier est optionnel). Ils s’installent en exécutant la commande R suivante :

install.packages(c("nnet", "e1071", "mlbench", "devtools"))

« Réseaux sociaux »

Pour ce cours, vous pouvez télécharger le diaporama d’accompagnement.

Pour les deux cours « Introduction à l’analyse des réseaux sociaux » et « Réseaux sociaux et recommandation: méthodes et applications », les ressources suivantes (téléchargeables en ligne) apporteront des compléments utiles (mais non obligatoires pour suivre le cours) :

« Arbres CART et forêts aléatoires »

Pour ce cours, vous pouvez télécharger le diaporama d’accompagnement.

« Validation croisée »

Pour ce cours, vous pouvez télécharger le diaporama d’accompagnement.

« SVM »

Pour ce cours, vous pouvez télécharger le diaporama d’accompagnement.

Pour approfondir, un cours plus détaillé et des exercices pratiques sont disponibles à ce lien.

« Méthodes pour l'apprentissage de données massives »

Pour ce cours, vous pouvez télécharger le diaporama d’accompagnement.

« Introduction aux systèmes de recommandation sociaux »

Pour ce cours, vous pouvez télécharger le diaporama d’accompagnement

« Apprentissage de données massives - Cas d'usage »

Pour ce cours, vous pouvez télécharger le diaporama d’accompagnement.

Les cas d’études sont traités en R et/ou Python et/ou PySpark (API en Python de Spark). L’installation de Spark est possible en « stand alone », même sous Windows, mais plus complexe à mettre en œuvre (c’est un euphémisme). Les versions html des calepins sont accessibles sur le site wikistat.fr, et les fichiers .ipynb sur dépôt github compagnon.