Présentation du cours

 

Introduction
Objectifs d’apprentissage
Durée du cours
Démarche d’apprentissage
Logiciel R
Évaluation des apprentissages
Encadrement

Introduction

La science des données est une vaste discipline qui comprend notamment les statistiques et l’informatique en son coeur. Elle est motivée essentiellement par des considérations pratiques. On fait parfois la distinction entre la science des données et les statistiques conventionnelles par la capacité de traitement de grands volumes de données ou des données complexes par l’usage de l’informatique.

Objectifs d’apprentissage

À la fin du cours, vous devriez être capable de :

  • comprendre le concept de science des données et les démarches à suivre pour résoudre un problème lié à la science des données;
  • avoir un aperçu des outils d’analyse et de visualisation des données et leur application dans différents domaines;
  • appliquer des outils d’analyse et de visualisation des données sur plusieurs ensembles de données.

Durée du cours

135 heures, réparties sur 15 semaines.

Vous pouvez toutefois, si nécessaire, profitez d’un report de la fin du cours. Pour des précisions sur cette possibilité, consultez le Guide des études à distance (p. 36).

Démarche d’apprentissage

Le cours est constitué de sept modules encadrés par une activité de démarrage et une activité de clôture.

  • Module 1 : Introduction à la science des données
  • Module 2 : Introduction au langage R
  • Module 3 : Analyse exploratoire des données
  • Module 4 : Visualisation des données
  • Module 5 : Inférence statistique
  • Module 6 : Algorithmes de base en apprentissage machine
  • Module 7 : Exemples d’applications de la science des données
  • Module 8 : Science de données et considérations éthiques

À l’exception du premier module, les modules partagent une même structure :

  • Étude d’un texte de référence présentant les concepts et les techniques en lien avec la thématique du module.
  • Réalisation d’exercices pratiques en lien avec la thématique du module.
  • Évaluation des connaissances par la réalisation d’un test en ligne noté.

Module 1 : Introduction à la science des données

Ce module constitue une introduction aux concepts de base de la science des données. Il consiste à expliciter les concepts de base de la science des données, les compétences requises pour un scientifique de données, les défis liés à la science des données, et les différentes solutions proposées pour les adresser.

Module 2 : introduction au langage R

Ce module introduit quelques concepts de base du langage R qui sont utilisés dans l’analyse des données comme le chargement des fichiers, la manipulation des structures de données, et l’utilisation des fonctions.

Module 3 : Analyse exploratoire des données

Ce modulate traite les outils d’exploration et de description des données. Il considère également la préparation des données incluant le traitement des données abérrentes et des données manquantes.

Module 4 : Visualisation des données

La visualisation de données ne cesse de prendre de la place dans des domaines très variés allant du domaine médical au domaine financier. Ce module présente des méthodes de base et avancées de visualisation de données.

Module 5 : Inférence statistique

L’inférence statistique est le raisonnement par lequel on tire, à partir des observations faites sur un échantillon prélevé dans une population, des conclusions concernant certaines caractéristiques de la population en question. Par conséquent, ce module traite les notions d’intervalle de confiance et de tests d’hypothèses.

Module 6 : Algorithmes de base en apprentissage machine

Ce module traite les algorithmes de base utilisés en apprentissage machine. Il est notamment question d’étudier les techniques de classification, de regroupement, de régression et les règles d’association.

Exemples d’applications de la science des données

Ce module introduit des exemples d’applications de la science des données dans des domaines comme les réseaux sociaux, l’intelligence d’affaires, et l’environnement.

Module 8 : Science des données et considérations éthiques

Ce module traite l’éthique de la science des données et les différentes méthodes utilisées pour assurer la confidentialité et la sécurité des données.

Logiciel R

Le logiciel R est utilisé tout au long du cours. C’est un environnement de traitement de données et d’analyse statistique de plus en plus utilisé dans les universités, dans les laboratoires de recherche, mais aussi dans les entreprises. La première particularité de ce logiciel est qu’il est gratuit ! (open source)

Lors de l’activité de démarrage, vous installerez le logiciel R.

Évaluation des apprentissages

L’évaluation des apprentissages repose sur la réalisation de huit tests en ligne (50 %) et d’un examen numérique comptant pour 50 % de la note finale.
Les tests en ligne sont du type QCM (Questions à choix multiples) dont la correction est automatique. La saisie des notes dans le Portail étudiant est faite par les professeurs responsables après la réalisation de l’examen final.
C’est l’un des professeurs responsables du cours qui corrige l’examen final et qui vous communique une évaluation et une rétroaction.

La notation littérale (A, B, C, E) est utilisée pour la note finale, conformément au Guide des études à distance (p. 27-28).

Encadrement

Ce cours est conçu en vue d’une démarche d’étude individuelle selon le rythme qui vous convient. Votre encadrement est assuré par l’un des professeurs responsables.

La personne qui vous encadre utilise principalement le courriel pour interagir avec vous. Les activités principales qu’elle est amenée à réaliser sont les suivantes :

  • Accueillir, encourager, motiver, faire un suivi proactif.
  • Répondre à vos questions sur le contenu des textes de référence, sur les consignes des activités et les consignes de réalisation des activités d’évaluation (tests et travail pratique).
  • Conseiller sur votre cheminement à privilégier dans le cours.
  • Évaluer le travail pratique et l’examen en vous fournissant une rétroaction formative détaillée.

La formule d’encadrement prévoit une interraction par courriel. Cependant, au besoin, vous pouvez communiquer avec le professeur afin de fixer un rendez-vous téléphonique.