Supposez que vous êtes développeur spécialisé en machine learning pour une banque. Vous avez reçu pour mission de développer un modèle de machine learning pour aider les analystes de votre entreprise à exploiter au mieux la grande masse de données d'actualités qu'ils doivent lire pour prendre des décisions d'investissement. Le modèle sera entraîné sur l'ensemble de données 20newsgroups qui contient des informations sur 20 sujets dans environ 20 000 documents.

Dans le cadre de votre modèle, vous devez extraire des informations sémantiques des données d'actualités, puis identifier des articles d'actualité similaires dans le corpus et fournir aux analystes des recommandations de contenu pour des actualités similaires en fonction de celles qu'ils lisent.

Dans cet exercice, vous allez apprendre à créer une instance de bloc-notes Amazon SageMaker, à télécharger, préparer et organiser un ensemble de données à l'aide d'un bloc-notes Jupyter, à entraîner et déployer votre modèle de rubrique et à former et déployer le modèle de recommandation de contenu.

Dans le module 1, vous configurez l'environnement que vous allez utiliser dans cet exercice pratique.

Durée du module : 20 minutes

 


  • Étape 1 : créer un compte AWS

    Utilisez un compte AWS personnel ou créez un nouveau compte AWS pour cet atelier. N'utilisez pas le compte d'une organisation, car vous aurez ainsi pleinement accès aux services nécessaires et ne laisserez pas derrière vous des ressources de l’atelier. Si à l'issue de cet atelier vous ne supprimez pas les ressources utilisées dans l'atelier, des frais AWS pourraient vous être facturés.

  • Étape 2 : Créer un compartiment Amazon S3

    Amazon Simple Storage Service (Amazon S3) est un service de stockage d'objets offrant une évolutivité, une disponibilité des données, une sécurité et des performances de pointe.

    L'entraînement d'un modèle produit des données d'entraînement de modèle et des artefacts de modèle. Dans cet exercice, vous utilisez un compartiment Amazon S3 pour organiser les ensembles de données d'entraînement et de validation et stocker les artefacts de modèle générés par Amazon SageMaker pendant l'entraînement du modèle.

    Pour créer un compartiment Amazon S3 :

    1. Connectez-vous à AWS Management Console et ouvrez la console Amazon S3.
    2. Choisissez Créer un compartiment.
    3. Pour Nom du compartiment, tapez sagemaker-xx, où xx sont vos initiales pour rendre le nom de compartiment unique.
    4. Dans Région, choisissez la région AWS où vous voulez placer la compartiment.
    5. Dans Paramètres du compartiment pour Bloquer l'accès public, maintenez les paramètres activés.
    6. Choisissez Créer un compartiment.
  • Étape 3 : Créer une instance de bloc-notes Amazon SageMaker

    Une instance de bloc-notes Amazon SageMaker est une instance de calcul Amazon Elastic Compute Cloud (Amazon EC2) de machine learning (ML) entièrement gérée qui exécute l'application Jupyter Notebook.

    Dans cet exercice pratique, vous utilisez l'instance de bloc-notes pour créer et gérer votre bloc-notes Jupyter que vous pouvez utiliser pour préparer et traiter des données et pour entraîner et déployer votre modèle de machine learning de recommandation de contenu.   

    Pour créer une instance de bloc-notes Amazon SageMaker :

    1. Ouvrez la console Amazon SageMaker.
    2. Choisissez Instances de bloc-notes, puis Créer une instance de bloc-notes.
    3. Sur la page Créer une instance de bloc-notes, pour Nom de l'instance de bloc-notes, saisissez un nom de votre instance de bloc-notes.
    4. Pour Type d'instance, choisissez ml.t2.medium. Il s'agit du type d'instance le moins cher pris en charge par les instances de bloc-notes et il suffit pour cet exercice.
    5. Pour Rôle IAM, choisissez Créer un nouveau rôle, puis Créer un rôle.
    6. Choisissez Créer une instance de bloc-notes.

    En quelques minutes, Amazon SageMaker lance une instance de calcul ML (dans ce cas, une instance de bloc-notes) et y attache un volume de stockage ML. L'instance de bloc-notes possède un serveur de bloc-notes Jupyter préconfiguré et un ensemble de bibliothèques Anaconda.

  • Étape 4 : Créer un bloc-notes Jupyter

    Vous créez un bloc-notes Jupyter dans votre instance de bloc-notes Amazon SageMaker. Vous créez également une cellule qui obtient le rôle IAM dont votre bloc-notes a besoin pour exécuter les API Amazon SageMaker et spécifie le nom du compartiment Amazon S3 que vous utiliserez pour stocker les ensembles de données que vous utiliserez pour vos données d'entraînement et les artefacts de modèle qu'une tâche d'entraînement Amazon SageMaker produit.

    Pour créer un bloc-notes Jupyter :

    1. Ouvrez la console Amazon SageMaker.
    2. Choisissez Instances de bloc-notes, puis ouvrez l'instance de bloc-notes que vous avez créée en choisissant Ouvrir Jupyter pour la vue Juypter classique ou Ouvrir JupyterLab pour la vue JupyterLab.
      Remarque : si « En attente » s'affiche à droite de l'instance de bloc-notes dans la colonne Statut, cela implique que votre bloc-notes est toujours en cours de création. Le statut devient InService lorsque le bloc-notes est prêt à être utilisé.
    3. Créez le bloc-notes.
      • Si vous avez ouvert le bloc-notes dans Jupyter, sur l'onglet Fichiers, choisissez Nouveau et conda_python3. Cet environnement préinstallé comprend l'installation par défaut d'Anaconda et Python
      • Si vous avez ouvert le bloc-notes dans JupyterLab, dans le menu Fichier, choisissez Nouveau, puis Bloc-notes. Pour Sélectionner le noyau, choisissez conda_python3. Cet environnement préinstallé comprend l'installation par défaut d'Anaconda et Python 3.
    4. Dans le bloc-notes Jupyter, choisissez Fichier et Enregistrer sous, puis le nom du bloc-notes.

Dans ce module, vous vous êtes familiarisé avec l'exemple de modèle de ML que vous avez entraîné dans cet exercice pratique. Vous avez également configuré un compte AWS et votre environnement d'exercice avec un compartiment Amazon S3, une instance de bloc-notes Amazon SageMaker et un bloc-notes Jupyter.

Vous êtes à présent prêt pour démarrer l'exercice pratique. Dans le module suivant, vous téléchargez, préparez et organisez votre ensemble de données.