Modèles d'apprentissage automatique pour les tâches de sélection abstraites - Une application de revue systématique de la littérature pour la recherche sur l'économie de la santé et les résultats |  Méthodologie de recherche médicale BMC

Les objectifs de cette étude étaient de : (1) identifier et développer deux corpus spécifiques à une maladie, l’un pour les maladies associées au virus du papillome humain (VPH) et l’autre pour les maladies pédiatriques associées au pneumocoque, adaptés à la formation des modèles ML et DL sous-jacents à la PNL nécessaire. les fonctions; (2) étudier et optimiser les performances des modèles ML et DL en utilisant différents ensembles de fonctionnalités (par exemple, des mots-clés, des termes de rubrique médicale (MeSH) [6]) pour faciliter l’automatisation des tâches de criblage abstrait nécessaires à la construction d’un SLR. Notez que ces corpus de sélection peuvent être utilisés comme données de formation pour construire différents modèles de PNL. Nous avons l’intention de partager librement ces deux corpus avec l’ensemble de la communauté scientifique afin qu’ils puissent servir de corpus de référence pour le développement futur de modèles de PNL dans ce domaine.

Préparation des corpus SLR

Deux études SLR spécifiques à une maladie réalisées par Merck & Co., Inc., Rahway, NJ, États-Unis, ont servi de base à la construction de corpus pour le criblage au niveau du résumé. Les deux études SLR étaient toutes deux pertinentes pour l’économie de la santé et la recherche sur les résultats, dont une sur les maladies associées au virus du papillome humain (VPH) (appelées VPH corpus), et un pour les maladies pédiatriques associées au pneumocoque (que nous appelons le PAPD corpus). Les deux études SLR originales contenaient de la littérature de PubMed/MEDLINE et EMBASE. Puisque nous avions prévu que les corpus de sélection soient diffusés à la communauté, nous avons conservé uniquement les citations trouvées dans PubMed/MEDLINE dans les corpus finalisés. Étant donné que les études SLR originales ne contenaient pas l’identifiant PubMed (PMID) de chaque article, nous avons comparé les informations de citation de chaque article (si disponibles) avec PubMed, puis collecté des métadonnées telles que les auteurs, les revues, les mots-clés, les termes MeSH, les types de publication, etc., à l’aide de l’interface de programmation d’application (API) des utilitaires de programmation PubMed Entrez (E-utilities). La description détaillée des deux corpus peut être consultée dans le tableau 1. Les deux corpus résultants sont accessibles au public sur [https://github.com/Merck/NLP-SLR-corpora ].

Tableau 1 Descriptions des corpus de criblage au niveau abstrait du SLR

Algorithmes d’apprentissage automatique

Bien que les algorithmes d’apprentissage profond aient démontré des performances supérieures sur de nombreuses tâches de PNL, les algorithmes d’apprentissage automatique conventionnels présentent certains avantages, tels que de faibles coûts de calcul et une vitesse de formation et de prédiction plus rapide.

Nous avons évalué quatre algorithmes traditionnels de classification de documents basés sur le ML, XGBoost [7]Machines à vecteurs de support (SVM) [8]Régression logistique (LR) [9]et forêt aléatoire [10] sur la tâche de classification binaire d’inclusion/exclusion pour la sélection des résumés. Les principales caractéristiques de ces modèles sont les suivantes :

  1. 1.

    XGBoost : Abréviation de « eXtreme Gradient Boosting », XGBoost est un ensemble d’algorithmes basés sur le boosting qui transforment les apprenants faibles en apprenants forts en se concentrant sur les erreurs des modèles individuels. Dans Gradient Boosting, les modèles faibles individuels s’entraînent sur la différence entre la prédiction et les résultats réels. [7]. Nous définissons max_degree à 3, n_estimators à 150 et le taux d’apprentissage à 0,7.

  2. 2.

    Machine à vecteurs de support (SVM) : SVM est l’une des méthodes de prédiction les plus robustes basées sur des cadres d’apprentissage statistique. Il vise à trouver un hyperplan dans un espace à N dimensions (où N = le nombre d’entités) qui classe distinctement les points de données. [8]. Nous définissons C à 100, gamma à 0,005 et noyau comme fonction de base radiale.

  3. 3.

    Régression logistique (LR) : LR est un modèle statistique classique qui, dans sa forme de base, utilise une fonction logistique pour modéliser une variable dépendante binaire. [9]. Nous fixons C à 5 et la pénalité à l2.

  4. 4.

    Forêt aléatoire (RF) : RF est une technique d’apprentissage automatique qui utilise l’apprentissage d’ensemble pour combiner de nombreux classificateurs d’arbres de décision via le bagging ou l’agrégation bootstrap. [10]. Nous définissons n_estimators à 100 et max_degree à 14.

Ces quatre algorithmes ont été entraînés à la fois pour le VPH tâche de dépistage et le PAPD tâche de sélection en utilisant le corpus de formation correspondant.

Pour chacun des quatre algorithmes, nous avons examiné les performances en utilisant (1) uniquement les critères de fonctionnalités de base (titre et résumé de chaque article) et (2) avec cinq fonctionnalités de métadonnées supplémentaires (MeSH, Auteurs, Mots-clés, Journal, Types de publication). .) récupéré de chaque article à l’aide de l’API PubMed E-utilities. Conventionnellement, le titre et le résumé sont les premières informations sur lesquelles un évaluateur humain dépendrait pour décider de l’inclusion ou de l’exclusion d’un article. Par conséquent, nous avons utilisé le titre et le résumé comme caractéristiques de base pour déterminer si un résumé devait être inclus au stade de la sélection des résumés. Nous avons en outre évalué les performances avec des fonctionnalités supplémentaires qui peuvent être récupérées par l’API PubMed E-utilities, notamment les termes MeSH, les auteurs, la revue, les mots-clés et le type de publication. Pour l’évaluation de base, nous avons concaténé les titres et les résumés et extrait le vecteur TF-IDF (fréquence de document inverse de fréquence de terme) pour le corpus. TF-IDF évalue la pertinence d’un mot par rapport à un document dans une collection de documents. Pour des fonctionnalités supplémentaires, nous avons extrait le vecteur TF-IDF en utilisant respectivement chaque fonctionnalité, puis avons concaténé les vecteurs extraits avec le titre et le vecteur abstrait. XGBoost a été sélectionné pour le processus d’évaluation des fonctionnalités, en raison de son temps d’exécution de calcul relativement rapide et de ses performances robustes.

Algorithmes d’apprentissage profond

Les méthodes de ML conventionnelles s’appuient largement sur des fonctionnalités conçues manuellement et souffrent des défis de la rareté des données et de la mauvaise transportabilité lorsqu’elles sont appliquées à de nouveaux cas d’utilisation. L’apprentissage profond (DL) est un ensemble d’algorithmes d’apprentissage automatique basés sur des réseaux de neurones profonds qui offrent des performances avancées de classification de texte ainsi que de nombreuses autres tâches PNL. Les modèles d’apprentissage profond basés sur des transformateurs, tels que BERT (Représentations d’encodeurs bidirectionnels à partir de transformateurs), ont atteint des performances de pointe dans de nombreuses tâches NLP. [11]. UN Transformateur est une architecture émergente de modèles d’apprentissage profond conçue pour gérer des données d’entrée séquentielles telles que le langage naturel en adoptant des mécanismes d’attention pour peser différentiellement l’importance de chaque partie des données d’entrée. [12]. Le modèle BERT et ses variantes (qui utilisent Transformer comme unité de base) exploitent la puissance de l’apprentissage par transfert en pré-entraînant d’abord les modèles sur des centaines de millions de paramètres à l’aide de grands volumes de données textuelles non étiquetées. Le modèle résultant est ensuite affiné pour une application NLP en aval particulière, telle que la classification de texte, la reconnaissance d’entités nommées, l’extraction de relations, etc. Les trois modèles BERT suivants ont été évalués à la fois par rapport aux VPH et Pneumocoque pédiatrique corpus utilisant deux ensembles de fonctionnalités (titre et résumé versus ajout de toutes les fonctionnalités supplémentaires dans le texte). Pour tous les modèles BERT, nous avons utilisé l’optimiseur Adam avec perte de poids. Nous fixons le taux d’apprentissage à 1e-5, la taille du lot à 8 et le nombre d’époques à 20.

  1. 1.

    Base BERT : il s’agit du modèle BERT original publié par Google. Le modèle de base BERT a été pré-entraîné sur des données textuelles dans le domaine général, c’est-à-dire BooksCorpus (800 M de mots) et Wikipedia anglais (2 500 M de mots). [11].

  2. 2.

    Base BioBERT : comme le langage biomédical est différent du langage général, les modèles BERT formés sur des données textuelles générales peuvent ne pas fonctionner correctement sur les tâches de PNL biomédicales. BioBERT a ensuite été pré-formé (sur la base des modèles BERT originaux) dans les corpus biomédicaux à grande échelle, y compris les résumés PubMed (4,5 milliards de mots) et les articles en texte intégral de PubMed Central (13,5 milliards de mots). [13].

  3. 3.

    PubMedBERT : PubMedBERT a été pré-entraîné à partir de zéro à l’aide de résumés de PubMed. Ce modèle a atteint des performances de pointe sur plusieurs tâches biomédicales de PNL sur la compréhension du langage biomédical et le test de raisonnement. [14].

Prétraitement du texte et bibliothèques utilisées

Nous avons supprimé les caractères spéciaux et les mots anglais courants dans le cadre du prétraitement du texte. Le tokenizer par défaut de scikit-learn a été adopté pour la tokenisation. Scikit-learn a également été utilisé pour l’extraction de fonctionnalités TF-IDF et la mise en œuvre d’algorithmes d’apprentissage automatique. Les bibliothèques Transformers de Hugging Face ont été utilisées pour la mise en œuvre d’algorithmes d’apprentissage en profondeur.

Évaluation

Des ensembles de données d’évaluation ont été construits à partir des VPH et Pneumocoque pédiatrique corpus et ont été divisés en ensembles de formation, de validation et de test avec un ratio de 8:1:1 pour les deux tâches d’évaluation : (1) évaluation des performances des algorithmes ML ; et (2) évaluation des performances des algorithmes DL. Les modèles ont été ajustés sur les ensembles de formation, les hyperparamètres du modèle ont été optimisés sur les ensembles de validation et les performances ont été évaluées sur les ensembles de test. Les principales mesures suivantes sont exprimées par les calculs notés :

$$Précision = \frac{Vrai positif}{Vrai positif + Faux positif}$$

$$Rappel = \frac{Vrai positif}{Vrai positif + Faux négatif}$$

$$Score F1 = \frac{2 \times Precision \times Rappel}{Précision + Rappel}$$

$$\begin{collecté} Précision = \\ \frac{{Vraipositif + Vrainégatif}}{{Vraipositif + Vrainégatif + Fauxpositif + Fauxnégatif}} \\ \end{collecté}$$

Vraiment positif est un résultat où le modèle prédit correctement la classe positive (par exemple, « inclus » dans nos tâches). De même, un Vrai négatif est un résultat où le modèle prédit correctement la classe négative (par exemple, « exclu » dans nos tâches). Faux positif est un résultat où le modèle prédit incorrectement la classe positive, et un Faux négatif est un résultat où le modèle prédit incorrectement la classe négative. Nous avons répété toutes les expériences cinq fois et rapporté les scores moyens avec écart type.

Rédigé par

Archie Mitchell

Archie Mitchell, with a prestigious master's degree from France and two decades of experience, is an authority in his field, renowned for making complex subjects engaging through his blog. At 49, he seamlessly merges academic knowledge with practical insights, aimed at educating and empowering his audience. Beyond his professional life, Archie's hobbies and personal interests add depth to his writing, making it a valuable resource for both professionals and enthusiasts looking to expand their understanding.