Machine learning to understand and engineer the structural kinome - Département de biologie Accéder directement au contenu
Thèse Année : 2023

Machine learning to understand and engineer the structural kinome

Machine learning pour comprendre et concevoir le kinome structurel

Ivan Reveguk
  • Fonction : Auteur
  • PersonId : 1382055
  • IdRef : 277503426

Résumé

Protein kinases (PKs) comprise one of the most ancient and ubiquitous enzyme groups deeply embedded in a cell's molecular machinery. Changing their targets' conformation via phosphate transfer, PKs themselves cycle between active and inactive states. Any misbalance between them can lead to harmful diseases, including cancers. The DFG motif, situated within the activation loop (AL), displays conformational variability in the less constrained inactive state: a property that small molecule inhibitors often exploit. Namely, there are two major DFG motif orientations, known as the DFG-in and DFG-out. The latter precludes substrate binding and is typically associated with higher inhibitor selectivity. Despite being pivotal to drug design efforts, little is known regarding which features shape AL conformational landscape. This work constitutes a systematic attempt to uncover them via careful data curation and mining. Over its course, we created the largest structural kinome assembly to date, encompassing nearly ten thousand annotated PK domains. Clustering these domains enabled semi-supervised labeling of the DFG motif conformations. These labels served as input to our interpretable machine-learning (ML) pipeline incorporating decision tree-based ensembles and a model-agnostic feature selection algorithm. The obtained classifiers accurately predicted the DFG conformations and active/inactive states and relied on readily interpretable structural hallmarks. We used the obtained annotations and ML models' predictions to characterize sequence elements likely responsible for shifting the AL inactive state's conformational balance, or "discriminative" positions. To uncover these, we created several sequence-based datasets, each having a different level of conformational propensity attributed to a sequence. We used the same ML pipeline and phylogenetic analysis to show that a clear DFG conformational propensity is likely privileged to a group of closely related receptor tyrosine protein kinases. The discovered discriminating positions overlapped with the existing literature and mutagenesis studies and may provide a foundation for future experimental efforts, including computational protein design applications. Finally, the developed methodology enables automating the annotation of the structural kinome. Generalizable towards problems of similar nature, it may increase the efficiency and transparency of data mining in structural biology.
Les protéines kinases (PK) constituent l'un des groupes d'enzymes les plus anciens et ubiquitaires, profondément intégrés dans la machinerie moléculaire d'une cellule. En modifiant la conformation de leurs cibles par le transfert de groupes phosphates, les PK passent elles-mêmes entre des états actifs et inactifs. Tout déséquilibre entre eux peut conduire à des maladies nuisibles, y compris les cancers. Le motif DFG, situé dans la boucle d'activation (AL), présente une variabilité conformationnelle dans l'état inactif moins contraint : une propriété que les inhibiteurs à petites molécules exploitent souvent. Plus précisément, il existe deux principales orientations du motif DFG, connues sous le nom de DFG "in" et DFG "out". Cette dernière empêche la liaison du substrat et est généralement associée à une plus grande sélectivité des inhibiteurs. Bien que crucial pour les efforts de conception de médicaments, on en sait peu sur les caractéristiques qui façonnent le paysage conformationnel de AL. Ce travail constitue une tentative systématique de les découvrir grâce à une curatelle minutieuse des données et à l'exploitation des données. Au cours de ce travail, nous avons créé le plus grand ensemble structural de kinomes à ce jour, comprenant près de dix mille domaines de PK annotés. Le regroupement de ces domaines a permis l'étiquetage semi-supervisé des conformations du motif DFG. Ces étiquettes ont servi d'entrée à notre pipeline interprétable d'apprentissage automatique (ML), comprenant des ensembles basés sur des arbres de décision et un algorithme de sélection de caractéristiques indépendant du modèle. Les classificateurs obtenus ont prédit avec précision les conformations DFG et les états actifs/inactifs, en s'appuyant sur des caractéristiques structurales facilement interprétables. Nous avons utilisé les annotations obtenues et les prédictions des modèles ML pour caractériser les éléments de séquence susceptibles de contribuer à l'équilibre conformationnel de l'état inactif de AL, ou "positions discriminantes". Pour les découvrir, nous avons créé plusieurs ensembles de données basés sur la séquence, chacun ayant un niveau différent de propension conformationnelle attribuée à une séquence. Nous avons utilisé le même pipeline ML et une analyse phylogénétique pour montrer qu'une propension conformationnelle claire du DFG est probablement privilégiée chez un groupe de protéines kinases de récepteurs de tyrosine étroitement liés. Les positions discriminantes découvertes coïncidaient avec la littérature existante et les études de mutagenèse, et pourraient servir de base à de futurs efforts expérimentaux, y compris des applications de conception de protéines computationnelles. Enfin, la méthodologie développée permet d'automatiser l'annotation du kinome structural. Généralisable à des problèmes de nature similaire, elle pourrait accroître l'efficacité et la transparence de l'exploitation des données en biologie structurale.
Fichier principal
Vignette du fichier
123579_REVEGUK_2023_archivage.pdf (44.23 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04573889 , version 1 (13-05-2024)

Identifiants

  • HAL Id : tel-04573889 , version 1

Citer

Ivan Reveguk. Machine learning to understand and engineer the structural kinome. Structural Biology [q-bio.BM]. Institut Polytechnique de Paris, 2023. English. ⟨NNT : 2023IPPAX151⟩. ⟨tel-04573889⟩
0 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More