Ερευνητές στα Ινστιτούτα Gladstone, στο Broad Institute of MIT και Harvard και στο Dana-Farber Cancer Institute εκπαίδευσαν ένα μοντέλο βαθιάς μάθησης, που ονομάζεται Geneformer, για να κατανοήσουν πώς μεγάλα δίκτυα διασυνδεδεμένων ανθρώπινων γονιδίων ελέγχουν τη λειτουργία των κυττάρων και πώς οι διαταραχές σε αυτά τα δίκτυα προκαλούν ασθένειες. Το Geneformer μπορεί να συντονιστεί για πολλές μεταγενέστερες εφαρμογές για να επιταχύνει την ανακάλυψη βασικών ρυθμιστών του γονιδιακού δικτύου και υποψηφίων θεραπευτικών στόχων.
ΚΕΙΜΕΝΟ. Πολλά γονίδια, όταν είναι ενεργά, πυροδοτούν καταρράκτες μοριακής δραστηριότητας που ενεργοποιούν άλλα γονίδια να ρυθμίσουν τη δραστηριότητά τους. Μερικά από αυτά τα γονίδια, με τη σειρά τους, επηρεάζουν άλλα γονίδια. Έτσι, όταν ένας επιστήμονας σκιαγραφεί τις διασυνδέσεις μεταξύ μερικών δεκάδων σχετικών γονιδίων, ο χάρτης δικτύου που προκύπτει μοιάζει συχνά με έναν μπερδεμένο ιστό αράχνης.
Αν η χαρτογράφηση μόνο μιας χούφτας γονιδίων με αυτόν τον τρόπο είναι δύσκολη, η προσπάθεια κατανόησης των διασυνδέσεων μεταξύ και των 20.000 γονιδίων στο ανθρώπινο γονιδίωμα είναι μια τρομερή πρόκληση. Αλλά ένας τέτοιος τεράστιος χάρτης δικτύου θα πρόσφερε στους ερευνητές μια εικόνα για το πώς ολόκληρα δίκτυα γονιδίων αλλάζουν με τις ασθένειες και πώς να αντιστρέψουν αυτές τις αλλαγές.
Συνήθως, για τη χαρτογράφηση των δικτύων γονιδίων, οι ερευνητές βασίζονται σε τεράστια σύνολα δεδομένων που περιλαμβάνουν πολλά παρόμοια κύτταρα. Χρησιμοποιούν ένα υποσύνολο συστημάτων τεχνητής νοημοσύνης (AI), που ονομάζονται πλατφόρμες μηχανικής μάθησης, για να επεξεργαστούν μοτίβα μέσα στα δεδομένα. Για παράδειγμα, ένας αλγόριθμος μηχανικής μάθησης θα μπορούσε να εκπαιδευτεί σε μεγάλο αριθμό δειγμάτων από ασθενείς με και χωρίς καρδιοπάθεια και στη συνέχεια να μάθει τα μοτίβα του δικτύου γονιδίων που διαφοροποιούν τα νοσούντα δείγματα από τα υγιή.
Ωστόσο, τα τυπικά μοντέλα μηχανικής μάθησης στη βιολογία εκπαιδεύονται για να ολοκληρώσουν μόνο μία εργασία. Προκειμένου τα μοντέλα να ολοκληρώσουν μια διαφορετική εργασία, πρέπει να επανεκπαιδευτούν από την αρχή σε νέα δεδομένα. Έτσι, αν οι ερευνητές ήθελαν τώρα να αναγνωρίσουν άρρωστα κύτταρα νεφρού, πνεύμονα ή εγκεφάλου από υγιή ομόλογά τους, θα έπρεπε να ξεκινήσουν από την αρχή και να εκπαιδεύσουν έναν νέο αλγόριθμο με δεδομένα από αυτούς τους ιστούς. Το ζήτημα είναι ότι, για ορισμένες ασθένειες, δεν υπάρχουν αρκετά υπάρχοντα δεδομένα για την εκπαίδευση αυτών των μοντέλων μηχανικής εκμάθησης.
Στη νέα μελέτη*, που δημοσιεύτηκε* στο περιοδικό Nature, οι ερευνητές αντιμετώπισαν αυτό το πρόβλημα αξιοποιώντας μια τεχνική “μηχανικής μεταφοράς μάθησης” για να εκπαιδεύσουν το Geneformer ως ένα θεμελιώδες μοντέλο του οποίου η βασική γνώση μπορεί να μεταφερθεί σε νέες εργασίες.
Πρώτον, «προ-εκπαίδευσαν» το Geneformer για να έχει μια θεμελιώδη κατανόηση του πώς αλληλοεπιδρούν τα γονίδια, τροφοδοτώντας του δεδομένα σχετικά με το επίπεδο δραστηριότητας των γονιδίων σε περίπου 30 εκατομμύρια κύτταρα από ένα ευρύ φάσμα ανθρώπινων ιστών. Για να αποδείξουν ότι η προσέγγιση της μάθησης μεταφοράς λειτουργούσε, οι επιστήμονες στη συνέχεια συντόνισαν το Geneformer για να κάνουν προβλέψεις σχετικά με τις διασυνδέσεις μεταξύ των γονιδίων ή εάν η μείωση των επιπέδων ορισμένων γονιδίων θα προκαλούσε ασθένεια. Το Geneformer μπόρεσε να κάνει αυτές τις προβλέψεις με πολύ μεγαλύτερη ακρίβεια από τις εναλλακτικές προσεγγίσεις, λόγω των θεμελιωδών γνώσεων που απέκτησε κατά τη διαδικασία προ-εκπαίδευσης.
Αυτό σημαίνει ότι το Geneformer θα μπορούσε να εφαρμοστεί για να κάνει προβλέψεις σε ασθένειες, όπου η πρόοδος της έρευνας ήταν αργή, επειδή δεν υπάρχει πρόσβαση σε αρκετά μεγάλα σύνολα δεδομένων, όπως σπάνιες ασθένειες και εκείνες που επηρεάζουν ιστούς που είναι δύσκολο να ληφθούν δείγματα στην κλινική πράξη.
ΕΝΤΟΠΙΣΜΟΣ ΚΑΡΔΙΑΚΩΝ ΝΟΣΗΜΑΤΩΝ. Η ερευνητική ομάδα ξεκίνησε στη συνέχεια να χρησιμοποιήσει τη μάθηση μεταφοράς για να προωθήσει ανακαλύψεις σε καρδιακές παθήσεις. Πρώτα ζήτησαν από το Geneformer να προβλέψει ποια γονίδια θα είχαν επιζήμια επίδραση στην ανάπτυξη των καρδιομυοκυττάρων, των μυϊκών κυττάρων στην καρδιά.
Μεταξύ των κυρίων γονιδίων που εντοπίστηκαν από το μοντέλο, πολλά είχαν ήδη συσχετιστεί με καρδιακές παθήσεις. Το γεγονός ότι το μοντέλο προέβλεψε γονίδια που ήδη γνωρίζαμε ότι ήταν πραγματικά σημαντικά για τις καρδιακές παθήσεις έδωσε στους επιστήμονες επιπλέον σιγουριά ότι ήταν σε θέση να κάνουν ακριβείς προβλέψεις.
Ωστόσο, άλλα δυνητικά σημαντικά γονίδια που εντοπίστηκαν από το Geneformer δεν είχαν προηγουμένως συσχετιστεί με καρδιακές παθήσεις, όπως το γονίδιο TEAD4. Και όταν οι ερευνητές αφαίρεσαν το TEAD4 από καρδιομυοκύτταρα στο εργαστήριο, τα κύτταρα δεν ήταν πλέον σε θέση να χτυπούν τόσο δυνατά όσο τα υγιή κύτταρα. Ως εκ τούτου, το Geneformer είχε χρησιμοποιήσει τη μάθηση μεταφοράς για να καταλήξει σε ένα νέο συμπέρασμα: παρόλο που δεν είχε τροφοδοτηθεί καμία πληροφορία για κύτταρα που δεν είχαν TEAD4, προέβλεψε σωστά τον σημαντικό ρόλο που παίζει το γονίδιο TEAD4 στη λειτουργία των καρδιομυοκυττάρων.
Τέλος, η ομάδα ζήτησε από το Geneformer να προβλέψει ποια γονίδια θα έπρεπε να στοχεύουν για να κάνουν τα νοσούντα καρδιομυοκύτταρα να μοιάζουν με υγιή κύτταρα σε επίπεδο γονιδιακού δικτύου. Όταν οι ερευνητές δοκίμασαν δύο από τους προτεινόμενους στόχους σε κύτταρα που επηρεάζονται από μυοκαρδιοπάθεια (μια ασθένεια του καρδιακού μυός), διαπίστωσαν πράγματι ότι η αφαίρεση των προβλεπόμενων γονιδίων χρησιμοποιώντας την τεχνολογία επεξεργασίας γονιδίων CRISPR αποκατέστησε την ικανότητα παλμού των ασθενών καρδιομυοκυττάρων.
Κατά τη διάρκεια της εκμάθησης πώς μοιάζει ένα κανονικό γονιδιακό δίκτυο και πώς είναι ένα «άρρωστο» γονιδιακό δίκτυο, το Geneformer μπόρεσε να καταλάβει ποια χαρακτηριστικά μπορούν να στοχεύσουν για εναλλαγή μεταξύ υγιών και άρρωστων καταστάσεων. Η προσέγγιση μάθησης μεταφοράς επέτρεψε στους ερευνητές να ξεπεράσουν την πρόκληση των περιορισμένων δεδομένων ασθενών για να προσδιορίσουν αποτελεσματικά πιθανές πρωτεΐνες για στόχευση με φάρμακα σε άρρωστα κύτταρα».
*Christina V. Theodoris, et al. (31/5/2023). Transfer learning enables predictions in network biology. Nature, DOI 10.1038/s41586-023-06139-9
Ο Κωνσταντίνος Τριανταφυλλίδης είναι Ομότιμος Καθηγητής Γενετικής και Γενετικής του Ανθρώπου του τμήματος Βιολογίας του ΑΠΘ