Naukowcy z Harvard Medical School i Centre for Genomic Regulation przedstawili model popEVE – narzędzie sztucznej inteligencji, które potrafi oceniać szkodliwość mutacji w ludzkich białkach nawet wtedy, gdy dana zmiana nie była nigdy wcześniej obserwowana. To pierwszy system, który potrafi porównywać mutacje w całym ludzkim proteomie, co może ułatwić diagnostykę chorób rzadkich – szczególnie tam, gdzie pacjenci trafiają do klinik bez historii rodzinnej i bez dostępu do danych rodziców.
Z tego artykułu dowiesz się…
- Jak działa model popEVE i na czym polega jego przewaga nad dotychczasowymi narzędziami AI do analizy mutacji.
- W jaki sposób popEVE wspiera diagnostykę chorób rzadkich, także w przypadkach unikatowych wariantów.
- Jakie wyniki uzyskano podczas walidacji modelu na danych ponad 31 tys. rodzin.
- Dlaczego popEVE zmniejsza liczbę fałszywych alarmów u osób o różnym pochodzeniu.
Jak działa popEVE?
popEVE powstał na bazie ogromnych danych ewolucyjnych obejmujących setki tysięcy gatunków oraz zmienność genetyczną populacji ludzkiej. Dzięki temu model uczy się, które fragmenty białek są kluczowe dla funkcji życiowych, a które mogą tolerować zmiany. Następnie łączy te informacje z bazami UK Biobank i gnomAD, aby skalibrować swoje wyniki względem wariantów obserwowanych u zdrowych osób. W efekcie popEVE może porównywać mutacje w obrębie całego ludzkiego proteomu, czyli kompletnym zestawie około 20 000 białek zakodowanych w genomie człowieka. To właśnie ta integracja pozwala po raz pierwszy zestawić szkodliwość mutacji między różnymi genami w ramach jednej skali.
Dlaczego to tak ważne w chorobach rzadkich?
Większość pacjentów z chorobami rzadkimi doświadcza mutacji, które są unikatowe – nieobecne w populacyjnych bazach danych i nieuwzględnione w klasycznych algorytmach. popEVE zmienia perspektywę: zamiast szukać podobnych przypadków, wykorzystuje informacje zapisane przez miliardy lat ewolucji, aby ocenić, które zmiany są potencjalnie najbardziej niszczące. Model potrafi wskazać nie tylko, czy mutacja jest groźna, ale także oszacować jej skalę wpływu.
Skuteczność modelu oceniono na danych ponad 31 tys. rodzin, w których dzieci miały ciężkie zaburzenia rozwojowe. W 98% sytuacji, gdy mutacja przyczynowa była już wcześniej ustalona, popEVE wskazał ją jako najbardziej szkodliwą w genomie dziecka. Wynik przewyższył osiągi takich narzędzi jak AlphaMissense, przy jednoczesnym zachowaniu stabilności predykcji między różnymi genami.
Nowe potencjalne geny chorobowe
Model umożliwił identyfikację 123 genów, które nie były wcześniej łączone z zaburzeniami rozwojowymi. Wiele z nich jest aktywnych w rozwijającym się mózgu, a część wchodzi w interakcje z białkami związanymi z już znanymi chorobami. Co istotne, 104 z tych genów pojawiło się u pojedynczych lub podwójnych pacjentów, co potwierdza użyteczność popEVE w analizie mutacji „as rare as one”.
Nie faworyzuje populacji europejskiej
Autorzy podkreślają, że popEVE nie ocenia mutacji przez pryzmat ich częstości w bazach danych z przewagą osób pochodzenia europejskiego. Każda zmiana jest oceniana tak samo bez względu na to, jak często pojawia się w różnych grupach. Redukuje to liczbę fałszywie podejrzanych mutacji u osób pochodzących z niedoreprezentowanych środowisk, co bywa problemem w innych algorytmach.
Jakie są ograniczenia modelu?
popEVE analizuje wyłącznie warianty zmieniające sekwencję białek. Nie obejmuje mutacji regulacyjnych, strukturalnych ani innych zmian genomowych. Nie zastępuje także oceny klinicznej – historia pacjenta, objawy i badania dodatkowe pozostają dalej fundamentem diagnozy.
Główne wnioski
- popEVE to pierwszy model, który pozwala porównywać szkodliwość mutacji w całym proteomie człowieka, dzięki połączeniu danych ewolucyjnych i populacyjnych.
- W analizie ponad 31 tys. rodzin model wskazał mutację przyczynową jako najbardziej szkodliwą w 98% przypadków.
- Narzędzie umożliwiło identyfikację 123 nowych potencjalnych genów powiązanych z zaburzeniami rozwojowymi.
- popEVE minimalizuje ryzyko fałszywych podejrzeń u osób z niedoreprezentowanych populacji, oceniając wszystkie warianty w jednakowy sposób.
Źródło:
- https://www.crg.eu/en/news/ai-learns-tree-life-support-rare-disease-diagnosis

