Połączenie sztucznej inteligencji z biologią syntetyczną wchodzi w nową fazę. Zespół naukowców z Rice University opracował technikę, która radykalnie przyspiesza projektowanie i analizę obwodów genetycznych. Dzięki integracji uczenia maszynowego z ogromnymi bibliotekami DNA możliwe staje się nie tylko mapowanie zależności między sekwencją a funkcją, lecz także precyzyjne przewidywanie zachowania projektów, które nigdy nie zostały fizycznie przetestowane. Otwiera to nowe perspektywy dla biotechnologii i terapii komórkowych.
Z tego artykułu dowiesz się…
- Jak technika CLASSIC łączy sztuczną inteligencję z sekwencjonowaniem DNA i dlaczego stanowi przełom w biologii syntetycznej
- W jaki sposób naukowcy z Rice University projektują i analizują setki tysięcy do milionów obwodów genetycznych jednocześnie
- Dlaczego duże biblioteki danych są kluczowe dla skutecznego trenowania modeli uczenia maszynowego w projektowaniu DNA
- Jakie znaczenie to podejście może mieć dla terapii komórkowych, biotechnologii i medycyny przyszłości
Biologia syntetyczna i problem „igły w stogu siana”
Jednym z największych wyzwań biologii syntetycznej jest projektowanie sekwencji DNA, które powodują dokładnie zaprogramowane zachowanie komórek. Choć naukowcy od lat potrafią „uczyć” komórki reagowania na bodźce, znalezienie właściwej sekwencji genetycznej pozostaje procesem czasochłonnym i obarczonym dużą niepewnością. Jak podkreśla Caleb Bashor z Rice University:
Istnieje wiele możliwych projektów dla danej funkcji, a znalezienie właściwego może przypominać szukanie igły w stogu siana.
Dotychczasowe metody pozwalały testować jedynie ograniczoną liczbę wariantów DNA, co znacząco hamowało rozwój bardziej złożonych obwodów genetycznych.
Technika CLASSIC – nowy standard skali
Odpowiedzią na to ograniczenie jest nowa technika nazwana CLASSIC (łączenie sekwencjonowania krótkiego i długiego zasięgu w celu badania złożoności genetycznej). Metoda ta umożliwia jednoczesne tworzenie i analizę od setek tysięcy do nawet milionów projektów DNA – skali wcześniej nieosiągalnej w biologii syntetycznej. Bashor, adiunkt bioinżynierii i nauk biologicznych oraz zastępca dyrektora Instytutu Biologii Syntetycznej Rice, podkreśla:
Stworzyliśmy nową technikę, która pozwala na jednoczesne tworzenie setek tysięcy, a nawet milionów wzorów DNA, częściej niż kiedykolwiek wcześniej.
Tak duża liczba wariantów umożliwia znacznie dokładniejsze odwzorowanie relacji między sekwencją genetyczną, a funkcją biologiczną.
Połączenie sekwencjonowania krótkiego i długiego odczytu
Kluczowym elementem CLASSIC jest równoczesne wykorzystanie dwóch technologii sekwencjonowania. Sekwencjonowanie długich odczytów pozwala analizować całe obwody genetyczne, obejmujące tysiące zasad DNA. Z kolei sekwencjonowanie krótkich odczytów zapewnia wysoką dokładność i szybkość analizy krótszych fragmentów. Jak wyjaśnia Ronan O’Connell, współautor badania:
Większość osób korzysta z jednej lub drugiej opcji, ale odkryliśmy, że jednoczesne korzystanie z obu rozwiązań pozwoliło nam na tworzenie i testowanie bibliotek.
Połączenie tych metod umożliwiło precyzyjne znakowanie każdego obwodu genetycznego oraz śledzenie jego działania w komórkach.
Od biblioteki DNA do danych treningowych dla AI
Zespół wprowadził zaprojektowane obwody do ludzkich komórek nerkowych zarodka, które emitowały światło w odpowiedzi na aktywację określonych genów. Im jaśniejszy sygnał, tym silniejsza była aktywność danego obwodu.
Sekwencjonowanie krótkich odczytów pozwoliło zidentyfikować unikalne „kody kreskowe” przypisane do każdego projektu DNA. Dzięki temu naukowcy mogli jednoznacznie powiązać sekwencję genetyczną z obserwowanym zachowaniem komórek i zbudować obszerne, wysokiej jakości zbiory danych. To właśnie te dane stały się podstawą do trenowania modeli uczenia maszynowego.
Uczenie maszynowe przewiduje to, czego jeszcze nie przetestowano
Dzięki ogromnej skali danych modele AI mogły nauczyć się rozpoznawać wzorce decydujące o skuteczności obwodów genetycznych. Co istotne, system potrafi przewidywać działanie projektów, które nigdy nie zostały fizycznie wprowadzone do komórek. Jak tłumaczy O’Connell:
Wykorzystujemy dane do wytrenowania modelu, który będzie w stanie zrozumieć ten krajobraz i przewidzieć rzeczy, na temat których nie byliśmy w stanie wygenerować danych.
Wstępna walidacja potwierdziła wysoką skuteczność podejścia – wszystkie 40 sekwencji zaprojektowanych wyłącznie przez model AI idealnie odpowiadały wynikom uzyskanym w testach manualnych.
Elastyczność zamiast jednego „idealnego” rozwiązania
Analiza dużych bibliotek ujawniła jeszcze jeden istotny wniosek: dla wielu funkcji biologicznych istnieje nie jedna optymalna sekwencja DNA, lecz wiele różnych rozwiązań o zbliżonej skuteczności. Taka redundancja może okazać się kluczowa przy projektowaniu bardziej odpornych i stabilnych systemów biologicznych.
Z perspektywy inżynierii biologicznej oznacza to większą swobodę projektowania oraz możliwość dostosowywania obwodów genetycznych do konkretnych warunków klinicznych lub przemysłowych.
Znaczenie dla terapii i biotechnologii
Połączenie wysokoprzepustowego generowania danych z modelowaniem AI może istotnie skrócić czas potrzebny na opracowanie terapii komórkowych, narzędzi diagnostycznych czy systemów biologii syntetycznej wykorzystywanych w przemyśle. Jak podkreśla współautor badania Kshitij Rai:
Po raz pierwszy udało się wykorzystać technologię AI ML do analizy obwodów i tworzenia dokładnych prognoz dla nieprzetestowanych układów, ponieważ do tej pory nikt nie był w stanie stworzyć tak dużych bibliotek jak nasza.
Badanie zostało opublikowane na łamach prestiżowego czasopisma Nature, co dodatkowo podkreśla jego znaczenie dla globalnej społeczności naukowej.
Główne wnioski
- Naukowcy z Rice University opracowali technikę CLASSIC, która łączy sekwencjonowanie krótkiego i długiego odczytu, umożliwiając tworzenie od setek tysięcy do milionów projektów DNA jednocześnie.
- Połączenie wysokoprzepustowych danych z AI pozwala trenować modele uczenia maszynowego zdolne do przewidywania działania obwodów genetycznych, które nie zostały jeszcze fizycznie przetestowane.
- Wstępna walidacja potwierdziła wysoką skuteczność podejścia – wszystkie 40 sekwencji zaprojektowanych przez model AI idealnie dopasowało się do wyników eksperymentalnych.
- Metoda CLASSIC może znacząco przyspieszyć rozwój terapii i biotechnologii, zmieniając projektowanie DNA z procesu prób i błędów w inżynierię opartą na danych.
Źródło:
- https://www.nature.com/articles/s41586-025-09933-9
- Rice University

