A mesterséges intelligenciára épülő, gépi tanulási módszerekkel támogatott sejtszintű analízis tudományterülete napjainkra olyan fejlettségi szintet ért el, ami korábban elképzelhetetlennek tartott perspektívákat vetít előre. A lehetséges felhasználási területek széles skálája jól mutatja, miként hasznosulhatnak az alapkutatási eredmények az alkalmazott kutatásban és a gyakorlati életben. A big data adatrengetegében rejlő információk kinyerése, a deep learning modelljére épülő alkalmazások és a biológiai folyamatok kontinuitásként való újraértelmezése csak néhány a mesterséges intelligencia széles körű, élettudományi felhasználási területei közül.
A bioinformatika egyik forradalmi jelentőségű területe, a mesterséges intelligenciával segített fenotipizálás lehetőséget ad az emberi szövetek egyedi sejtjeinek külső jegyek alapján történő szétválogatására, és alkalmas arra, hogy akár a legkisebb, sejtszintű eltérést is felfedezze a komplex mintákban. A mikroszkópos képek elemzésére épülő eljárás elképesztő teljesítőképességű:
a folyamatosan tanuló algoritmusok akár sok milliárdnyi sejtet is osztályoznak az egyes mintákról készült több százezer vagy milliónyi felvételen.
Ekkora adatmennyiség ilyen léptékű feldolgozását még egy évtizeddel ezelőtt is csaknem lehetetlennek tartották – ma viszont már az élet és a tudományok számos területén a gyakorlati alkalmazások része. De honnan is indult, és hogyan jutott idáig a fejlődés? Horváth Péter, az MTA Szegedi Biológiai Kutatóközpont Mikroszkópos Képfeldolgozó és Gépi Tanulási Csoportjának vezetője és munkacsoportja az élettudományok egyik legrangosabb folyóirata, a Cell Systems legfrissebb számában megjelent áttekintő közleményében átfogó képet ad a mesterséges intelligenciával támogatott, sejtalapú elemzés fejlődésének állomásairól, a rendelkezésre álló szoftveres megoldások erősségeiről és gyengeségeiről, valamint a tudományterület jövőbeli perspektíváiról. A közérthető nyelvezetű összefoglaló kiváló és hiánypótló rendszerező anyag.
Genomika után fenomika
Sokak szerint ma a fenotípus-elemzésben rejlő lehetőségek feltérképezése jelenti a legnagyobb kihívást a biológiában: az egyént legpontosabban jellemző fenotípusos jegyek összességének meghatározása – a fenomika – éppolyan mértékben viheti előre az élettudományokat, mint ahogy a teljes humángenom megismerése paradigmaváltást hozott az orvostudományban az ezredfordulón. Minél több információt gyűjtünk az egyénre jellemző, megfigyelhető tulajdonságokról úgy az egész szervezet, mint annak legapróbb építőkövei, az egyes sejtek szintjén, annál jobban megérthetjük, miért és hogyan idéz elő elváltozásokat a genetikai és a környezeti tényezők egymásra hatása. Ennek alapján pedig képessé válhatunk arra, hogy már a legapróbb sejtszintű változásokból előre jelezzünk bizonyos kórfolyamatokat, és akár már a tünetek megjelenése előtt beavatkozzunk a nemkívánatos folyamatokba.
A fenomot meghatározó tulajdonságok összessége ugyanakkor sokkal komplexebb a genomnál, így a teljes fenom jellemzését a mai technikai adottságok nem teszik lehetővé. Előrelépést a már ismert és jól megválasztott fenotípusos jegyek minél részletesebb elemzése, valamint – a gépi tanulás és a mesterséges intelligencia segítségével – egyre újabb fenotíposos jellemzők felderítése hozhat e területen. A fenomikai analízis legkiválóbb eszközei a képalkotó eljárások, amelyek akár a nanométeres tartományban is hűen képezik le a látható tulajdonságokat, és megfelelő kivitelezéssel pontos információt adnak idő- és térbeli változásaikról. A sejtek morfológiáján túl a sejten belüli struktúrákat – így az egyes sejtalkotókat és a molekuláris építőköveket (fehérjéket, lipideket) – is megbízhatóan láttatják. A mikroszkópia, az automatizálás és az informatika drámai fejlődésének köszönhetően ma már olyan mennyiségű képi információval rendelkezünk, amelynek feldolgozása csak intelligens számítógépes algoritmusokkal – vagy még azokkal sem – lehetséges.
Fiatal tudományterület
A mesterséges intelligenciával támogatott, sejtalapú elemzés tudományterülete viszonylag fiatal: az első ilyen analíziseket a 2000-es évek első felében végezték. Bár a gyökerek az 1970-es évekig nyúlnak vissza, az intelligens, automatizált elemzést végző első szoftverek csak 2006 táján jelentek meg. Az azóta eltelt, alig több mint egy évtized ugrásszerű fejlődést hozott e területen: a világ élvonalába tartozó bioinformatikai kutatócsoportok standard módszertant és több tucat gépi tanulási algoritmust vezettek be a sejtalapú fenotípus-elemzésre. A modern képelemző szoftverek több száz- vagy akár több ezerféle jellemzőt képesek számba venni minden egyes sejtről, és arra is alkalmasak, hogy az információkat szintetizálva, kiválasszák közülük a legfontosabbakat, amelyek a lehető legpontosabban írnak le egy-egy ismert vagy új sejttípust.
Az Advanced Cell Classifier (ACC v2.0) néven ismertté vált szoftverrel Horváth Péter és munkacsoportja is letette névjegyét az asztalra – az MTA Szegedi Biológiai Kutatóközpont nemzetközileg elismert szakemberei világviszonylatban is kiemelkedő eredményeket értek és érnek el a sejtszintű mikroszkópos adatelemzésben.
„A gépi tanulással támogatott, mikroszkópos fenotipizálás a biológiai alapkutatásban, az orvostudományban és a gyógyszerkutatásban is új perspektívákat vetít előre” – mondta el Horváth Péter, rámutatva, hogy az általuk is használt, folyamatosan tanuló intelligens szoftverek akár több milliárdnyi sejt között is képesek felfedezni új fenotípusokat. Ezzel minden eddiginél mélyrehatóbban jellemzik a biológiai mintákat, ami utat nyit új biomarkerek felfedezése, ezáltal pedig a diagnosztika, a fenotípusra fókuszáló célzott gyógyszerkutatás és a személyre szabott terápia precizitásának növelése előtt. A lehetséges felhasználási területek széles tárháza jól példázza az alapkutatások fontosságát és az elért eredmények alkalmazott kutatásba való átültetésének jelentőségét, ami nélkülözhetetlen a való életbeli gyakorlatok folyamatos fejlődéséhez.
Mit hoz a jövő?
A jövő egyik legfontosabb, megoldásra váró feladata a nagy adattömegek, vagyis a big data kezelése – az óriási adathalmazok tárolása, továbbítása és feldolgozása lépést kell hogy tartson az adatok generálásának ütemével ahhoz, hogy az egyre gyűlő adatrengeteg valóban értékes információk forrása lehessen. „A nagy áteresztőképességű mikroszkópia másodpercenként 5-10 képet készít a mintáról, így egy labor egyetlen mikroszkópja naponta több mint 10 terabájtnyi adatot állít elő. A képi adatok feldolgozása még a mai legmodernebb szoftverekkel is több nagyságrenddel lassúbb: az egyes képek kiértékelése percekig is eltart, így a legnagyobb kihívást ma a nagy áteresztőképességű számítógépes feldolgozás jelenti” – jegyzik meg cikkükben a kutatók.
A perspektívák talán legfontosabbika a deep learning – magyarul mélytanulás – modelljében rejlő lehetőségek kiaknázása. „Az agyi idegpályák mintájára működő mélytanulási modell átírja a problémamegoldás mikéntjét, és az élet minden területét forradalmasítja. A deep learning gyakorlati hasznosítása minden képzeletet felülmúl: az önvezető autótól a városirányítási rendszereken át a számítógépes látás és beszéd megvalósításáig bármi elképzelhető általa, így az sem kétséges, hogy a nem túl távoli jövőben soha nem látott áttörést hoz a digitális képanalízisben” – vélik a kutatók.
Hasonlóan fontos és szemléletváltást előre vetítő perspektíva a biológiai folyamatok kontinuitásként való modellezésének lehetősége a mesterséges intelligenciával támogatott egysejt-analízis további fejlődésével. A merőben új megközelítés újraírhatja jelenlegi biológiai ismereteinket, hiszen a ma számítógéppel elemezhető diszkrét elemek és egyes folyamatrészletek helyett egészében jellemezne komplex biológiai folyamatokat (például egy sejt gyógyszerfelvételét) és sejttípusok közötti átmeneteket (például a daganatos sejtek kialakulásához vezető lépcsőket).
A klasszikus biológia mellett ma már az interdiszciplináris rendszer-biológia is egyre inkább előtérbe kerül, amely a biológiai rendszerek közötti összefüggések holisztikus szemléletű megértésére épül, és a genomikától a proteomikán át a bioinformatikáig számos tudományterületet ötvöz – hangsúlyozza Horváth Péter. Ahhoz, hogy az információk kinyerése, feldolgozása és értelmezése lépést tarthasson az adatgyűjtés elképesztő ütemével, megfelelő informatikai háttérre és a legkiválóbb szakemberek alkotta, interdiszciplináris teamek együttműködésére van szükség.
A deep learning és a neurális hálózatok
A deep learning (mélytanulás) a gépi tanulás modellje, amely a mesterséges neuronhálókra épül, és az agyi idegsejtek közötti kapcsolatok mintájára tár fel mély összefüggéseket óriási adathalmazokban. Alapját az agyi neuronhálózat analógiájára megalkotott mesterséges neurális hálózatok képezik. A neurális háló rengeteg kicsiny alegységből áll, amelyek – akárcsak az idegsejtek – sokrétű kapcsolódási rendszerben állnak összeköttetésben egymással. Az így kialakított háló mesterségesintelligencia-algoritmusok révén tanulásra képes: az egyes egységek az összeköttetéseiken keresztül beérkező bemeneti jelek sokaságának feldolgozásával – egy döntési algoritmuson keresztül – kimeneteli jelet generálnak, ami intelligens feladat-végrehajtásban jut érvényre.
Az első digitális neuronhálók az 1970-es évek végén jelentek meg, sokáig azonban – a megfelelő informatikai háttér hiányában – még csak egyszerű architektúrában működtek, és olyan egyszerűbb feladatok végrehajtására voltak képesek, mint a karakter- vagy beszédfelismerés. Az elmúlt 5-10 évben lezajlott hardverinformatikai forradalomnak köszönhetően ma már akár százrétegű, mély neurális hálózatok kialakítása és tanítása is megoldott. A mély neurális hálózatokban összegyűjtött adatokból a deep learningként ismert algoritmus mély összefüggéseket tár fel, és ezek alapján objektív, logikus döntéseket hoz. Ezzel az emberi gondolkodás komplexitásával egyező, sőt azt is túlszárnyaló problémamegoldásra nyílik lehetőség egyes területeken, ami olyan funkcionális megoldásokban realizálódik, mint a sakkvilágbajnokot alig néhány óra tanulás után verhetetlenül legyőző számítógép, az önvezető autó vagy a legbonyolultabb városirányítási rendszerek. Az orvosi informatikában a komplex szövetek sejtszintű elemzése a deep learning és a neurális hálózatok egyik legfontosabb felhasználási területe, amely a betegségek kórélettani hátterének jobb megismerésével áttörést hozhat a rákkutatásban, az agykutatásban, de a gyógyszerkutatásban is.
, MTA