Hoe Rekenaars Help Bioloë Knip Lewe se geheime

Sodra die drie-miljard-letter-lange menslike genoom in volgorde was, het ons na 'n nuwe "omika"Era van biologiese navorsing. Wetenskaplikes is nou besig om die genome (al die gene) of proteome (al die proteïene) van verskillende organismes te orden - en in die proses is die samestelling van groot hoeveelhede data.

Byvoorbeeld, 'n wetenskaplike kan gebruik maak van "omics" -gereedskap soos DNA-volgordebepaling om uit te vind watter menslike gene in 'n virusinfeksie geraak word. Maar omdat die menslike genoom in totaal ten minste 25,000-gene het, kan die aantal gene wat verander word selfs onder so 'n eenvoudige scenario moontlik in die duisende wees.

Alhoewel volgorde en identifikasie van gene en proteïene hulle 'n naam en 'n plek gee, vertel dit ons nie wat hulle doen nie. Ons moet verstaan ​​hoe hierdie gene, proteïene en al die dinge tussenin interaksie in verskillende biologiese prosesse.

Vandag lewer selfs basiese eksperimente groot data, en een van die grootste uitdagings is om die relevante resultate van die geraas van die agtergrond af te wis. Rekenaars help ons om hierdie data berg te oorkom; maar hulle kan selfs 'n stap verder gaan as wat ons help om wetenskaplike hipoteses op te los en nuwe biologiese prosesse te verduidelik. Data wetenskap bied in wese die nuutste biologiese navorsing.

Rekenaars tot die redding

Rekenaars is uniek gekwalifiseer om massiewe datastelle te hanteer, aangesien hulle gelyktydig al die belangrike toestande wat nodig is vir die analise, kan dophou.


innerself teken grafiese in


Alhoewel hulle kan menslike foute reflekteer hulle is geprogrammeer, rekenaars kan met groot hoeveelhede data doeltreffend hanteer en hulle is nie bevooroordeeld teenoor die bekende nie, soos menslike ondersoekers kan wees.

Rekenaars kan ook geleer word om spesifieke patrone in eksperimentele datastelle te soek - 'n konsep wat masjienleer genoem word, wat eers in die 1950's voorgestel word, veral deur die wiskundige Alan Turing. 'N Algoritme wat die patrone van data-stelle geleer het, kan dan gevra word om voorspellings te maak op grond van nuwe data wat dit nooit voorheen teëgekom het nie.

Masjienleer het biologiese navorsing herleef, aangesien ons nou groot datastelle kan gebruik en rekenaars vra om die onderliggende biologie te verstaan.

Opleiding van rekenaars om te dink deur breinprosesse te simuleer

Ons het een interessante tipe masjienleer, 'n kunsmatige neurale netwerk (ANN), in ons eie laboratorium gebruik. Brein is hoogs onderling gekoppelde netwerke van neurone, wat kommunikeer deur elektriese pulse deur die neurale bedrading te stuur. Net so, 'n ANN simuleer in die rekenaar 'n netwerk van neurone soos hulle aan en af ​​skakel in reaksie op ander neurone se seine.

Deur algoritmes toe te pas wat die prosesse van regte neurone naboots, kan ons die netwerk leer om baie soorte probleme op te los. Google gebruik 'n kragtige ANN vir sy bekendheid Deep Dream projek waar rekenaars kan klassifiseer en selfs beelde skep.

Ons groep bestudeer die immuunstelsel, met die doel van uitzoeken van nuwe therapieën vir kanker. Ons het ANN-berekeningsmodelle gebruik om kort-proteïenkodes te gebruik wat ons immuun selle gebruik om te bepaal of iets vreemd is aan ons liggaam en dus aangeval moet word. As ons meer verstaan ​​oor hoe ons immuunselle (soos T-selle) tussen normale / self- en abnormale / vreemde selle onderskei, kan ons beter entstowwe en terapieë ontwerp.

Ons het oor die jare publieke beskikbare katalogusse van duisende proteïenkodes gekies. Ons het hierdie groot datastel in twee verdeel: normale selfproteïenkodes afgelei van gesonde menslike selle en abnormale proteïenkodes afgelei van virusse, gewasse en bakterieë. Toe het ons 'n kunsmatige neurale netwerk ontwikkel wat in ons laboratorium ontwikkel is.

Sodra ons die proteïenkodes in die ANN gevoer het, kon die algoritme identifiseer fundamentele verskille tussen normale en abnormale proteïenkodes. Dit sal moeilik wees vir mense om hierdie soort biologiese verskynsels by te hou - daar is letterlik duisende van hierdie proteïenkodes om in die groot datastel te analiseer. Dit verg 'n masjien om hierdie komplekse probleme te verwoes en nuwe biologie te definieer.

Voorspellings via masjienleer

Die belangrikste toepassing van masjienleer in biologie is die nut daarvan om voorspellings te maak op grond van groot data. Rekenaargebaseerde voorspellings kan sin maak van groot data, toets hipoteses en spaar kosbare tyd en hulpbronne.

Byvoorbeeld, in ons veld van T-selbiologie, om te weet watter virus proteïenkodes teiken is, is krities in die ontwikkeling van entstowwe en behandelings. Maar daar is so baie individuele proteïenkodes van enige gegewe virus dat dit baie duur is en moeilik om elkeen eksperimenteel te toets.

In plaas daarvan het ons die kunsmatige neurale netwerk opgelei om die masjien te help om al die belangrike biochemiese eienskappe van die twee tipes proteïenkodes te leer - normale teenoor abnormale. Toe vra ons die model om te voorspel watter nuwe virale proteïenkodes lyk soos die "abnormale" kategorie en kan gesien word deur T-selle en dus die immuunstelsel. Ons het die ANN model op verskillende virus proteïene getoets wat nog nooit bestudeer is nie.

Seker genoeg, soos 'n ywerige student wat graag die onderwyser wou behaag, was die neurale netwerk in staat om die meerderheid van sulke T-sel-aktiverende proteïenkodes binne hierdie virus akkuraat te identifiseer. Ons het ook die proteïen kodes wat dit gemerk het, eksperimenteel getoets om die akkuraatheid van die ANN se voorspellings te bevestig. Met behulp van hierdie neurale netwerkmodel kan 'n wetenskaplike dus vinnig voorspel al die belangrike kort proteïenkodes van 'n skadelike virus en toets hulle om 'n behandeling of 'n entstof te ontwikkel, in plaas daarvan om hulle individueel te raai en te toets.

Implementeer masjien leer verstandig

Danksy voortdurende verfyning word groot data-wetenskap en masjienleer steeds meer noodsaaklik vir enige soort wetenskaplike navorsing. Die moontlikhede om rekenaars te gebruik om in biologie op te lei en te voorspel, is byna oneindig. Uit uitvind watter kombinasie van biomarkers die beste is om 'n siekte op te spoor om net hoekom te verstaan sommige pasiënte baat by 'n spesifieke kankerbehandeling, mynbou groot datastelle met behulp van rekenaars het 'n waardevolle roete vir navorsing geword.

Natuurlik is daar beperkinge. Die grootste probleem met groot data wetenskap is die data self. As data wat verkry word deur -omics studies foutief is om mee te begin, of op grond van skelm wetenskap, sal die masjiene opgelei word op slegte data - wat lei tot swak voorspellings. Die student is net so goed soos die onderwyser.

Omdat rekenaars nie sentient is nie (nog), kan hulle in hul soeke na patrone kom, selfs wanneer niemand bestaan ​​nie, weer opstaan, tot slegte data en nie-reproduceerbare wetenskap.

En sommige navorsers het kommer uitgespreek oor rekenaars swart bokse data vir wetenskaplikes wat nie die manipulasies en bewerkings wat hulle namens hulle uitvoer, duidelik verstaan ​​nie.

Ten spyte van hierdie probleme sal die voordele van groot data en masjiene voortgaan om hulle waardevolle vennote in wetenskaplike navorsing te maak. Met terughoudendheid in gedagte, is ons uniek gereed om biologie deur die oë van 'n masjien te verstaan.

Oor Die SkrywerDie gesprek

Sri Krishna, PhD Kandidaat, Biologiese Ontwerp, Skool vir Biologiese en Gesondheidstelselingenieurswese, Arizona State University en Diego Chowell, PhD-student in Toegepaste Wiskunde, Arizona State University

Hierdie artikel is oorspronklik gepubliseer op Die gesprek. Lees die oorspronklike artikel.


Verwante Book:

at InnerSelf Market en Amazon