Grant zamknięty
GO-016
2015-12-15
2016-03-15
Struktura genetyczna populacji sarny europejskiej i poziom introgresji genów jądrowych sarny syberyjskiej na podstawie danych NGS (RAD sequencing)
dr Maciej Matosiuk
Celem projektu jest ocena struktury genetycznej populacji sarny europejskiej w Polsce oraz poziomu introgresji genów jądrowych sarny syberyjskiej do genomu sarny europejskiej na podstawie danych z sekwencjonowania wielkoskalowego nowej generacji – RAD sequencing. W ramach zakończonego projektu MNiSW pt. „Inwazja genomu sarny syberyjskiej (Capreolus pygargus) do genomu sarny europejskiej (Capreolus capreolus) na terenie Polski” ustaliliśmy, iż introgresja mtDNA sarny syberyjskiej do genomu sarny europejskiej jest powszechna na terenie wschodniej i południowo-wschodniej Polski. Otrzymane wyniki wskazują na głównie naturalną hybrydyzację i introgresję mtDNA po ustąpieniu ostatniego zlodowacenia. Miała ona miejsce na terenie Europy Środkowej i była najprawdopodobniej związana z ekspansją przestrzenną i demograficzną sarny europejskiej. Nie udało nam się stwierdzić introgresji genów zlokalizowanych na chromosomach płci. Jednakże, aby w pełni rozwikłać problem naukowy introgresywnej hybrydyzacji w rodzaju Capreolus należy określić ogólnogenomowy poziom introgresji genów jądrowych sarny syberyjskiej do genomu sarny europejskiej na terenie Polski. W tym celu we współpracy z prof. E. Johnsonem z Institute of Molecular Biology, University of Oregon przeprowadziliśmy analizy 93 prób sarny (16 saren europejskich, 10 saren syberyjskich oraz 67 osobników mieszańcowych) metodą sekwencjonowania wielkoskalowego nowej generacji – RAD sequencing. W wyniku analiz otrzymaliśmy blisko 520 mln odczytów sekwencji nukleotydowych o długości około 100 pz (format FASTQ). Analiza danych pochodzących z sekwencjonowania metodą RAD sequencing w Uniwersyteckim Centrum Obliczeniowym będzie polegała na mapowaniu odczytów do dostępnych w zasobach GenBanku sekwencji genomowych sarny europejskiej (CCMK000000000.1). Następnie zmapowane odczyty zostaną przeanalizowane w pakiecie Stacks 1.35 wykorzystującym statystyczny model maksymalnej wiarygodności do identyfikacji polimorfizmu sekwencji nukleotydowych. Dane polimorfizmów pojedynczych nukleotydów (SNP) uzyskane w pakiecie Stacks 1.35 posłużą do dalszych analiz z wykorzystaniem programów badających strukturę genetyczną populacji, admiksję, odtwarzających powiązania filogenetyczne a także modelujących ewolucyjne zmiany demograficzne w obrębie gatunków. Z uwagi na charakterystykę danych przedstawiony projekt będzie wymagał około 300 GB stałych zasobów pamięci dyskowej oraz do 1 TB zasobów pamięci dyskowej tymczasowej. Pakiet Stacks 1.35 nie wymaga zwiększonej mocy obliczeniowej i dostępne w jednym węźle obliczeniowym 32 wątki procesora będą optymalne. Jednak analizy mogą zostać w znacznym stopniu ograniczone poprzez ilość pamięci operacyjnej RAM dostępną w jednym węźle obliczeniowym. Dlatego też jeśli będzie to technicznie możliwe (architektura pakietu Stacks), wnioskujemy o zainstalowanie pakietu Stacks na klastrze złożonym z kilku węzłów obliczeniowych, dysponującym większą ilością pamięci operacyjnej RAM.