blogg-vitalika.ru

  

Bästa artiklarna:

  
Main / Nrow i python vad är gjutning

Nrow i python vad är gjutning

Men medan R är min go-to, i vissa fall kan Python faktiskt vara ett bättre alternativ. Sammantaget kunde Python-koden lätt översättas till R och var jämförbar i längd och enkelhet mellan de två språken.

R och Python är båda öppen källkodsspråk som används i ett brett spektrum av dataanalysfält. Deras huvudsakliga skillnad är att R traditionellt har inriktats på statistisk analys, medan Python är mer generalistisk. Båda innehåller en stor samling paket för specifika uppgifter och har en växande gemenskap som erbjuder support och handledning online. Han ger en trevlig introduktion till data, så jag kommer inte att upprepa det här utan fokusera på jämförelsen mellan kodraderna.

För den här analysen behöver vi SciPy-stacken med pandor för datavridning och matplotlib för visualisering. Anaconda levereras redan med alla dessa paket som vi behöver.

Även om koden skulle kunna replikeras med bas R, föredrar jag dplyr för datakämpning och ggplot2 för visualisering. Att läsa in data är rakt fram i både R och Python. Koden vi behöver läsa i filen är jämförbar mellan R och Python. En stor skillnad i den allmänna syntaxen kan vi också se här: Den sekventiella anropet av funktioner är verkligen mycket praktiskt, det gör koden lättare att läsa och förstå än många sammanvävda funktioner och parenteser.

Men med bara eller två funktioner håller jag vanligtvis på bas R eftersom det är kortare. Här kan vi se att med två funktioner är det fortfarande lite mer kod att använda dplyr men det ser redan mycket snyggare ut. Dessa två funktioner skiljer sig åt i hur de sorterar utgångstabellen: Det finns dock två lösningar som är mer eleganta: Men med det här korta exemplet är det ingen stor skillnad mellan de tre. Den bör innehålla genlängderna, d.v.s. Här kan vi se igen att i Python använder vi en punkt för att definiera kolumner, medan R använder dollartecknet.

Därefter vill vi beräkna den andel av genomet som inte finns på huvudkromosomaggregaten. För det definierar vi först en teckensträng med huvudkromosomerna: Att definiera denna sträng är lite enklare i R.

Vi kommer att använda den här strängen för att beräkna summan av längderna för den underinställda dataramen och dela den med summan av längderna för hela dataramen. Detta gör R-koden mycket kortare och lättare att förstå! Därefter vill vi veta hur många unika gennamn och gen-ID det finns. Slutligen kan vi beräkna andelen gener som har mer än uppträder mer än en gång och vi kan titta närmare på SCARNA20-genen. För att beräkna genlängder använder vi samma kod som tidigare.

Nu producerar vi det första diagrammet som visar ett histogram av genlängden. Koden vi behöver för ggplot2 är lite längre än med matplotlib. För att se de kortaste generna beställer vi den ursprungliga dataramen och visar de första 6 raderna. För att se alla gener som finns på mitokondriell kromosom delar vi den första dataramen med två tillstånd.

Vi kan också få kromosomlängderna från dataramen. Vi delar igen till endast huvudkromosomerna, släpper sedan oönskade kolumner och ordnar efter längd. Nu slår vi samman dataframen med antalet gener per kromosom med dataframen av kromosomlängder. Och nu producerar vi den slutliga plotten: För Python använder vi igen matplotlib och för R ggplot2-paketen. Eftersom Zhuyi Xue skapar en ny dataram och justerar tomten något är vår ggplot2-kod enklare och snyggare här.

R vs Python - en en-mot-en-jämförelse. Slutsatser Sammantaget kunde Python-koden enkelt översättas till R och var jämförbar i längd och enkelhet mellan de två språken. R och Python R och Python är båda öppen källkodsspråk som används i ett brett spektrum av dataanalysfält. DDX11L1 29 1 havana-gen 14404 29570. WASH7P 72 1 havana-gen 52473 53312. OR4G4P 75 1 havana-gen 62948 63887. OR4F5 109 1 havana-gen 131025 134836. Median genomsnitt 3: e kv. TRDD1 2 14 havana-gen 22439007 22439015.

TRDD2 3 7 havana gen 142786213 142786224. TRBD1 4 14 havana gen 22449113 22449125. TRDD3 5 4 havana gen 10238213 10238235. R version 3. UTF-8 bifogade baspaket:

(с) 2019 blog-vitalika.ru