[WebMuses] Bajki z krainy danych

Post on 05-Dec-2014

49 views 3 download

description

Polska wersja opowiastki o krasnalach i analizie danych.

Transcript of [WebMuses] Bajki z krainy danych

Bajki z krainy danychTudzież: czy wiem co robię?

Opowie @przemur z

Historia…

Suspens!

>?

Co zrobiłby krasnalowy Chief Data Scientist?

Nowi krasnale dostają nowy typ młota

Stary typ młota

R

install.packages('ggplot2') require('ggplot2') setwd("/Users/pmm/Desktop/hammer") all <- read.csv(file="all.csv")

qplot(all$month_sequence, all$dwarfs) + geom_smooth() qplot(all$month_sequence, all$production) + geom_smooth()

all$prod_per_dwarf <- all$production / all$dwarfs qplot(all$month_sequence, all$prod_per_dwarf) + geom_smooth()

Nowe młoty dla krasnali od tego miesiąca…

Średnia produkcja złota na jednego krasnala

Ktoś widzi jakiś problem? :)

Produkcja dla danego krasnala w kolejnych miesiącach od jego przyjścia.

Używający stare młoty

Używający nowe młoty

Produkcja dla danego krasnala w kolejnych miesiącach od jego przyjścia.

Używający stare młoty

Używający nowe młoty

LutyMarzec

Produkcja dla danego krasnala w kolejnych miesiącach od jego przyjścia.

Używający stare młoty

Używający nowe młoty

lipiecsierpień

R

new <- read.csv(file="new_relative.csv") old <- read.csv(file="old_relative.csv")

qplot(new$relative_month, new$production) ggplot(new, aes(x=relative_month, y=production)) + geom_point(shape=19, position=position_jitter(width=.5,height=0), alpha=.2)

# Tak bedzie ladniej:old$type='old' new$type='new' old_and_new = rbind(old,new) ggplot(old_and_new, aes(x=relative_month, y=production, color=type)) + geom_point(shape=19, position=position_jitter(width=.5,height=0), alpha=.2)

ggplot(old_and_new, aes(x=relative_month, y=production, color=type)) + geom_point(shape=19, position=position_jitter(width=.5,height=0), alpha=.1) + geom_smooth(method=lm)

Nowe młoty zużywają się dużo szybciej!

Lekcje? :)• Warto:

• wiedzieć co się robi

• zadawać pytania

• być trochę podejrzliwym (przynajmniej jeśli chodzi o wyniki)

• używać R i ggplot2

• Nie warto:

• ufać wykresom ,,w ciemno’’