-> dragon_cb_cz: Taky si za tím stojím, jelikož těch testů můžeš aplikovat více s různou sílou a který je pak ten medián správný? Nebo důvěřovat datum jako navrhuješ ty? Co to dokáže udělat s výsledky je možno vidět níže. Část mzdy do obálky, práce na černo, DPP ty údaje jsou stejnak jen hodně hrubým odhadem.
Ona komunikace přes internet přináši i kolize v komunikaci co chce člověk říci případně ukázat
skoda.virt.cz
stránky o vozech Škoda 105-136, Rapid, Garde a jejich předchůdcích
Statistika pro Dragona
19:28:56
17.02.2014
17.02.2014
P@nis
18:59:11
17.02.2014
17.02.2014
dragon_cb_cz
-> P@nis: Já s Excelem naštěstí nepracoval nikdy, přímo se Statistica taky ne, buď software přímo na ekonometrický analýzy (vesměs Gretl, protože je zadarmo a na školní analýzy stačí) a nebo Matlab se statistical toolboxem.
Já nezpochybňuju tvoje postupy obecně, spíš mi nějak pořád nesedí na to původní tvrzení, že nelze určit medián mzdy - a pak jsi do toho ještě zamíchal to normální rozdělení a tím jsi mě trochu nahrál
Já nezpochybňuju tvoje postupy obecně, spíš mi nějak pořád nesedí na to původní tvrzení, že nelze určit medián mzdy - a pak jsi do toho ještě zamíchal to normální rozdělení a tím jsi mě trochu nahrál
18:53:31
17.02.2014
17.02.2014
P@nis
-> dragon_cb_cz: Jednou z dobrých voleb na výšce bylo se naučit dělat ve statistickém programu (jeden semestr) a ne dělat v excelu. Mnoho funkcí a výsledku jedním kliknutím, při chybě třeba čísla zčervenají a upozorní na chybu atd.
V programu můžeš využít i řízeni jakosti Six Sigma
To záleží na zadání jestli volit optimistické prognózy či nikoliv.
V programu můžeš využít i řízeni jakosti Six Sigma
To záleží na zadání jestli volit optimistické prognózy či nikoliv.
18:26:58
17.02.2014
17.02.2014
dragon_cb_cz
-> P@nis: Pokud ale tak hezky testuješ data na existenci outlierů, otestoval jsi je před tím na normalitu? Protože pak ten filtr taky může vypadat úplně jinak.... Další věc je, že jeho nastavení právě musí odpovídat spolehlivosti dat - která je v tomhle případě značná (a určitě bych volil víc než 3x sigma).
Ještě pak teda kacířská myšlenka - jelikož stát zajímaj tyhle data především právě kvůli tomu, kolik si trhne, není lepší brát ty údaje z daňových přiznání za bernou minci, i kdyby tam byly chyby? Pro stát je to konzistentnější
Ještě pak teda kacířská myšlenka - jelikož stát zajímaj tyhle data především právě kvůli tomu, kolik si trhne, není lepší brát ty údaje z daňových přiznání za bernou minci, i kdyby tam byly chyby? Pro stát je to konzistentnější
18:07:59
17.02.2014
17.02.2014
P@nis
-> dragon_cb_cz: Jestli pracuji s úplným souborem dat nebo s výběrem je úplně jedno. Chyby se mohou vyskytovat v obou. Nemusí se jednat o chybu měření, ale i přepsání, špatně zapsaná hodnota, převedení z excelu do statistiky při tečce místo čárky značí velký problém, proto statistik nepátra po možnosti, kde chyba vznikla, ale testem ji odstraní a nikdy nevěří, že soubor je bez chyb a test vždy vykoná, ostatně tenhle test je prováděn při popisné statistice automaticky, další testy si můžeš zaškrknout.
Dodatek ke tvým 97,7 %
Výskyt zbývajících 0,3 % hodnot souboru (oba extrémní konce osy x) je tak málo pravděpodobný, že z hlediska statistiky jsou takové hodnoty považovány za chybu měření („odlehlé, extrémní hodnoty“) a vylučují se z dalšího hodnocení.
Jestli ty bez tohodle testu či jiného ponecháš data (i u neznámého rozdělení), jak si je získal dopouštíš se chyby a budeš mít zkreslené výsledky jak prů, mediánu, sm odchylky...
Pro srandu jsem si zadal několik hodnot mzdy a prohnal ho testem. Kupodivu test pracuje se střední hod. a sm. odch. a je hezky vidět, jak při extrému je ovlivněna šíře 3s. U jednoho jsem udělal z 50 000,- 500 000,-, což se může při zadávaní hodnot stát zvláště při větším objemu dat, kopírování atd, ale může to být i reálna hodnota), což mě nemusí zajímat a pátrát jestli je pravdivá viz 0,3 %). S extrémem, neprošel. Bez něj prošel a můžu začít dělat dále.
Dodatek ke tvým 97,7 %
Výskyt zbývajících 0,3 % hodnot souboru (oba extrémní konce osy x) je tak málo pravděpodobný, že z hlediska statistiky jsou takové hodnoty považovány za chybu měření („odlehlé, extrémní hodnoty“) a vylučují se z dalšího hodnocení.
Jestli ty bez tohodle testu či jiného ponecháš data (i u neznámého rozdělení), jak si je získal dopouštíš se chyby a budeš mít zkreslené výsledky jak prů, mediánu, sm odchylky...
Pro srandu jsem si zadal několik hodnot mzdy a prohnal ho testem. Kupodivu test pracuje se střední hod. a sm. odch. a je hezky vidět, jak při extrému je ovlivněna šíře 3s. U jednoho jsem udělal z 50 000,- 500 000,-, což se může při zadávaní hodnot stát zvláště při větším objemu dat, kopírování atd, ale může to být i reálna hodnota), což mě nemusí zajímat a pátrát jestli je pravdivá viz 0,3 %). S extrémem, neprošel. Bez něj prošel a můžu začít dělat dále.
00:04:05
17.02.2014
17.02.2014
dragon_cb_cz
ad 1)
- Opakuju - pracuješ s úplným souborem dat, nikoliv s výběrem. Tzn ty ani nemusíš řešit rozdělení těch dat, jelikož tvoje apriorní představa o jejich distribuci je irelevantní ve chvíli, kdy máš úplný soubor a distribuce je tak jím samotným určena.
Smysl by to mělo, pokud bys měl informaci o příjmech např. tisícovky lidí, tyhle data statisticky analyzoval, nějakým testem dobré shody bys otestoval, že jsou normální a na základě toho pak provedl parametrický odhad toho normálního rozdělení.
Jenže v případě příjmů přece mají statistici k dispozci kompletní data - státní byrokratická mašinerie jim je velice efektivně zajišťuje jako vedlejší produkt své loupeživé nenažranosti. Tzn ty ten medián neurčuješ na základě odhadu parametrů normálního (nebo jakéhokoliv jiného) rozdělení, ale přímým výpočtem!
- Filtrovat outliery má smysl, pokud existuje podezření, že může existovat chyba měření, která je způsobí. Opravdu máš pocit, že někdo přizná finančáku příjmy výrazně vyšší, než jaké skutečně měl? Pokud ano, úvaha s filtrováním outlierů dává smysl (ovšem pořád čekám na vysvětlení proč přes normální rozdělení), jenže pravděpodobnost zkreslení směrem nahoru je téměř nulová, daleko větší je pravděpodobnost směrem (zamlčení příjmů), kterou ovšem tímhle filtrem nejsi schopný odstranit.
- Opakuju - pracuješ s úplným souborem dat, nikoliv s výběrem. Tzn ty ani nemusíš řešit rozdělení těch dat, jelikož tvoje apriorní představa o jejich distribuci je irelevantní ve chvíli, kdy máš úplný soubor a distribuce je tak jím samotným určena.
Smysl by to mělo, pokud bys měl informaci o příjmech např. tisícovky lidí, tyhle data statisticky analyzoval, nějakým testem dobré shody bys otestoval, že jsou normální a na základě toho pak provedl parametrický odhad toho normálního rozdělení.
Jenže v případě příjmů přece mají statistici k dispozci kompletní data - státní byrokratická mašinerie jim je velice efektivně zajišťuje jako vedlejší produkt své loupeživé nenažranosti. Tzn ty ten medián neurčuješ na základě odhadu parametrů normálního (nebo jakéhokoliv jiného) rozdělení, ale přímým výpočtem!
- Filtrovat outliery má smysl, pokud existuje podezření, že může existovat chyba měření, která je způsobí. Opravdu máš pocit, že někdo přizná finančáku příjmy výrazně vyšší, než jaké skutečně měl? Pokud ano, úvaha s filtrováním outlierů dává smysl (ovšem pořád čekám na vysvětlení proč přes normální rozdělení), jenže pravděpodobnost zkreslení směrem nahoru je téměř nulová, daleko větší je pravděpodobnost směrem (zamlčení příjmů), kterou ovšem tímhle filtrem nejsi schopný odstranit.
23:56:39
16.02.2014
16.02.2014
dragon_cb_cz
Argh, měl jsem rozepsanou dlouho sofistikovanou repliku a podařilo se mi jí smazat - tak znova. Přijde mi, že to tady řešíme na víc frontách, zkusím to systematizovat.
1) Vím co se mi snažíš říct - když mám naměřená nějaká data, o kterých předpokládám, že jsou normální a vyskytne se mi tam zjevny outlier, tak se prostě odfiltruje, aby nezkresloval výsledky statistickýho zpracování. To je ve spoustě případů naprosto legitimní postup - ale nikoliv v tomhle. To je moje první výhrada, kterou dále rozvedu - v dalším postu.
2) Druhá výhrada, kterou jsem už vyslovil naprosto nesmyslně sem taháš normální rozdělení. Postup popsaný v bodě 1 totiž vůbec není podmíněný normálním rozdělením, je zcela obecný a na rozdělení dat nezávislý. Takže se znova ptám - proč zrovna normální rozdělení? Zvlášt když a priori víš, že ty data normální nejsou?
1) Vím co se mi snažíš říct - když mám naměřená nějaká data, o kterých předpokládám, že jsou normální a vyskytne se mi tam zjevny outlier, tak se prostě odfiltruje, aby nezkresloval výsledky statistickýho zpracování. To je ve spoustě případů naprosto legitimní postup - ale nikoliv v tomhle. To je moje první výhrada, kterou dále rozvedu - v dalším postu.
2) Druhá výhrada, kterou jsem už vyslovil naprosto nesmyslně sem taháš normální rozdělení. Postup popsaný v bodě 1 totiž vůbec není podmíněný normálním rozdělením, je zcela obecný a na rozdělení dat nezávislý. Takže se znova ptám - proč zrovna normální rozdělení? Zvlášt když a priori víš, že ty data normální nejsou?
20:11:18
16.02.2014
16.02.2014
P@nis
Histogram. Skupinu s nejvyšším počtem bych zvolil jako reprezentanta (modus), jelikož nejvíce lidí má právě tuhle částku k dispozici. Blbost? Podle mého rozhodně přesnější, než čachry s průměrem a mediánem v tomhle případě.
19:52:16
16.02.2014
16.02.2014
P@nis
Tak začnem tedy s aplikovaním tvé interpretace a správného publikování dle mě.
Mám soubor hodnot, pro které ty chceš spočítat prům, medián atd. aniž bys šetřil normalitu dat.
N..........prum.........m ed.........min..........ma x.........smodch
12 56666,67 17500,00 5000,000 500000,0 140167,6
11 16363,64 5000,000 5000,000 30000,00 13055,82
První varianta kdy jsem zadal mzdu půl mega a nešetřil data.
Druhá varianta je po odfiltrování extrémní hodnoty, jenž neprošla a ze statistického hediska je považována za chybu měření a odstraňuje se z důvodu získání realných dat. Zde jdou vidět rozdíly v průměmru a mediánu.
Obrázek poví více než testy. Je zde vidět zahrnuta extrémní hodnota. Pokud někdo publikuje takové grafy, tak si koleduje o smažení.
Mám soubor hodnot, pro které ty chceš spočítat prům, medián atd. aniž bys šetřil normalitu dat.
N..........prum.........m ed.........min..........ma x.........smodch
12 56666,67 17500,00 5000,000 500000,0 140167,6
11 16363,64 5000,000 5000,000 30000,00 13055,82
První varianta kdy jsem zadal mzdu půl mega a nešetřil data.
Druhá varianta je po odfiltrování extrémní hodnoty, jenž neprošla a ze statistického hediska je považována za chybu měření a odstraňuje se z důvodu získání realných dat. Zde jdou vidět rozdíly v průměmru a mediánu.
Obrázek poví více než testy. Je zde vidět zahrnuta extrémní hodnota. Pokud někdo publikuje takové grafy, tak si koleduje o smažení.
19:22:59
16.02.2014
16.02.2014
P@nis
Sorry ale teď mám pocit, že si musíš tu statistiku zopakovat docela důkladně - cituji:
"Jakákoliv popisná statistika mezi jejíž nástroje patří ar. průměr, medián, modus, počet, sm. odchylka atd. je podmíněna normálním rozdělením"
Tohle je naprostá blbost a jestli tomu věříš, tak běž vrátit všechny diplomy co máš. Aritmetický průměr nemá se statistikou per se společného vůbec nic krom toho, že je nestranným odhadem střední hodnoty normálního rozdělení. Medián i modus jsou definované pro libovolnou náhodnou veličinu (jednorozměrnou), bez ohledu na její rozdělení.
Histogram už je úplně blbost, opakuju, uvědom si, že pracuješ s úplným souborem. To o čem ty mluvíš dává smysl v případě parametrickýho odhadu (kterej je pochopitelně podmíněnej volbou konkrétního rozdělení), kterej ale v tomhle případě absolutně nedává smysl - dokonce ani nemusíš dělat neparametrickej odhad, jelikož máš celou distribuční funkci přesně určenou.
Fakt nechápu proč do toho taháš normální rozdělení, pokud by příjmy byly rozdělený exponenciálně (čemuž jsou rozhodně bližší než normálnímu rozdělení), tak můžeš stanovovat medián, modus, průměr a já nevím co všechno úplně v klidu taky. Nevím jestli se rozdělení příjmů dá přibližně popsat nějakou analytickou distribucí, reálný křivky maj celkem blízko k Rayleighovu rozdělení (pokud to omezíš na hodnoty nad minimální mzdou).
EDIT: A to s těma třema směrodatnejma odchylkama na Gaussovce je takový zlatý pravidlo, ale rozhodně nejni nepřekročitelný, předpokládám, že když máš tolik semestrů statistiky, tak tušíš, že to nejni žádná bohem zjevená pravda ale prostě odvozený od toho, že těch 99.7% se prostě ve většině případů považuje za good enough - ale ve spoustě případů to tak zase nejni...
"Jakákoliv popisná statistika mezi jejíž nástroje patří ar. průměr, medián, modus, počet, sm. odchylka atd. je podmíněna normálním rozdělením"
Tohle je naprostá blbost a jestli tomu věříš, tak běž vrátit všechny diplomy co máš. Aritmetický průměr nemá se statistikou per se společného vůbec nic krom toho, že je nestranným odhadem střední hodnoty normálního rozdělení. Medián i modus jsou definované pro libovolnou náhodnou veličinu (jednorozměrnou), bez ohledu na její rozdělení.
Histogram už je úplně blbost, opakuju, uvědom si, že pracuješ s úplným souborem. To o čem ty mluvíš dává smysl v případě parametrickýho odhadu (kterej je pochopitelně podmíněnej volbou konkrétního rozdělení), kterej ale v tomhle případě absolutně nedává smysl - dokonce ani nemusíš dělat neparametrickej odhad, jelikož máš celou distribuční funkci přesně určenou.
Fakt nechápu proč do toho taháš normální rozdělení, pokud by příjmy byly rozdělený exponenciálně (čemuž jsou rozhodně bližší než normálnímu rozdělení), tak můžeš stanovovat medián, modus, průměr a já nevím co všechno úplně v klidu taky. Nevím jestli se rozdělení příjmů dá přibližně popsat nějakou analytickou distribucí, reálný křivky maj celkem blízko k Rayleighovu rozdělení (pokud to omezíš na hodnoty nad minimální mzdou).
EDIT: A to s těma třema směrodatnejma odchylkama na Gaussovce je takový zlatý pravidlo, ale rozhodně nejni nepřekročitelný, předpokládám, že když máš tolik semestrů statistiky, tak tušíš, že to nejni žádná bohem zjevená pravda ale prostě odvozený od toho, že těch 99.7% se prostě ve většině případů považuje za good enough - ale ve spoustě případů to tak zase nejni...