【2023最新】「統計学」のおすすめ本!人気ランキング
この記事では、「統計学」のおすすめ本をランキング形式で紹介していきます。インターネット上の口コミや評判をベースに集計し独自のスコアでランク付けしています。
Amazonで詳しく見る
紹介文
文科と理科両方の学生のために,統計的なものの考え方の基礎をやさしく解説するとともに,統計学の体系的な知識を与えるように,編集・執筆された.豊富な実際例を用いつつ,図表を多くとり入れ,視覚的にもわかりやすく親しみながら学べるよう配慮した.
第1章 統計学の基礎(中井検裕,縄田和満,松原 望)
第2章 1次元のデータ(中井検裕)
第3章 2次元のデータ(中井研裕,松原 望)
第4章 確率(縄田和満,松原 望)
第5章 確率変数(松原 望)
第6章 確率分布(松原 望)
第7章 多次元の確率分布(松原 望)
第8章 大数の法則と中心極限定理(中井検裕)
第9章 標本分布(縄田和満)
第10章 正規分布からの標本(縄田和満)
第11章 推定(縄田和満)
第12章 仮説検定(縄田和満,松原 望)
第13章 回帰分析(縄田和満)
統計数値表
練習問題の解答
Amazonで詳しく見る
紹介文
統計学というと「なんだか難しそうだな」と思うかもしれませんが、ポイントをしっかり押さえ、あまり本質的でないところにこだわらなければ、誰にでも確実に理解できます。「統計学ってなに?」という素朴な疑問から、マンガでゆるーく解説し、読み終わったときには、知らないうちに統計学が身についているという、いままでにない統計学の入門書。
第1章 平均・分散・標準偏差(統計処理をしてみよう
二峰性のヒストグラムとは ほか)
第2章 正規分布(正規分布で「近似」するぜ
標準正規分布 ほか)
第3章 いろいろな分布(二項分布とは
二項分布の例 ほか)
第4章 推測統計(推測統計学
「おおむね」正規分布に従う、とは? ほか)
第5章 仮説検定(仮説の検定
いろいろな検定)
Amazonで詳しく見る
紹介文
トキメキ統計学
データの種類をたしかめよう!
データ全体の雰囲気をつかもう!(数量データ編
カテゴリーデータ編)
基準値と偏差値
確率を求めよう!
2変数の関連を調べよう!
独立性の検定をマスターしよう!
Excelで計算してみよう!
Amazonで詳しく見る
紹介文
数学が苦手な人でも理解して読み進めるように基礎的な知識を丁寧に解説した統計学の入門書。練習問題を解いていくうちに、統計学のエッセンスを身につけることができるワークブック。
学習のためのこころがけ
第1章 統計学はどのような学問か
1.1 統計学とは何か
1.2 統計学の考え方の基礎
1.3 統計学の分析概念(その1)-確率と確率分布-
1.4 統計学の分析概念(その2)-母集団と標本-
1.5 標本抽出
1.6 階級分けしたデータの作り方
補論
第1章の練習問題
第2章 標本分布の特性値
2.1 いろいろな形の分布
2.2 分布の特性値
第2章の結語
第2章の練習問題
第3章 確率と確率分布
3.1 このテーマの重要性
3.2 確率
3.3 確率変数と確率分布
3.4 二項分布(Bi-nomial distribution、Bernoulli distribution)
3.5 ポアソン分布(Poisson distribution)
第3章の練習問題
第4章 一様分布と正規分布
4.1 一様分布(Uniform distribution)別名:矩形分布(Rectan-gulardistribution)
4.2 正規分布(Normal distribbution)
第4章の練習問題
第5章 標本平均の分布と母平均の推定
5.1 統計的有意性
5.2 標本平均のXの分布
5.3 母平均のμの推定
第5章の練習問題
第6章 t分布と母平均の推定
6.1 t分布(Studentのt分布)
6.2 母平均μの推定(母標準偏差θが未知で、小標本の場合)(A-2)
6.3 母平均μの推定(母標準偏差は未知で、大標本の場合)(A-3)
6.4 母平均μの推定のまとめ 第6章の練習問題
第7章 χ2乗分布と母標準偏差の推定
7.1 χ2乗分布(カイ2乗分布)
7.2 母標準偏差の推定(B-1)
7.3 母数の推定の方法の総まとめ
補論
第7章の練習問題
第8章 仮説検定
8.1 統計的仮説検定の考え方
8.2 母平均μに関する仮説検定-対立仮説が不等式の場合-
8.3 応用
第8章の練習問題
第9章 相関分析
9.1 相関関係と相関分析
9.2 単純相関係数の計算(Raw dataのケース)
9.3 単純相関係数の計算(Classified dataのケース)
第9章の練習問題
第10章 回帰分析
10.1 回帰分析の概要
10.2 OLS(最小二乗法)
10.3 Classified data のOLS
10.4 もっとも詳しい回帰分析-回帰係数の有意性の検定-
第10章の練習問題
Amazonで詳しく見る
紹介文
超基本を理解するだけで、マーケティング調査のデータ分析、金融商品のリスクとリターン、株・為替相場のボラティリティ、選挙の出口調査までわかる。
第1部 速習!標準偏差から検定・区間推定まで(度数分布表とヒストグラムで、データの特徴を浮き彫りにする
平均値とはやじろべえの支点である-平均値の役割と捉え方
データの散らばり具合を見積る統計量-分散と標準偏差
そのデータは「月並み」か「特殊」か?標準偏差(S.D.)で評価する ほか)
第2部 観測データから背後に広がる巨大な世界を推測する(「部分」によって「全体」を推論する-母集団と統計的推定
母集団のデータの散らばり具合を表す統計量-母分散と母標準偏差
複数データの平均値は、1個のデータより母平均に近くなる-標本平均の考え方
観測データが増えるほど、予言区間は狭くなる-正規母集団の便利グッズ、標本平均 ほか)
Amazonで詳しく見る
紹介文
統計的推測理論まで解説した本格的入門書
数理系の学生から各分野の研究者まで、統計学の現代的手法を基礎から本格的に学びたい人のための参考書(初版1990年)。2003年発行の改訂版では、確率数学・情報数学の基本的な概念を使って、統計学の数理を明解に論じ、統計解析の章を充実させた。
「第1章 確率変数と確率分布」では、大数の法則と中心極限定理、ポアソン過程とガウス過程に触れ、確率論や確率過程への一歩にもなるように心がけた。「第2章 統計的推測」では、情報量と決定原理を取り上げ、統計的推測の数理を明確にした。「第3章 統計解析」では、直線回帰の項を設け、また回帰分析を全面的に書き直し、尤度解析の節を充実することにより、統計モデルによるデータと母数との聞の情報のやりとりが実験できることを目標にした。
1.確率変数と確率分布
§1 事象と確率
§2 確率変数と確率分布
§3 確率分布の代表的モデル
§4 2次元確率ベクトルの分布
§5 多変量確率ベクトルの分布
§6 標本分布
2.統計的推測
§7 統計学における情報量
§8 統計的推測決定
§9 統計的推定
§10 統計的仮説検定
3.統計解析
§11 直線回帰分析
§12 多重線形回帰分析
§13 分散分析
§14 尤度解析法
Amazonで詳しく見る
紹介文
平均値の知られざる本質から代表的な6手法の使い方まで、「ビジネス×統計学」の最前線で活躍する著者が明かす因果関係を見抜くためのフレームワーク。
序章 ビジネスと統計学を繋ぐために
第1章 統計学の実践は基本の見直しから始まる-「平均」と「割合」の本質
第2章 統計学が「最強」であるもう1つの理由-標準誤差と仮説検定
第3章 洞察の王道となる手法群-重回帰分析とロジスティック回帰
第4章 データの背後にある「何か」-因子分析とクラスター分析
終章 統計手法のまとめと使用の手順
Amazonで詳しく見る
紹介文
本書は、入門書でありながら統計解析の基礎手法を幅広い視野から解説してあるので、統計解析の全容がつかめます。
データの整理
分布と期待値
検定と推定の考え方
計量値に関する検定と推定
分散分析
相関分析
回帰分析
計数値に関する検定と推定
Amazonで詳しく見る
紹介文
迷惑メールが自動的に判別されるしくみとは?先端ビジネスや医療を支える「未来を予測する統計学」を根本から解説。かけ算・わり算だけで理解できる!
四則計算だけで理解するベイズ統計学
第1部 速習!ベイズ統計学のエッセンスを理解する(情報を得ると確率が変わる-「ベイズ推定」の基本的な使い方
ベイズ推定はときに直感に大きく反する1-客観的なデータを使うときの注意点
主観的な数字でも推定ができる-困ったときの「理由不十分の原理」
「確率の確率」を使って推定の幅を広げる
推論のプロセスから浮き彫りになるベイズ推定の特徴 ほか)
第2部 完全独習!「確率論」から「正規分布による推定」まで(「確率」は「面積」と同じ性質を持っている-確率論の基本
情報が得られた下での確率の表し方-「条件付確率」の基本的な性質
より汎用的な推定をするための「確率分布図」
2つの数字で性格が決まる「ベータ分布」
確率分布図の性格を決める「期待値」 ほか)
Amazonで詳しく見る
紹介文
基本から段階を踏んできちんと学ぶことができ、初版より長年好評を博してきたテキスト。やや難しい箇所には印を付し、使う人の目的に合った講義や学習が出来るよう工夫されている。
第1章 平均値と分散
第2章 度数分布
第3章 回帰と相関の分析
第4章 確率
第5章 確率変数と確率分布
第6章 主な確率分布
第7章 標本分布
第8章 推定
第9章 検定
第10章 回帰の推測統計理論
Amazonで詳しく見る
紹介文
"柔軟"に対応する事前確率を使うことで、ベイズ統計は、"あいまい"な人間の経験則や感性を取り込み、現実で使える情報を導き出す。ビジネスはもちろん、幅広い分野で活用が期待されるベイズ統計-。その基本と活用法を統計の基礎知識がなくてもわかるようにやさしく解説。
序章 GoogleもMSもベイズ統計!
1章 ベイズ統計の準備をしよう
2章 ベイズの定理とその応用
3章 ベイズ統計学の基本
4章 ベイズ統計学の応用
5章 MCMC法で解くベイズ統計
6章 階層ベイズ法もExcelで
付録
Amazonで詳しく見る
紹介文
経済学、経営学、保険、スポーツ、医療、教育、心理学など多岐にわたる豊富な実用例を収録しました。これらの実用例を理解することで、単なる理論体系ではなく、「生きた」知識として統計学を身につけることができます。高等学校初級年程度の数学で内容を理解できるように工夫しています。直観的な理解を優先し、難しい証明は章末にまわし、滑らかな統計学の理解を可能としています。本書によって、上級の専門書に進むための基礎が身につき、入門書と上級書の橋渡しが可能となります。
統計学とは
基礎編(データの記述
相関
確率
確率変数と確率分布
主要な確率分布
母数の推定
仮説検定)
応用編(正規分布の派生分布
回帰分析の基礎
単回帰分析
重回帰分析)
付録
Amazonで詳しく見る
紹介文
本書は、回帰分析と重回帰分析とロジスティック回帰分析を解説した書籍です。
プロローグ ノルンへようこそ!
第1章 基礎知識
第2章 回帰分析
第3章 重回帰分析
第4章 ロジスティック回帰分析
付録 Excelで計算してみよう!
Amazonで詳しく見る
紹介文
現象を数理モデルで表現・説明するのに慣れていない人のために、章ごとに異なる例題を解決していく過程を通して、統計モデルの基本となる考えかたを紹介する。前半では、応用範囲のひろい統計モデルのひとつである一般化線形モデルの基礎を、後半では、実際のデータ解析に使えるように、階層ベイズモデル化する方法を、RとWinBUGSの具体例を用いて説明する。
第1章 データを理解するために統計モデルを作る
第2章 確率分布と統計モデルの最尤推定
第3章 一般化線形モデル(GLM)-ポアソン回帰
第4章 GLMのモデル選択-AICとモデルの予測の良さ
第5章 GLMの尤度比検定と検定の非対称性
第6章 GLMの応用範囲をひろげる-ロジスティック回帰など
第7章 一般化線形混合モデル(GLMM)-個体差のモデリング
第8章 マルコフ連鎖モンテカルロ(MCMC)法とベイズ統計モデル
第9章 GLMのベイズモデル化と事後分布の推定
第10章 階層ベイズモデル-GLMMのベイズモデル化
第11章 空間構造のある階層ベイズモデル
Amazonで詳しく見る
紹介文
様々な統計手法を学んでいくための基礎的知識を取り上げて解説した2色刷りのテキスト。相関係数、正規分布、z検定等を取り上げた。
様々な統計手法を学んでいくうえの基礎的知識を取り上げて解説。本書では、記述統計量、相関係数、正規分布、統計的仮説検定、z検定等を重点的に取り上げている。
心理学のための統計学[全9巻]
1心理学のための統計学入門
2実験心理学のための統計学
3社会心理学のための統計学
4教育心理学のための統計学
5臨床心理学のための統計学
6パーソナリティ心理学のための統計学
7発達心理学のための統計学
8消費者心理学のための統計学
9犯罪心理学のための統計学
第1章 学力調査で学ぶ心理データの測定・分類法――4つの尺度
1.1 心理学なのになぜ統計学が必要か
1.2 調査データの実際
1.3 測定と尺度
1.4 尺度の4分類
1.5 測定値間に許される計算
1.6 心理学における間隔尺度
Quiz
第2章 性格の個人差を把握する――1変数分布の要約
2.1 ビッグファイブのデータ行列
2.2 図表によって分布をまとめる
2.3 分布の中心はどこか
2.4 データの散らばりを評価する
2.5 代表値・散布度を利用して結果を解釈する
Quiz
第3章 心理尺度の得点を解釈する――標準化と正規分布
3.1 個人を最も特徴づける性格とは――集団内での位置
3.2 z得点と標準化
3.3 偏差値で考える
3.4 標準得点を有効活用する
Quiz
第4章 職場環境とストレスの関係を把握する――多変数の関係性の分析
4.1 メンタルヘルス・データ
4.2 相関と散布図
4.3 共分散による相関の数的表現
4.4 共分散の欠点と相関係数による克服
4.5 相関係数の解釈
4.6 連関
Quiz
第5章 発達検査の精度を知る――推測統計の基礎知識
5.1 架空の発達検査KSATの概要
5.2 KSATの診断基準と基準集団
5.3 検査の基準集団に求められること
5.4 5歳児全体の分布を推測する
5.5 母集団分布を予測する――母平均の推定
5.6 標本平均は分布する
5.7 母集団分布を予測する――母分散の予測
5.8 KSATの診断基準の精度を求める
Quiz
第6章 異文化への適応を評価する――1つの平均値の検定
6.1 アメリカに居住する日本人の意識調査
6.2 推定と検定の違い
6.3 仮説と検定の種類
6.4 対立仮説の正しさを示す「証拠」
6.5 証拠の信憑性を評価する
6.6 1つの平均値のz検定――片側検定
6.7 1つの平均値のz検定――両側検定
6.8 棄却域と臨界値
6.9 検定における推測の誤差
6.10 検定結果の解釈における留意点
6.11 1つの平均値のt検定
Quiz
第7章 心理学論文を読むために――パーセンタイル,χ2検定,信頼区間など
7.1 四分位数とパーセンタイル
7.2 四分位偏差と箱ヒゲ図
7.3 歪度と尖度
7.4 偏相関係数
7.5 連関係数
7.6 相関と連関の検定
7.7 比率を推定する
7.8 母平均の区間推定
Quiz
付録
索引
Amazonで詳しく見る
紹介文
多くの読者から親しまれてきた定評あるテキストの新版。練習問題を増やし解答をつけ学習の便宜を図った。統計検定1級対策にも好適。
多くの読者から親しまれてきた定評あるテキストの新装改訂版.
数理統計学の基礎的な概念,標準的な理論を数学的説明だけでなく言葉で丁寧に解説する.さらに,広範にわたる話題を一貫した視点でとらえることにより統一的・俯瞰的な理解へ導く.
このたびの改訂では読者の学習の便宜をはかり,新たに40題の練習問題を追加するとともに,問題解答例をサポートサイトにて公開する.
統計検定®1級試験に向けた学習にも好適.
【統計検定®推薦図書】
※ 本書は,1991年11月に創文社より刊行されたものを新たに組み直し増補改訂した新版です.
※ 統計検定®は一般財団法人統計質保証推進協会の登録商標です.
多くの読者から親しまれてきた定評あるテキストの新版。このたびの改訂では,練習問題を増やし解答をつけ,読者の学習の便宜を図った。統計検定1級試験に向けた学習にも好適。
第1章 前置きと準備
第2章 確率と1次元の確率変数
第3章 多次元の確率変数
第4章 統計量と標本分布
第5章 統計的決定理論の枠組み
第6章 十分統計量
第7章 推定論
第8章 検定論
第9章 区間推定
第10章 正規分布,2項分布に関する推測
第11章 線形モデル
第12章 ノンパラメトリック法
第13章 漸近理論
第14章 ベイズ法
補論
参考文献
Amazonで詳しく見る
紹介文
テスト成績の偏差値はどうやって計算するの?何人に出口調査すれば「当落予測」できる?など身近な話題から統計の考え方を理解する
日本統計学会75周年記念推薦図書。画期的にわかりやすい! 身近な話題から統計の考え方を理解する! 視聴率はどこまで信頼できるの? テスト成績の偏差値はどうやって計算するの? 要精密検査になった。私はガンの可能性が高い? 何人に出口調査すれば「当落予測」できる? 英語が得意な人は理系である!? 子供の身長を両親の身長から予測できる? など、具体的な実例でわかりやすい「画期的統計入門」。
日本統計学会75周年記念推薦図書
画期的にわかりやすい!
身近な話題から統計の考え方を理解する!
視聴率はどこまで信頼できるの?
テスト成績の偏差値はどうやって計算するの?
要精密検査になった。私はガンの可能性が高い?
何人に出口調査すれば「当落予測」できる?
英語が得意な人は理系である!?
子供の身長を両親の身長から予測できる?
など、具体的な実例でわかりやすい「画期的統計入門」。
第1章 統計学=データの科学とは何か――統計学の体系・データの見方――
第2章 データに語らせる――記述統計学・データ解析の話――
第3章 チャンスをはかる――確率・確率分布の話――
第4章 統計的推測はどこまで可能か――推定・検定の考え方――
第5章 多変量の情報をうまく活かす――多変量解析の考え方――
第6章 統計学の広がり――統計学の過去・現在・未来――
Amazonで詳しく見る
紹介文
50の重要な統計と機械学習の「コンセプト」について、多方面からの理解を促すよう構成。
50項目の基本的なコンセプトを過不足なく説明し、最低限の数式とコードで理解を深める!
50の重要な統計と機械学習の「コンセプト」について、簡潔かつ正確な説明と、それを裏付ける最低限の数式、クリアな可視化、実現するRコードを過不足なく提示することで、多方面からの理解を促します。1つの項目について、概念、数学的裏付け、プログラミングといった多方面からアプローチし、シンプルに説明しているので、概念と実例を結びつけることができ、知識を確実に自分のものにすることが可能です。実際に動かして概念を理解することができます。
Amazonで詳しく見る
紹介文
あえて断言しよう。あらゆる学問のなかで統計学が最強の学問であると。どんな権威やロジックも吹き飛ばして正解を導き出す統計学の影響は、現代社会で強まる一方である。「ビッグデータ」などの言葉が流行ることもそうした状況の現れだが、はたしてどれだけの人が、その本当の魅力とパワフルさを知っているだろうか。本書では、最新の事例と研究結果をもとに、今までにない切り口から統計学の世界を案内する。
第1章 なぜ統計学が最強の学問なのか?
第2章 サンプリングが情報コストを激減させる
第3章 誤差と因果関係が統計学のキモである
第4章 「ランダム化」という最強の武器
第5章 ランダム化ができなかったらどうするか?
第6章 統計家たちの仁義なき戦い
終章 巨人の肩に立つ方法
Amazonで詳しく見る
紹介文
機械学習を学ぶ前に、Pythonを使って統計の基礎をしっかり固める!
基礎理論を飛ばさない!
推定・検定から統計モデル・機械学習へ!
本書は統計学の理論をゼロから学べる教科書です。
IoTやビッグデータの発展によりさまざまなデータが社会にあふれ、
全てのデータを確認するのは難しくなってきています。
多くのデータから価値があるデータを作成するには統計学の知識が必須です。
【本書のポイント】
本書は統計学をはじめて勉強するかたでも、
読み進めていけるように、以下の3点を重点的に解説しています。
・データをどのように分析するのか
・なぜそのように分析するのが良いことなのか
・Pythonを使ってどのように分析するのか
【統計学を勉強するためのツールについて】
この書籍では、学習していく際のツールに、プログラミング言語のPythonを使用します。
PythonはExcelやRより自由度が高く、機械学習に多く利用されているので幅広い層から注目集めています。
Pythonに馴染むことにより、機械学習を利用したデータ分析者になるための基礎的な技術も身に付けられます。
【本書の構成】
本書は全7部構成になっています。
それぞれの部で次のようなことを解説しています。
第1部では統計学の基本を解説しています。
第2部でPythonの基本やJupyter Notebookの使い方を説明します。
第3部でPythonを用いた統計分析の方法を学びます。
第4部からは統計モデルについて学んでいきます。
第5部では正規線形モデルを解説します。
第6部それを発展させた一般化線形モデルについて解説します。
第7部は、統計学から機械学習へのつながりを学びます。
統計学やPythonのことを何も知らない方にもオススメの一冊です。
第1部 統計学の基本
第1章 統計学
第2章 標本が得られるプロセス
第3章 標本が得られるプロセスの抽象化
第4章 記述統計の基礎
第5章 母集団分布の推定
第6章 確率質量関数と確率密度関数
第7章 統計量の計算
第8章 確率論の基本
第9章 確率変数と確率分布
第2部 PythonとJupyter Notebookの基本
第1章 環境構築
第2章 Jupyter Notebookの基本
第3章 Pythonによるプログラミングの基本
第4章 numpy・pandasの基本
第3部 Pythonによるデータ分析
第1章 Pythonによる記述統計:1変量データ編
第2章 Pythonによる記述統計:多変量データ編
第3章 matplotlib・seabornによるデータの可視化
第4章 母集団からの標本抽出シミュレーション
第5章 標本の統計量の性質
第6章 正規分布とその応用
第7章 推定
第8章 統計的仮説検定
第9章 平均値の差の検定
第10章 分割表の検定
第11章 検定の結果の解釈
第4部 統計モデルの基本
第1章 統計モデル
第2章 統計モデルの作り方
第3章 データの表現とモデルの名称
第4章 パラメタ推定:尤度の最大化
第5章 パラメタ推定:損失の最小化
第6章 予測精度の評価と変数選択
第5部 正規線形モデル
第1章 連続型の説明変数を1つ持つモデル(単回帰)
第2章 分散分析
第3章 複数の説明変数を持つモデル
第6部 一般化線形モデル
第1章 さまざまな確率分布
第2章 一般化線形モデルの基本
第3章 ロジスティック回帰
第4章 一般化線形モデルの評価
第5章 ポアソン回帰
第7部 統計学と機械学習
第1章 機械学習の基本
Amazonで詳しく見る
紹介文
1.データの表示と要約統計量/2.統計的推測の基本/3.代表的な分布/4.二つの平均値の比較/5.区間推定/6.実験計画/7.分散分析/8.相関と回帰/9.分割表と独立性の検定/10.比率に関する推測/11.ノンパラメトリック法/12.統計処理アプリケーションウェア/13.線形モデル/14.生物学的応用
Amazonで詳しく見る
紹介文
ビッグデータ、機械学習で注目されているベイズ統計学がお馴染みの「マンガでわかる」シリーズの最新刊として登場。
ビッグデータ、機械学習で注目されているベイズ統計学がマンガでわかる!!
本書はマンガを使ってベイズ統計学の基礎から実際の利用例まで解説するものです。また一般的に統計学のことをさす数理統計学とベイズ統計学の違いもふれます。さらにコンピュータシミュレーションでよく使われるモンテカルロ法やエントロピーについても解説しますのでマンガとはいえ実践的な内容となっているものです。
第1章 ベイズ統計学とは
第2章 基礎知識
第3章 尤度関数
第4章 ベイズの定理
第5章 マルコフ連鎖モンテカルロ法
第6章 マルコフ連鎖モンテカルロ法の活用例
エピローグ
Amazonで詳しく見る
紹介文
「健診を受けていれば健康になれる」「テレビを見せると子どもの学力が下がる」「偏差値の高い大学に行けば収入は上がる」はなぜ間違いなのか? 世界中の経済学者がこぞって用いる最新手法「因果推論」を数式なしで徹底的にわかりやすく解説。世のなかにあふれる「根拠のない通説」にだまされなくなる!
Amazonで詳しく見る
紹介文
一般的に調査・観測データには欠測が生じることが多く,適切な欠測データの処理をしなければ,解析結果に偏りが生じることがある。多重代入法は,尤度解析法と並んで最も汎用的な欠測データ解析法であるが,これまでの書籍では理論的な解説が主で,実際の応用事例や具体的な手順の記述が少なかった。そのため,実証分析を行う社会科学者や実務者が多重代入法を実際に活用することにはハードルがあった。
本書は,ワンポイントとして代入法を中心に解説している。平均値のt検定,重回帰分析,ロジスティック回帰分析,時系列分析,パネルデータ分析といった社会科学において頻繁に使用される分析手法に関して,データに欠測が生じている場合に,多重代入法を用いてどのように欠測データを処理していけばよいかを具体的に示している。
事例で扱ったデータとRコードが掲載されているので,読者は本書に示された手順を再現しながら,欠測データの解析法を学んでいくことができる。主に,ウェブ上で入手可能な実データで解説しているので,実践的な技能が身につく。本書は,座学として単に読むだけでなく,ぜひコンピュータ上で実際に処理を体験して欲しい。それが,欠測データの解析法を理解し,修得する近道である。
第1章 Rによるデータ解析
1.1 Rへのデータ読み込み
1.2 平均値と標準偏差
1.3 回帰分析
1.4 forループ
第2章 不完全データの統計解析
2.1 無回答とは
2.2 欠測パターン
2.3 欠測メカニズム
2.4 MARデータのシミュレーション
2.5 MARについての注意点
2.6 欠測の処理方法
2.7 代入法の目的
第3章 単一代入法
3.1 データ
3.2 確定的回帰代入法
3.3 比率代入法
3.4 平均値代入法
3.5 ホットデック法
3.6 確率的回帰代入法
第4章 多重代入法の概要
4.1 単一代入法の実態
4.2 ベイズ統計学概論
4.3 多重代入モデルの概要
4.4 多重代入法による代入結果の例
4.5 多重代入法による分析の流れ
4.6 多重代入法による分析結果の統合方法
4.7 多重代入法による分析結果の統合方法の数値例
4.8 多重代入法の諸条件
4.8.1 適切な多重代入法
4.8.2 適合性
4.8.3 多重代済みデータ数M
第5章 多重代入法のアルゴリズム
5.1 データ
5.2 DAアルゴリズムによる多重代入法
5.3 FCSアルゴリズムによる多重代入法
5.4 EMBアルゴリズムによる多重代入法
5.5 アルゴリズム間の長所と短所
5.6 MCMC系アルゴリズムにおける収束判定
5.7 多重代入法の性能比較
第6章 多重代入モデルの診断
6.1 診断の考え方
6.2 データ
6.3 Rパッケージ Ameliaによる代入の診断
6.4 Rパッケージ miceによる代入の診断
6.5 Rパッケージ normによる代入の診断
6.6 対数正規分布データの代入法
第7章 量的データの多重代入法I:平均値のt検定
7.1 多重代入済みデータの平均値と分散の復習
7.2 t検定の概論
7.2.1 多重代入済みデータを用いたt検定
7.2.2 多重代入済みデータを用いた自由度の算出
7.3 データ
7.4 Rパッケージ Ameliaによるt検定
7.5 Rパッケージ miceによるt検定
7.6 Rパッケージ normによるt検定
第8章 量的データの多重代入法II:重回帰分析
8.1 重回帰分析概論
8.2 データ
8.3 Rパッケージ Ameliaによる重回帰分析
8.4 回帰診断
8.4.1 誤差項の正規性
8.4.2 不均一分散
8.4.3 多重共線性
8.4.4 外れ値
8.5 Rパッケージ miceによる重回帰分析と診断
8.6 Rパッケージ normによる重回帰分析と診断
第9章 質的データの多重代入法I:ダミー変数のある重回帰分析
9.1 質的データの代入法に関する議論
9.2 ダミー変数のある重回帰モデル概論
9.3 データ
9.4 Rパッケージ miceによるダミー変数のある重回帰分析
9.5 Rパッケージ hot.deckによるダミー変数のある重回帰分析
第10章 質的データの多重代入法II:ロジスティック回帰分析
10.1 ロジスティック回帰分析概論
10.2 データ
10.3 Rパッケージ miceによるロジスティック回帰分析
10.4 Rパッケージ hot.deckによるロジスティック回帰分析
10.5 順序変数と多項変数の多重代入法
第11章 時系列データの多重代入法:ARIMAモデル
11.1 時系列分析概論
11.2 データ
11.3 Rパッケージ Ameliaによる時系列データ分析
11.3.1 ARIMAモデルの推定
11.3.2 モデルの診断
11.3.3 予測
第12章 パネルデータの多重代入法:固定効果と変量効果
12.1 パネルデータ分析概論
12.1.1 プール最小二乗法
12.1.2 固定効果モデル
12.1.3 変量効果モデル
12.1.4 不均一分散と系列相関
12.2 データと使用するRパッケージ
12.3 Rパッケージ Ameliaによるパネルデータ分析
第13章 感度分析:NMARの統計解析
13.1 感度分析
13.2 NMARにおける解析手法
13.3 Rパッケージ SensMiceとAmeliaによる感度分析
13.4 Rパッケージ SensMiceとmiceによる感度分析
13.5 Rパッケージ SensMiceとnormによる感度分析
第14章 事前分布の導入
14.1 Rパッケージ Ameliaによる事前分布の活用
14.1.1 観測値に関する事前分布
14.1.2 変数の値に関する事前分布
14.1.3 リッジ事前分布
14.1.4 複数の事前分布
14.2 Rパッケージ normによる事前分布の活用
14.3 Rパッケージ miceによる事前分布の活用
参考文献
索 引
Amazonで詳しく見る
紹介文
21世紀はデータを制する者が世界を制覇する「ビッグデータ時代」に突入する。専門家が初めて詳細を著した決定版
■なぜグーグルは複数の検索語と数式を組み合わせてインフルエンザの流行を予測できるのか■なぜアマゾンは、データによる「お勧め本」システムを採用したのか■なぜ「一人一人のお尻の形」のデータが「金の成る木」に変身するのか■なぜ電子書籍が発達すると「本」「読書」の概念が根本から変わってしまうのか?■なぜ今日の映画産業は、事前に「ヒット作」や「具体的な黒字・赤字」を予想できるのか?答えはすべて本書の中に。
2013年最大のキーワード「ビッグデータ」を初めて本格的に論じたベストセラー、待望の翻訳!!
我々の未来の生活、仕事、意識、すべてが「ビッグデータ」によって大きく変わる。
■なぜグーグルは複数の検索語と数式を組み合わせてインフルエンザの流行を予測できるのか■なぜアマゾンは社内の編集者や書評家をすべてお払い箱にして、データによる「お勧め本」システムを採用したのか■なぜ日本の研究者が集める「一人一人のお尻の形」のデータが「金の成る木」に変身するのか■なぜ「オレンジ色に塗られた中古車は故障が少ない」と判明したのか■なぜ電子書籍が発達すると「本」「読書」の概念が根本から変わってしまうのか?■なぜ今日の映画産業は、クランクインの前から「ヒット作」や「具体的な黒字・赤字」を予想できるのか?■なぜ「これからもっともセクシーで金を稼げる職業」は「データ・サイエンティスト」なのか
伊藤穰一(MITメディアラボ所長)
「押し寄せる情報の波によって、世の中の捉え方自体が根本から変わろうとしている。この事実をあぶり出すうえで新境地を切り開いたのが、本書『ビッグデータの正体』だ。企業はいかに新たな価値を生み出すことができるのか、人々は物事の認知のあり方をどのように変える必要があるのか――本書は大胆な主張と見事な語り口でその答えをはっきりと示している」
ローレンス・レッシグ(ハーバード大学ロースクール教授、『Free Culture』著者)
「物の見方を大きく変えてしまう本が10年に数冊は登場するが、まさに本書がそれだ。社会はビッグデータがもたらす変化に目を向け始めている。本書はその重要な出発点となる」
第1章 世界を変えるビッグデータ
When Data Speaks データが語り始めるとき
第2章 第1の変化「すべてのデータを扱う」
「N=全部」の世界
第3章 第2の変化「精度は重要ではない」
量は質を凌駕する
第4章 第3の変化「因果から相関の世界へ」
答えが分かれば、理由は要らない
第5章 データフィケーション
「すべてのもの」がデータ化され、ビジネスになる時代
第6章 ただのデータに新たな価値が宿る
ビジネスモデルの大変化 その1
第7章 データを上手に利用する企業
ビジネスモデルの大変化 その2
第8章 リスク ビッグデータのマイナス面
『1984』の悪夢は実現するか
第9章 情報洪水時代のルール
ビッグデータ時代のガバナンスとは
第10章 ビッグデータの未来
ここまで述べてきたことの「まとめ」
Amazonで詳しく見る
紹介文
大学の数学がこんなに分かる!単位なんて楽に取れる!モーメント母関数?中心極限定理?大丈夫!マセマならスグ分かる。
講義1 離散型確率分布(1変数確率関数)(確率編)
講義2 連続型確率分布(1変数確率密度)(確率編)
講義3 2変数の確率分布(確率編)
講義4 ポアソン分布と正規分布(確率編)
講義5 χ2分布、t分布、F分布(確率編)
講義6 データの整理(記述統計)(統計編)
講義7 推定(統計編)
講義8 検定(統計編)
Amazonで詳しく見る
紹介文
『数学大百科事典』に続くシリーズ第2弾。実務や試験で統計分析を行う人のためにその手法から理論まで網羅的に解説する。
実は身近な統計学の理論が効率的に学べる
【本書の特徴】
●さまざまな分野で登場する可能性の高い統計学の公式・定理を解説しています
●統計学を必要としている人が効率的に・要領よく学ぶことができます
●充実した索引を活用し、リファレンスとしても利用できます
●各項目に「難易度」「実用」「試験」それぞれの重要性を星5段階で示しています
●「Business」という項目で、その統計学の知識を利用した身近な例を紹介しています
●項目ごとに想定される読者の統計学のレベル・数式リテラシーに
合わせて記述しているので、学習時間と内容にムダがありません。
現代において統計学の知識は、
あらゆる分野で必要不可欠なものになっています。
最近では理系・文系の垣根も崩れ、
「経営学」や「経済学」、「医学」など、さまざまな分野で
統計学の素養が求められています。
しかし統計手法を普段実務で使っている方でも、
どの手法を選んだらよいか迷ったり、
場面が異なると手順がわからなかったりと、
応用が利かないものになっているのではないでしょうか。
そして、いざ学ぼうと思っても、
統計学の参考書は厳密に解説し過ぎていて学習に時間がかかってしまったり、
個別の例に沿いすぎていて応用が利かなかったりします。
そのため本書では、統計学の知識を効率的に学びたい人のために、
重要な公式・定理などに絞って、その手法の理論や特徴を解説しています。
巻末にAppendixとして付けている統計学の数値表もご参照ください。
【こんな方におすすめ】
・実務や試験で統計分析を行う方。
・統計検定の受験を考えている方。
・高校や大学で学んだ数学の知識を活用したいと考えている方。
(各節ごとのレベル感は、★で示しています)
<本書の構成>
Chapter 01 記述統計
Chapter 02 相関関係
Chapter 03 確率
Chapter 04 確率分布
Chapter 05 推定
Chapter 06 検定
Chapter 07 ノンパラメトリック検定
Chapter 08 回帰分析
Chapter 09 分散分析と多重比較法
Chapter 10 多変量解析
Chapter 11 ベイズ統計
Appendix
Chapter 01 記述統計
Introduction
01 データの尺度
02 度数分布表とヒストグラム
03 パレート図
04 添え字とシグマ記号
05 平均・分散・標準偏差
06 度数分布表と平均・分散
07 代表値
08 変量の標準化
09 歪度・尖度
10 四分位数・箱ひげ図
11 クロス表
12 円グラフ・帯グラフ・折れ線グラフ
13 散布図
14 ローレンツ曲線
15 Q-Qプロット
Column|幹葉図からデータの代表値を読み取る
Chapter 02 相関関係
Introduction
01 ピアソンの相関係数
02 スピアマンの順位相関係数
03 ケンドールの順位相関係数
04 クラメールの連関係数
05 相関係数の推定・検定
06 自己相関係数
Column|疑わしい相関はいくらでもある
Chapter 03 確率
Introduction
01 事象と確率
02 包含と排除の原理
03 離散型確率変数
04 連続型確率変数
05 累積分布関数
06 期待値・分散
07 事象の独立・確率変数の独立
08 確率変数の和・積
09 2次元の確率変数(離散型)
10 2次元の確率変数(連続型)
11 期待値・分散の公式
12 大数の法則・中心極限定理
13 チェビシェフの不等式
Column|クラスの中に誕生日が同じ2人がいる確率を求める
Chapter 04 確率分布
Introduction
01 ベルヌーイ分布・二項分布
02 幾何分布・負の二項分布
03 ポアソン分布
04 超幾何分布
05 一様分布・指数分布
06 正規分布
07 c2分布・t分布・F分布(概説)
08 c2分布・t分布・F分布(詳説)
09 ワイブル分布・パレート分布・対数正規分布
10 多項分布
11 多次元正規分布
Column|確率分布の値をソフトで求める
Chapter 05 推定
Introduction
01 復元抽出・非復元抽出
02 標本の抽出法
03 最尤法
04 区間推定の仕組み
05 正規母集団の母平均の区間推定
06 母比率の区間推定
07 推定量の評価基準
08 不偏推定量
Column|紛らわしい標準偏差と標準誤差の違い
Chapter 06 検定
Introduction
01 検定の原理と手順
02 検定統計量
03 検定の誤り
04 正規母集団の母平均の検定
05 正規母集団の母分散の検定
06 母平均の差の検定(1)
07 母平均の差の検定(2)
08 母比率の差の検定
09 等分散検定
Column|医療現場で行われる検定
Chapter 07 ノンパラメトリック検定
Introduction
01 適合度検定
02 独立性の検定(2×2のクロス集計表)
03 独立性の検定(k×lのクロス集計表)
04 フィッシャーの正確確率検定
05 マクネマー検定
06 コクランのQ検定
07 マン―ホイットニーのU検定
08 符号検定
09 ウィルコクソンの符号付き順位検定
10 クラスカル―ウォリス検定
11 フリードマン検定
Column|統計学 紛らわしい用語集
Chapter 08 回帰分析
Introduction
01 単回帰分析
02 重回帰分析
03 重相関係数・偏相関係数
04 多重共線性(マルチコ)
05 単回帰分析での区間推定
06 ロジスティック回帰分析・プロビット回帰分析
07 一般線形モデルと一般化線形モデル(GLM)
Column|ワインの値段を重回帰分析する
Chapter 09 分散分析と多群比較法
Introduction
01 分散分析(概説)
02 一元配置の分散分析
03 二元配置の分散分析(繰り返しなし)
04 二元配置の分散分析(繰り返しあり)
05 フィッシャーの3原則
06 直交配列表
07 ボンフェローニ法・ホルム法
08 シェフェ法
09 テューキー―クレーマー法
Column|現代の推測統計学の祖・フィッシャー
Chapter 10 多変量解析
Introduction
01 主成分分析(概説)
02 主成分分析(詳説)
03 判別分析(概説)
04 判別分析(詳説)
05 マハラノビス距離
06 数量化Ⅰ類・Ⅱ類
07 数量化Ⅲ類・コレスポンデンス分析
08 因子分析
09 共分散構造分析
10 階層的クラスター分析
11 多次元尺度構成法(MDS)
Column|ポジショニングマップを作るには
Chapter 11 ベイズ統計
Introduction
01 条件付き確率
02 ナイーブベイズ分類
03 ベイズの定理
04 ベイズ更新(離散版)
05 モンティ・ホール問題
06 ベイズ更新(連続版)
07 共役事前分布
08 カルバック―ライブラー情報量
09 AIC(赤池情報量規準)
10 モンテカルロ積分
11 ギブスサンプリング
12 メトロポリス―ヘイスティングス法
13 ベイジアンネットワーク
Column|機械翻訳の仕組み
Appendix
1 標準正規分布表(上側確率)
2 t分布表(上側2.5%点、5%点)
3 x2分布表(上側97.5%点、5%点、25%点)
4 F分布表(上側5%点)
5 F分布表(上側2.5%点)
6 マン―ホイットニーのU検定表(片側確率2.5%点)
7 ウィルコクソンの符号付き順位検定表(片側2.5%点、5%点)
8 フリードマン検定表(片側5%点)
9 クラスカル―ウォリス検定表(片側5%点)
10 スチューデント化された範囲の分布の表(上側5%点)
Amazonで詳しく見る
紹介文
こんな本がほしかった!大学生にも社会人にも必ず役立つ画期的な入門書!高校数学までの復習で数学と統計学の「繋がり」がわかる。「違い」もわかる。
第1章 データを整理するための基礎知識(平均
割り算の2つの意味 ほか)
第2章 データを分析するための基礎知識(平方根
平方根の計算 ほか)
第3章 相関関係を調べるための数学(関数
1次関数 ほか)
第4章 バラバラのデータを分析するための数学(階乗
順列 ほか)
第5章 連続するデータを分析するための数学(「無限」の理解
極限 ほか)
Amazonで詳しく見る
紹介文
データサイエンティストと呼ばれる職種が登場して、いまや10年以上が経過しようとしています。ビッグデータやディープラーニングなど技術的な流行も後押しして、AI・データ分析プロジェクトに取り組む企業も増えました。また、データサイエンス、データエンジニアリングに関する技術情報は次第に増え、データ分析コンペティションの盛り上がりもあって技術的な知識を持つ方が増えているのは事実です。ところが、実際にAI・データ分析プロジェクトに取り組んでみると、そううまくはいかないようです。プロジェクトを進めるには技術知識だけでなく「ビジネス力」が必要なのです。
そこで、本書はこれまでメインテーマとして語られることのなかった「ビジネス力」に焦点をあてて、データ分析プロジェクトを一通り解説していきます。プロジェクトの入口として「組織の立ち上げ方」から「案件獲得」にふれ、続く実際のデータ分析プロセスにおいては、課題とゴールを明確にして、分析結果は出して終わりではなく共有、評価のサイクルが必要であることを解説します。最後に出口となる「収益化」に関する情報をまとめます。
先を行くデータ分析者達は、これまでさまざまな罠にかかり、見えない落とし穴にはまっても奮闘してノウハウを蓄積してきたのがこの10年です。これからAI・データ分析プロジェクトに取り組む方/関わる方へ向けて、先人たちのノウハウをまとめたのが本書です。
第1部 プロジェクトの準備
第1章 AI・データ分析業界の概要
第2章 データサイエンティストのキャリアと雇用
第3章 AI・データサイエンティストの実務と情報収集
第2部 プロジェクトの入口
第4章 社内案件の獲得と外部リソースの検討
第5章 データのリスクマネジメントと契約
第3部 プロジェクトの実行
第6章 AI・データ分析プロジェクトの起ち上げと管理
第7章 データの種類と分析手法の検討
第8章 分析結果の評価と改善
第9章 レポーティングとBI
第10章 データ分析基盤の構築と運用
第4部 プロジェクトの出口
第11章 プロジェクトのバリューと継続性
第12章 業界事例
Amazonで詳しく見る
紹介文
いまや「データをビジネスに生かす」のは当たり前の時代。一般のビジネスパーソンにも「データサイエンス」のリテラシーが求められています。本書は「そもそも、データサイエンスって何?」というところから始まり、よく聞くキーワードや押さえておきたいトピック、実際のビジネスシーンでデータサイエンスがどう生かされているか? という実例まで、ポイントを絞って解説します。
文章だけだとわかりづらい内容も、豊富な図やイラストでフォロー。「なるほど、そういうことか!」とイメージをつかみやすいよう配慮しています。
また、データサイエンスは数学が深く関係しますが、本書では難しい数式や専門用語はナシ。初心者でもデータサイエンスの概要、肝が掴めるよう解説します。「データサイエンスについて知りたい、学んでみたい」けれど、「どこから学べばいいのか…?」という方に、まずは一冊目に読んで欲しい本です! ビジネスパーソンだけでなく、学生さんにもオススメです。
第1章 データサイエンスとは?
第2章 機械学習とは
第3章 データサイエンスの活用事例と手法
第4章 データ分析、活用プロセス
第5章 先端テクノロジー
第6章 学習ロードマップ
Amazonで詳しく見る
紹介文
統計学基礎,分割表,回帰分析,ロジスティック回帰の四部構成。事例・問題豊富で独習に最適。
好評の「独習」テキスト待望の続編。統計学基礎,分割表,回帰分析,ロジスティック回帰の四部構成。前著同様とくに初学者がつまづきやすい点を明解に解説する。豊富な事例と演習問題,計算機の実行で理解を深める。再入門にも好適。
1. 基本編
第1講 統計学の基本
第2講 標本の集計と標本の分布
第3講 母集団の分布
第4講 区間推定
第5講 仮説検定
2. 分割表編
第6講 χ2分布―母分散の信頼区間はどうやって計算するの?―
第7講 適合度の検定―このサイコロはイカサマでは?―
第8講 尤度比検定
第9講 四分表の確率モデル
第10講 Fisherの正確検定
第11講 独立性の検定―相似検定と漸近的な方法―
第12講 適合度の検定と独立性の検定:手法の選択
3. 回帰分析編
第13講 共分散と相関係数
第14講 単回帰
第15講 偏相関係数
第16講 重回帰
4. ロジスティック回帰編
第17講 オッズ比と相対危険度―リスクの指標―
第18講 リスクの相乗モデルとロジスティック回帰
第19講 ロジスティック回帰(1)―説明変数のモデル化―
第20講 ロジスティック回帰(2)―数値計算上の問題―
第21講 ロジスティック回帰(3)―計算結果の見方―
第22講 バイアス,交絡,交互作用
第23講 変数選択
第24講 診断・検査とROC曲線
参考図書/付表/索引
Amazonで詳しく見る
紹介文
ネコちゃんと先生が楽しくナビゲートする第2版。 データのアップデートに加え、「統計の基本の基本」の解説をさらに充実。
「うどん怪獣、大暴れ!?」「人間もすなる統計といふものを、ネコもしてみんとてするなり。」
おしゃべりなネコちゃんと先生が楽しくナビゲートする第2版。
データのアップデートに加え、「統計の基本の基本」の解説をさらに充実。
その思い込みは危険です!常識に囚われて勘違い発言をしたり、成功体験に頼りすぎて、ビジネスチャンスを逃したり。そんな失敗をしないために、これからは「証拠にもとづいた議論」が必要。それを支えるものが統計です。
統計情報を正確に読み、理解し、情報を正しく他者に伝える力を身につけましょう。皆が統計のことをもう少し理解すれば、世の中はもっと良くなるはず!使用データをアップデートし、基礎的事項を拡充した第2版。
序 章 なぜ統計のことを勉強しなければいけないの?
1 データ・統計・統計学——そもそも「統計」って何だろう
1.1 統計って何?データって何?
1.2 データから役立つ情報を取り出そう
2 証拠に基づいた議論をしよう
2.1 統計学ブームが起こった理由
2.2 結婚すると幸せになれる?(その1)—─個人的な経験から考える
2.3 結婚すると幸せになれる?(その2)─—統計から考える
3 統計を勉強すれば、こんないいことがある(はず)!
3.1 ビジネスで勝つ──仕事の道具としての統計学
3.2 よりよい社会を作る——市民的教養としての統計学
練習問題
第1章 知ってるつもりの世界と統計でみる世界
1 世の中って「こんなもの」?——見直してみよう!知ってるつもりの世界
1.1 子どもの「みんな持ってる!」理論
1.2 社会の姿を正しく知る方法は?
2 統計で社会の姿を確認しよう——イメージ通り?統計でみる世界
2.1 人口は統計の根幹
2.2 何問正解?クイズで知る日本社会と日本
3 マスメディアの情報とつきあう2つのポイント
3.1 こんな情報に気をつけよう
3.2 出典を確認しよう(ポイント・その1)
3.3 「目立つ」と「多い」、「部分」と「全体」の混同にご注意(ポイント・その2)
練習問題
第2章 「びっくりグラフ」にご用心
1 本当は恐ろしい(?)統計学
1.1 ウソ・大げさ・刺激的──なぜ統計学の本のタイトルは物騒なのか
1.2 グラフを使ったトリックに気をつけよう
2 大人も知らない(かもしれない)グラフの基礎知識
2.1 わかってますか?棒グラフと折れ線グラフの使い分け
2.2 棒グラフは比較・折れ線グラフは変化
2.3 割合を表現する円グラフと帯グラフ
3 華麗なるびっくりグラフの世界
3.1 「びっくりグラフ」って何?
3.2 縦軸をいじってびっくり!(びっくりグラフ・その1)
3.3 横軸をいじってびっくり!(びっくりグラフ・その2)
3.4 3Dでびっくり!(びっくりグラフ・その3)
3.5 思いこみにつけこんでびっくり!(びっくりグラフ・その4)
3.6 びっくりグラフにだまされないために
4 びっくりグラフにご用心
4.1 科学研究における不正行為
4.2 びっくりグラフがはびこる理由
4.3 びっくりグラフを知らないうちに「作らない」ために
練習問題
第3章 わかっているようで意外にわかっていない「平均」と「パーセント」
1 どう集計する?「しあわせハッピーアンケート」
1.1 アンケートで幸せになろう!?
1.2 アンケートの回答をデータ化しよう
1.3 データはこんなふうにできている
2 毎度おなじみ「平均」と「パーセント」の使い分け方
2.1 年齢は平均、性別はパーセント。その理由は?
2.2 「量」と「質」の違いを理解しよう─量的変数と質的変数
2.3 とっても簡単!量的変数と質的変数の見分け方
2.4 集計結果をまとめよう─度数分布表
2.5 量的変数の分布をグラフにまとめよう─ヒストグラム
3 平均の性質
3.1 平均=普通?
3.2 平均にまつわるよくある誤解
4 「○%の差」はどうしてダメなの?
4.1 パーセントの差をどう表現する?
4.2 変化量は「ポイント」、変化率は「パーセント」
練習問題
第4章 平均だけで大丈夫?「代表値」と「ちらばり」のこと
1 平均だけでは不十分!
2 データの「中心」に注目しよう——3つの代表値
2.1 「日本の中心」はどこでしょう?
2.2 データの重心「平均値」(代表値・その1)
2.3 並べたときの真ん中「中央値」(代表値・その2)
2.4 いちばん多い値「最頻値」(代表値・その3)
2.5 外れ値に注意!
2.6 3つの代表値の特徴と使い分け方
3 データの「ちらばり」に注目しよう——範囲・分散・標準偏差
3.1 「ちらばり」って何?
3.2 平均点が同じなら面白さも同じ?─—映画レビューの考え方
3.3 データの両端に注目する「範囲」(ちらばりを表現する数値・その1)
3.4 平均との差に注目する「分散」(ちらばりを表現する数値・その2)
3.5 分散を使いやすくした「標準偏差」(ちらばりを表現する数値・その3)
3.6 ちらばりをグラフで表現する「箱ひげ図」
4 「ちらばり」はこんなふうに役に立つ
4.1 品質管理に欠かせない標準偏差
4.2 受験でお世話になった「偏差値」の正体
練習問題
第5章 「関係がある」ってどういうこと?
1 統計学における「関係」って何?
2 「関係」の中身を区別しよう
2.1 カロリーを取りすぎると体重が増える—─因果関係
2.2 コミックが好きな人はアニメも好き—─相関関係
2.3 原因を特定し、問題の解決につなげよう
2.4 右肩上がりと右肩下がり—─相関関係の「正」と「負」
2.5 変数の関係の示し方いろいろ
3 因果関係を分析しよう
3.1 原因は独立変数、結果は従属変数
3.2 どう判断すればいいの?相関関係と因果関係の区別
3.3 因果関係を判断する3つの基準
練習問題
第6章 本当の原因を探してみよう
1 新たな謎「第三の変数」登場!
2 はくさいの恐怖!その真実は……?
2.1 肺炎の原因は、はくさいだった!(そんなわけない)
2.2 擬似相関(見かけ上の相関)に気をつけよう
3 因果関係のさらに複雑な世界
3.1 擬似相関だけじゃない!いろいろな因果関係
3.2 風が吹けば桶屋が儲かる─媒介関係
3.3 貧困の原因は1つとは限らない──原因が複数存在する因果関係
練習問題
第7章 その統計は信頼できますか?データの6W4H
1 データの作り方を知ればこんないいことがある(はず)!
1.1 その統計は信頼できますか?
1.2 データの作り方を知ることが大切な理由
2 データの良し悪しを判断するために
2.1 情報源の確認からデータ情報の確認へ
2.2 予備知識としての5W1H(誰が・いつ・どこで・何を・なぜ・どのように)
2.3 統計データは6W4Hがポイント!
2.4 10個なんて多すぎる!特に重要な2W3Hとは?
3 統計の6W4Hを調べてみよう
3.1 「実際の調査」で確認してみよう
3.2 6W4Hを調べる習慣を身につけよう
練習問題
第8章 定義が変わると数値も変わる
1 定義がなければはじまらない
1.1 「ひきこもり」ってどういう人?
1.2 ひきこもりの定義を考えてみよう
2 定義が変わると数値も変わる
2.1 「丸まると太る」と「BMI25以上」
2.2 ひきこもりの人数が異なる理由は定義にあり
3 定義と数値の微妙な関係
3.1 いじめは周期的に増加する?
3.2 「殺人事件」ってどういう事件?
3.3 完璧な定義でなくても大丈夫!
練習問題
第9章 誰に聞くかで結果は変わる
1 誰に聞けば「世論」がわかるの?
1.1 何のために世論調査を行うの?
1.2 全員に聞くのはとっても大変─調査対象者をどう選ぶ?
1.3 「誰に聞くか」が明暗を分けた!1936年のアメリカ大統領選予想
2 味見はスプーン1杯で大丈夫
2.1 調査における「全体」と「部分」──母集団と標本
2.2 スープの味見は、よくかき混ぜてから
3 偏りなく選んでみよう
3.1 選ばれる確率が等しくなるように選ぶ「無作為抽出法」
3.2 俺様好みの女の子を選んでやる!─無作為抽出にならない例
3.3 実際にはどうするの?
3.4 こんな調査にご用心──偏った標本を選びやすい3つの方法
練習問題
第10章 その結果は偶然?それとも……?
1 なぜ偏りなく選ぶことが大切なの?
1.1 無作為抽出法が重要な2つの理由
1.2 標本から母集団のことがわかる(重要な理由・その1)
1.3 統計数値のずれ(誤差)がわかる(重要な理由・その2)
1.4 無作為抽出法が特別な理由—─中心極限定理
1.5 「標本の大きさ」(サンプルサイズ)と「標本数」(サンプル数)
2 偶然の差とそうでない差
2.1 微妙な視聴率の差をどう考える?
2.2 パーセントの誤差を計算しよう
3 誤差と標本の大きさのやっかいな関係
3.1 世論調査の回答の誤差はどのぐらい?
3.2 誤差を小さくするのは大変
練習問題
第11章 聞き方しだいで答えは変わる
1 死亡率10%と生存率90%、どちらの手術を受けますか?
2 聞き方しだいで答えは変わる
2.1 ポイントは「聞き方」──質問文・選択肢・質問方法
2.2 「幸せの国」ブータンの秘密
2.3 どうして異なる?朝日新聞と読売新聞の内閣支持率の謎
3 「聞き方」の基本
3.1 質問の作り方の基本原則
3.2 どうして異なる?ヨーロッパの臓器提供意思表示率の謎
4 「誰が聞くか」で答えは変わる
4.1 まだまだある!統計数値に対する6W4Hの影響
4.2 統計を「作る側」の事情
4.3 結果が異なる2つの「いじめ」統計
練習問題
第12章 統計の勘違いに気をつけよう(1)——「数値の意味」編
1 だまされるより怖い(かもしれない)勘違い
1.1 その思い込みは危険です!
1.2 「だまされない」から「だまさない」へ
2 知ってるつもりの数値に注意
2.1 パーセント(百分率)ではない「○○率」もある
2.2 「平均寿命」って何の平均?
3 その数値の意味、わかってますか?
3.1 公務員の給料は高すぎる?
3.2 条件をそろえて比較しよう
3.3 まだまだある考慮すべき条件
3.4 本当はそれほど高くない公務員の賃金
3.5 統計情報の「中身」を精査しよう
4 数値を正しく読み解くために
練習問題
第13章 統計の勘違いに気をつけよう(2)——「統計の解釈」編
1 それって本当はどういう意味?
2初心者注意の2つの勘違い!「言い替えによる勘違い」と「主観と客観の混同」
2.1 「満足」と「幸せ」は同じもの?
2.2 日本の治安はヤバい!?─—治安についての主観と客観のずれ
3 2つの勘違いが同時発生!「中流意識」と「総中流社会」の問題
3.1 昔なつかしい(?)「総中流社会」
3.2 「中」と「中流」の読み替え
3.3 日本は本当に「総中流」だったの?
4 解釈の勘違いを避けるための2つのポイント
練習問題
第14章 「証拠に基づいた議論」を練習しよう
1 知識から実践へ
1.1 「知ってる」と「できる」は違う
1.2 「若者の○○離れ」について
2 「若者の海外旅行離れ」は本当?
2.1 「何を確認したいのか」を明確に
2.2 「若者」って誰?「海外旅行」って何?
2.3 統計を探そう
2.4 統計からみた「若者の海外旅行離れ」の実態
2.5 「若者の海外旅行離れ」が注目された理由
2.6 統計から言えること・言えないこと
3 本当の戦いはこれからだ!
3.1 練習と実践が大事
3.2 統計を支える人になろう!
練習問題
高校までの勉強との対応表
今後の学習のためのブックガイド+お役立ち情報ガイド
練習問題解答
注
引用文献
あとがき
索引
Amazonで詳しく見る
紹介文
理系学生伝説の参考書『物理数学の直観的方法』著者が、文系向けに難解な経済数学の要諦を斬新な切り口で分かりやすく解説する。
高度に発展した経済数学の本質を、70点に及ぶ図・グラフを中心に、直観的に理解していきます。本書では、「確率・統計編」として、正規分布曲線ができるメカニズムを学び、確率統計論で最も重要な原理とされる、中心極限定理の不思議に触れ、教養としてのブラック・ショールズ理論を身につけていきます。
現代社会を浮き彫りにする経済学。この経済学を表す経済数学は高度に発展してきました。なかでも、マクロ経済学の「動的マクロ均衡理論」と、金融工学の「ブラック・ショールズ理論」は「二大難解理論」として、その頂上をなしています。
この『経済数学の直観的方法』の2冊では、目標をこの「二大難解理論」にしぼっています。これらを直観的に理解してしまえば、そのツートップの頂上から経済数学全体を見渡す格好になり、今までのミクロ経済学などのたくさんの数学的メソッドを、余裕をもって見ることができるという狙いです。
本書では、「確率・統計編」として、現代の金融工学の礎となる「ブラック・ショールズ理論」を身につけます。70点に及ぶ図・グラフを中心に、「正規分布曲線が生まれるメカニズム」「標準偏差、分散の意味」「最小2乗法の基本思想」「中心極限理論の不思議」「確率過程とランダム・ウォーク」「ブラウン運動とブラック・ショールズ理論」「伊藤のレンマと確率微分方程式」「測度とルベーグ積分」など、重要テーマの本質的理解を試み、教養としてのブラック・ショールズ理論を身につけていきます。
第1章 初級編
1.確率統計を理解するための根本思想
2.われわれの世界の確率統計はどう成立したか
3.補足的な基礎知識
第2章 中級編
1.最小2乗法の本質
2.中心極限定理の不思議
3.ブラウン運動とブラック・ショールズ理論
4.教養としてのブラック・ショールズ理論
第3章 上級編
1.伊藤のレンマと確率微分方程式
2.実際のブラック・ショールズ理論
第4章 測度とルベーグ積分
Amazonで詳しく見る
紹介文
まったくの初心者へ向けて統計学の基礎を丁寧に解説。図表や数式の意味が一目でわかる
まったくの初心者へ向けて統計学の基礎を丁寧に解説。図表や数式の意味が一目でわかる。〔内容〕データの分布を調べる/データの「関係」を整理する/確率分布を考える/標本から推定する/仮説が正しいか調べる(検定)/統計を応用する
Amazonで詳しく見る
紹介文
第1部 確率そのものの話(確率とは
複数の確率変数のからみあい
離散値の確率分布
連続値の確率分布
共分散行列と多次元正規分布と楕円)
第2部 確率を役立てる話(推定と検定
擬似乱数
いろいろな応用)
付録A 本書で使う数学の基礎事項
付録B 近似式と不等式
付録C 確率論の補足
Amazonで詳しく見る
紹介文
速読・多読いらない!何を選び・どう読む?!ビジネス書に特化した、まったく新しい読書術。
速読・多読いらない!何を選び・どう読む?!ビジネス書に特化した、まったく新しい読書術。
ビジネス読書の本当の目的とは?
「視点読書」と「法則読書」の2つをマスターすることで、本当にビジネスに役立つアウトプットが生まれる!
外資系コンサルティングファーム✖大手広告代理~ハイブリットキャリアの読み方。
。
Amazonで詳しく見る
紹介文
近年注目を集めているビッグデータという言葉に代表されるように,データのもつ価値についての認識はますます高まっている。さらに,自然科学分野から社会科学の分野,さらには政府関係の様々な施策に至るまで,データに基づいた意思決定の大切さが認識されている。数理統計学は,(ランダムネスを伴った確率現象として現れる)データの背後に確率モデルを想定して推測を行うための土台となる,数学的基礎を提供する。本書は,数理統計学に関する基礎的な内容はもとより,近年広く利用されている現代的な内容までを盛り込んだテキストである。
最初に,統計的推測を行う上で必要な確率・確率分布の基本的な事項を説明する。次に,最初に準備した道具立てに基づいて,確率分布に関する推測方法を説明する。ここまでにおいては,必要な知識をシンプルに解説し,また内容の理解を深められるように,演習問題を豊富に盛り込んでいる。最後に,最も役に立つ統計モデルの1つである線形回帰モデル,点推定を中心とした推定の不偏性や不変性などのリスクに基づいた最適性の理論,MCMC法・ブートストラップ法・EMアルゴリズムなどの計算統計学,そして代表的な確率過程といった発展的な内容を扱う。
初歩的な内容から始まりながらも,最後には現代的な内容まで到達することができる。初学者から意欲的な読者にまでおすすめできる,非常に内容豊富なテキストである。
第1章 確率
1.1 事象と確率
1.2 条件付き確率と事象の独立性
1.3 発展的事項
演習問題
第2章 確率分布と期待値
2.1 確率変数
2.2 確率関数と確率密度関数
2.3 期待値
2.4 確率母関数,積率母関数,特性関数
2.5 変数変換
演習問題
第3章 代表的な確率分布
3.1 離散確率分布
3.2 連続分布
3.3 発展的事項
演習問題
第4章 多次元確率変数の分布
4.1 同時確率分布と周辺分布
4.2 条件付き確率分布と独立性
4.3 変数変換
4.4 多次元確率分布
演習問題
第5章 標本分布とその近似
5.1 統計量と標本分布
5.2 正規母集団からの代表的な標本分布
5.3 確率変数と確率分布の収束
5.4 順序統計量
5.5 発展的事項
演習問題
第6章 統計的推定
6.1 統計的推測
6.2 点推定量の導出方法
6.3 推定量の評価
6.4 発展的事項
演習問題
第7章 統計的仮説検定
7.1 仮説検定の考え方
7.2 正規母集団に関する検定
7.3 検定統計量の導出方法
7.4 適合度検定
7.5 検定方式の評価
演習問題
第8章 統計的区間推定
8.1 信頼区間の考え方
8.2 信頼区間の構成方法
8.3 発展的事項
演習問題
第9章 線形回帰モデル
9.1 単回帰モデル
9.2 重回帰モデル
9.3 変数選択の規準
9.4 ロジスティック回帰モデルと一般化線形モデル
9.5 分散分析と変量効果モデル
第10章 リスク最適性の理論
10.1 リスク最適性の枠組み
10.2 最良不偏推定
10.3 最良共変(不変)推定
10.4 ベイズ推定
10.5 ミニマックス性と許容性の理論
第11章 計算統計学の方法
11.1 マルコフ連鎖モンテカルロ法
11.2 ブートストラップ
11.3 最尤推定値の計算法
第12章 発展的トピック:確率過程
12.1 ベルヌーイ過程とポアソン過程
12.2 ランダム・ウォーク
12.3 マルチンゲール
12.4 ブラウン運動
12.5 マルコフ連鎖
付録
A.1 微積分と行列演算
A.2 主な確率分布と特性値
Amazonで詳しく見る
紹介文
本辞典は、統計学の概念、法則、学説、制度、歴史などをなるべく平易に叙述するとともに、計算技術の著しい発達によるデータ解析の道具としての統計学の説明とその理論的背景について詳しく解説した。
Amazonで詳しく見る
紹介文
プロローグ あなたと私の因子分析
第1章 アンケートの基礎知識
第2章 調査票と質問
第3章 数学的な基礎知識
第4章 主成分分析
第5章 因子分析
付録 さまざまな分析手法
Amazonで詳しく見る
紹介文
データ分析の現場にあって入門書にない「汚いデータ」(ダーティデータ)に対応する、プロのノウハウを解説します。
これがリアルなデータ分析だ!
君は「汚いデータ」を処理できるか?
データ分析の現場にあって入門書にないもの――それは、「汚いデータ」(ダーティデータ)です。本書は、データ分析の現場では①どんなデータに出会い、②どのような問題が生じ、③どう対応すればよいのかというノウハウを解説。
事前の加工(視覚化)から機械学習、最適化問題まで、100本ノックをこなして、ビジネス現場で即戦力になれる「応用力」を身につけよう!
練習するライブラリ
・Pandas
・Numpy
・Matplotlib
・scikit-learn
・Networkxs
・pulp
・ortoolpy
・opencv
・dlib
・MeCab
第1部 基礎編:データ加工
第1章 ウェブからの注文数を分析する10本ノック
第2章 小売店のデータでデータ加工を行う10本ノック
第2部 実践編①:機械学習
第3章 顧客の全体像を把握する10本ノック
第4章 顧客の行動を予測する10本ノック
第5章 顧客の退会を予測する10本ノック
第3部 実践編②:最適化問題
第6章 物流の最適ルートをコンサルティングする10本ノック
第7章 ロジスティクスネットワークの最適設計を行う10本ノック
第8章 数値シミュレーションで消費者行動を予測する10本ノック
第4部 発展編:画像処理/言語処理
第9章 潜在顧客を把握するための画像認識10本ノック
第10章 アンケート分析を行うための自然言語処理10本ノック
Amazonで詳しく見る
紹介文
個人の生産性を爆上げ!最小限の力で最大の成果を生み出す57のスイッチ。
いい加減なヤツほど生産性UPの裏技!!
学び、思考、発送、時間、段取り、コミュニケーション、資料作成、会議・・・・
≪最小限の力で最大の成果を生み出す≫8カテゴリ・57のスイッチ!
Amazonで詳しく見る
紹介文
科学計算,分析,可視化などPythonでのデータ処理の基本を約100のレシピを通して具体的に学ぶ
GitHubに詳細なサポートデータ(Jupyter Notebook)有。すぐに試せる
・Pandas Cookbook: Recipes for Scientific Computing, Time Series Analysis and Data Visualization using Python, 2017Oct, Packt の翻訳。
・pandas(Pythonによるデータ処理に必須のライブラリ)の活用例(レシピ)を約100紹介。
・扱うデータ構造や使い方、可視化などを広く取り上げる。
・各レシピは内容、手順、解説(補足、参照、注意など)という定形になっており読みやすい。
Pythonによるデータ解析を支援する機能を提供する必須のライブラリ pandas の使い方を解説する「レシピ本」。
ビッグデータを扱うデータサイエンスや科学計算に重要なツール、Pandasの実践的な使用方法=”レシピ”を約100例紹介。分析の目的から探せるレシピ本として、特定の分野に依存せずデータサイエンスのツールにpythonを選んだすべての方が読者対象。
1 Pandas基礎
レシピ1 DataFrameの解剖学
レシピ2 DataFrame主要素へのアクセス
レシピ3 データ型の理解
レシピ4 データのカラムをSeriesとして選択
レシピ5 Seriesのメソッド呼び出し
レシピ6 Seriesの演算子の働き
レシピ7 Seriesのメソッドチェイニング
レシピ8 分かりやすいインデックスに置き換え
レシピ9 行とカラムの名前変更
レシピ10 カラムの作成と削除
2 DataFrameの必須演算
レシピ11 DataFrameのカラムを複数選択
レシピ12 カラムをメソッドで選択
レシピ13 カラムを意味が分かるように順序付け
レシピ14 DataFrame全体の操作
レシピ15 DataFrameのメソッドチェイニング
レシピ16 DataFrameの演算子の働き
レシピ17 欠損値の比較
レシピ18 DataFrame演算の方向を転置
レシピ19 大学のキャンパスのダイバーシティ指標の計算
3 データ分析開始
レシピ20 データ分析ルーチンの開発
レシピ21 データ型を変更してメモリ削減
レシピ22 最大の中の最小を選択
レシピ23 ソートして各グループでの最大を選択
レシピ24 sort_valuesでnlargestの代用
レシピ25 トレール注文の価格計算
4 データから部分抽出
レシピ26 Seriesデータの選択
レシピ27 DataFrameの行の選択
レシピ28 DataFrameの行とカラムの同時選択
レシピ29 整数とラベルの両方でデータ選択
レシピ30 スカラー選択の高速化
レシピ31 行の手軽なスライシング
レシピ32 文字順にスライシング
5 booleanインデックス法
レシピ33 boolean統計量の計算
レシピ34 複数のboolean条件の構築
レシピ35 booleanインデックス法によるフィルタリング
レシピ36 インデックス選択によるbooleanインデックス法の代用
レシピ37 重複のないインデックスとソートしたインデックスによる選択
レシピ38 株価見通しの計算
レシピ39 SQLのWHERE節の翻訳
レシピ40 株式収益率の正規度判定
レシピ41 queryメソッドによるbooleanインデックス法の読みやすさ改善
レシピ42 whereメソッドによるSeriesの保持
レシピ43 DataFrameの行のマスキング
レシピ44 boolean,整数位置,ラベルによる選択
6 インデックスアラインメント
レシピ45 インデックスオブジェクトの検査
レシピ46 デカルト積の作成
レシピ47 インデックス爆発
レシピ48 等しくないインデックスの値を埋める
レシピ49 別のDataFrameからカラムを追加
レシピ50 各カラムの最大値をハイライトする
レシピ51 メソッドチェイニングでidxmaxの代用
レシピ52 最多の最大値を求める
7 集約,フィルタ,変換のためのグループ分け
レシピ53 集約の定義
レシピ54 複数のカラムと関数のグループ分けと集約
レシピ55 グループ分けの後でMultiIndex解消
レシピ56 集約関数のカスタマイズ
レシピ57 集約関数の*argsと**kwargsをカスタマイズ
レシピ58 groupbyオブジェクトの検討
レシピ59 マイノリティが多数派の(米国の)州をフィルタリング
レシピ60 減量の勝負でtransform
レシピ61 SATの加重平均点を州ごとにapplyで計算
レシピ62 連続変数でグループ分け
レシピ63 都市間の航空便の総数
レシピ64 定時離着陸の最長ストリーク
8 整然形式にデータを再構成
レシピ65 変数値カラム名をstackで整然化
レシピ66 変数値カラム名をmeltで整然化
レシピ67 複数の変数グループを同時にスタック
レシピ68 スタックしたデータを元に戻す
レシピ69 groupby集約の後でunstack
レシピ70 groupby集約でpivot_tableの代用
レシピ71 変形を容易にするレベル軸の名前変更
レシピ72 複数の変数がカラム名になっている場合の整然化
レシピ73 複数の変数がカラム値の場合の整然化
レシピ74 複数の値が同じセルにある場合の整然化
レシピ75 変数がカラム名とカラム値になっている場合の整然化
レシピ76 複数の観察が同じテーブルにある場合の整然化
9 pandasオブジェクトの結合
レシピ77 DataFrameに新たな行を追加
レシピ78 複数のDataFrameを接合
レシピ79 トランプとオバマの大統領としての信認レベル比較
レシピ80 concat, join, mergeの相違点を理解
レシピ81 SQLデータベースへの接続
10 時系列分析
レシピ82 Pythonとpandasの日付ツールの違いの理解
レシピ83 時系列を賢くスライシング
レシピ84 DatetimeIndexでだけ働くメソッドを使う
レシピ85 週ごとの犯罪件数
レシピ86 週ごとの犯罪と交通事故を別々に集約
レシピ87 曜日と年での犯罪件数の測定
レシピ88 DatetimeIndexで無名関数を使いグループ分け
レシピ89 Timestampと別のカラムでグループ分け
レシピ90 merge_asofで犯罪率が20%低かったのは最近ではいつかを見つける
11 matplotlib, pandas, seabornによる可視化
レシピ91 matplotlib入門
レシピ92 matplotlibでデータの可視化
レシピ93 pandasのプロットの基本
レシピ94 flightsデータセットの可視化
レシピ95 層グラフで今後の傾向を発見する
レシピ96 seabornとpandasの違いを理解
レシピ97 seabornグリッドで多変量解析
レシピ98 diamondsデータセットのSimpsonパラドックスをseabornで明らかにする
Amazonで詳しく見る
紹介文
近年,確率分布を使った数理モデルをデータにあてはめることで現象の理解と予測を促す「統計モデリング」が注目されている。既存の手法と比べた時の利点は解釈のしやすさと予測のよさの両立である。解釈がしやすいので,モデルに含まれる値を推定した後で次のアクションにつなげやすい。このため現実のデータ解析に極めて有効な手法と評価されている。
背景には,コンピュータの計算速度の向上,大規模のデータが入手しやすくなったこと,モデリングの試行錯誤を極めて簡単にする確率的プログラミング言語の進歩がある。こうした言語の中から,本書ではフリーソフトであるStanを紹介する。Stanは優れたアルゴリズムを搭載し開発も急速に進んでいるパッケージであるが,R用のパッケージであるRStanが並行して公開されているためRから手軽に利用することができる。Stanの記述力は高く,階層モデルや状態空間モデルをわずか30行ほどで書くことができ,推定計算も自動で行なわれる。さらに解析者の問題にあわせたオーダーメイドの拡張が簡単に可能だ。
一般にベイズ統計を扱う書籍は初歩的な内容にとどまるものか,難解な数式が多く実際の問題への応用が難しいものが多い。しかし,本書はこれらの書籍とは一線を画し,現実のデータ解析を念頭に置いて非常に実践的な内容に仕上げた。本書でStanとRを介して身につけた統計モデリングの考え方は,Stanの文法が変化しても,他の統計モデリングツールを扱う場合にも,大いに役に立つと確信している。
第I部 導入編
Chapter 1 統計モデリングとStanの概要
1.1 統計モデリングとは
1.2 統計モデリングの目的
1.3 確率的プログラミング言語
1.4 なぜStanなのか?
1.5 なぜRStanなのか?
補足と文献案内
Chapter 2 ベイズ推定の復習
2.1 基本用語と記法
2.2 伝統的な統計学の問題点
2.3 尤度と最尤推定
2.4 ベイズ統計とMCMC
2.5 ベイズ信頼区間とベイズ予測区間
2.6 最尤推定とベイズ推定の関係
2.7 本書の事前分布の選び方
補足と文献案内
Chapter 3 統計モデリングをはじめる前に
3.1 データ解析の前準備
3.2 統計モデリングの手順
3.3 背景知識の役割
3.4 モデルの記述方法
3.5 情報量規準を使ったモデル選択
補足と文献案内
第Ⅱ部 Stan入門編
Chapter 4 StanとRStanをはじめよう
4.1 StanとRStanの準備
4.2 Stanの基本的な文法
4.3 Stanのlp__とtarget
4.4 単回帰
補足と文献案内
練習問題
Chapter 5 基本的な回帰とモデルのチェック
5.1 重回帰
5.2 二項ロジスティック回帰
5.3 ロジスティック回帰
5.4 ポアソン回帰
補足と文献案内
練習問題
第III部 発展編
Chapter 6 統計モデリングの視点から確率分布の紹介
6.1 一様分布
6.2 ベルヌーイ分布
6.3 二項分布
6.4 ベータ分布
6.5 カテゴリカル分布
6.6 多項分布
6.7 ディリクレ分布
6.8 指数分布
6.9 ポアソン分布
6.10 ガンマ分布
6.11 正規分布
6.12 対数正規分布
6.13 多変量正規分布
6.14 コーシー分布
6.15 Studentのt分布
6.16 二重指数分布(ラプラス分布)
補足と文献案内
練習問題
Chapter 7 回帰分析の悩みどころ
7.1 交互作用
7.2 対数をとるか否か
7.3 非線形の関係
7.4 多重共線形
7.5 交絡
7.6 説明変数が多すぎる
7.7 説明変数にノイズを含む
7.8 打ち切り
7.9 外れ値
Chapter 8 階層モデル
8.1 階層モデルの導入
8.2 複数の階層を持つ階層モデル
8.3 非線形モデルの階層モデル
8.4 ロジスティック回帰の階層モデル
補足と文献案内
練習問題
Chapter 9 一歩進んだ文法
9.1 型とインデックス
9.2 ベクトル化による高速化
9.3 ベクトルや行列の数学的性質の利用
9.4 パラメータの制約
9.5 トラブルシューティング
練習問題
Chapter 10 収束しない場合の対処法
10.1 パラメータの識別可能性
10.2 弱情報事前分布
10.3 再パラメータ化
10.4 その他の場合
補足と文献案内
Chapter 11 離散値をとるパラメータを使う
11.1 離散パラメータを扱うテクニック
11.2 混合正規分布
11.3 ゼロ過剰ポアソン分布
11.4 Latent Dirichlet Allocation
補足と文献案内
練習問題
Chapter 12 時間や空間を扱うモデル
12.1 状態空間モデルことはじめ
12.2 季節調整項
12.3 変化点検出
12.4 その他の拡張方法
12.5 時間構造と空間構造の等価性
12.6 1次元の空間構造
12.7 2次元の空間構造
12.8 地図を使った空間構造
補足と文献案内
練習問題
Appendix BUGS言語と異なる点
参考文献
索引
Amazonで詳しく見る
紹介文
統計学はどのようにしてわれわれの認識それ自体を規定するようになったのか。アルゴリズムというシステムの真髄を掘り起こす。
マルクスとともに考える、人工知能とビッグデータの現在
Facebook、Uber、YouTube……これらのプラットフォームの知られざる秘密。デジタル資本主義が席巻する世界では、差別や不平等の助長により、巨万の富が生み出される。今こそこのシステムに革命をもたらすとき。万国の数学者よ、団結せよ。
Amazonで詳しく見る
紹介文
外資系コンサルティングファームと大手広告代理店のハイブリッドキャリアが教える 答えなき時代の仮説と成果のつくり方。
外資系コンサルティングファームと大手広告代理店のハイブリッドキャリアが教える 答えなき時代の仮説と成果のつくり方。
帰納法・演繹法・アブダクションの 基礎だけであらゆる問題を解決!
生産性や実現可能性を高めるビジネス 「仮説」。さらに「問題解決力」。それ らに必須の推論の技術を解説します。 難しそうに感じるかもしれませんが、 必要なのは3つの推論の基礎だけ!
「推測力」とは◉仮説を立て、その質を高める能力 ◉ビジネス思考力の要となる能力 ◉分析力の向上に欠かせない能力 ◉コミュニケーションに必須の能力 ◉生産性の向上に役立つ能力 ◉提案力の向上に必要不可欠の能力
Amazonで詳しく見る
紹介文
入門的な統計的方法を習得した方々を対象とした多変量解析法の入門書。できるだけ簡単な例を用いて理論的な説明を2次程度の行列を用いて解説する。
多変量解析法とは
統計的方法の基礎知識
線形代数のまとめ
単回帰分析
重回帰分析
数量化1類
判別分析
数量化2類
主成分分析
数量化3類
多次元尺度構成法
クラスター分析
その他の方法
Amazonで詳しく見る
紹介文
「使える統計学」を初歩から短期間にマスターできる、実戦的なテキスト。数学が苦手な人にも。カイ2乗分布の章を加えた改訂版。
第1章 度数分布表とヒストグラムの作り方
1.度数分布表
2.ヒストグラム
練習問題(第1章)
第2章 データの中心をはかる指標
1.算術平均
2.メジアン
3.モード
4.加重算術平均
5.幾何平均
6.トリム平均
7.移動平均
練習問題(第2章)
第3章 データの散らばりをはかる指標
1.範囲
2.四分位範囲
3.箱ひげ図
4.箱ひげ図による「外れ値」の識別法
5.平均偏差
6.分散と標準偏差
7.標準偏差による散らばりの解釈
8.変動係数
9.標準化変量
10.偏差値
11.歪度
練習問題(第3章)
第4章 順列と組合せ
1.順列
2.円順列とじゅず順列
3.重複順列
4.同じものを含む順列
5.組合せ
6.重複組合せ
練習問題(第4章)
第5章 確率
1.確率の定義
2.加法定理
3.乗法定理
4.ベイズの定理
練習問題(第5章)
第6章 確率変数と確率分布
1.確率変数・確率分布とは
2.二項分布
3.ポアソン分布
4.正規分布
5.標準正規分布
練習問題(第6章)
第7章 母平均の区間推定
1.母平均の区間推定とは
2.標本の大きさの決定
練習問題(第7章)
第8章 母比率の区間推定
1.母比率の区間推定の公式
2.標本の大きさの決定方法
練習問題(第8章)
第9章 仮説検定の方法(1):母平均の検定
1.母標準偏差σが既知のケース
2.母標準偏差σが未知(n≧30)のケース
3.母標準偏差σが未知(n<30)のケース
練習問題(第9章)
第10章 仮説検定の方法(2):母比率・母平均の差・母比率の差の検定
1.母比率の検定
2.母平均の差の検定
3.母比率の差の検定
練習問題(第10章)
第11章 母標準偏差の区間推定と検定:カイ2乗分布
1.カイ2乗分布とは
2.カイ2乗分布表の読み方
3.母標準偏差の区間推定
4.母標準偏差の検定
練習問題(第11章)
第12章 相関分析
1.相関係数
2.相関係数の検定(無相関検定)
3.スピアマンの順位相関係数
練習問題(第12章)
第13章 回帰分析
1.回帰分析とは
2.回帰係数の求め方(最小2乗法:OLS)
3.決定係数
4.重回帰分析
練習問題(第13章)
Amazonで詳しく見る
紹介文
1 確率分布(確率の考え方
確率変数と期待値 ほか)
2 線形推測論(射影行列と逆行列
カイ2乗分布 ほか)
3 統計的決定理論(統計推測と統計的決定理論
十分性と完備性 ほか)
4 大標本理論(最尤推定
大数の法則と一様性 ほか)
5 漸近展開とその応用(漸近展開
平滑化補題 ほか)
Amazonで詳しく見る
紹介文
品質のばらつき、アンケート結果の判断など、データ分析の初歩を身につけたいビジネスマン・学生は、この一冊から。
第1章 ポテトの長さは揃ってる?-平均と分散
第2章 ポテトの本数はどのくらい?-信頼区間
第3章 ライバル店と売り上げを比較-カイ2乗検定
第4章 どちらの商品がウケていますか?-t検定(対応なし)
第5章 もっと詳しく調べたい!-t検定(対応あり)
第6章 3つ目のライバル店現る-分散分析(1要因)
第7章 新メニューで差をつけろ-分散分析(2要因)
Amazonで詳しく見る
紹介文
学生時代、統計の授業が「?」だった人はもちろん、これまで学問として統計に触れてこなかった人にも、よくわかる統計の授業。
学生時代、統計の授業が「?」だった人はもちろん、これまで学問として統計に触れてこなかった人にも、よくわかる統計の授業。そのイロハのイ、キホンのキから、教科書では説明が省かれている細部まで丁寧に解説。高校数学の統計の全単元を網羅。
Amazonで詳しく見る
紹介文
第1章 データマイニングとは
第2章 ニューラルネット
第3章 人工知能エンジンと決定木
第4章 自己組織化マップ
第5章 連関規則
第6章 クラスター分析
第7章 ベイジアンネットワーク
第8章 サポートベクターマシン
第9章 潜在意味解析
Amazonで詳しく見る
紹介文
1990年代末、オークランド・アスレチックスは資金不足から戦力が低下し、成績も沈滞していた。新任ゼネラルマネジャーのビリー・ビーンは、かつて将来を嘱望されながら夢破れてグラウンドを去った元選手だ。彼は統計データを駆使した野球界の常識を覆す手法で球団を改革。チームを強豪へと変える-"奇跡"の勝利が感動を呼ぶ!ブラッド・ピット主演で映画化された傑作ノンフィクション、待望の全訳版。
Amazonで詳しく見る
紹介文
大学での定期試験対策から、金融数理やアクチュアリー試験の数学の準備まで。
1 確率・統計計算の基礎
2 確率空間とその基本概念
3 離散確率分布
4 1次元連続確率分布
5 多次元確率分布
6 統計
7 確率過程とモデリング
8 保険金融数理入門
Amazonで詳しく見る
紹介文
本書は、これからデータ分析を行う人が知っておくべきことを全部学べる解説書です。本当に役立つ、使えるスキルが身につくように、「統計学の基礎からしっかり学ぶ」「学んだことをExcelを使って実践する」という構成になっています。そのため、これまでまったく統計学に触れたことのない人でも理解しやすく、また、Excelの操作も1つ1つ画面を見せながら解説しているため、分析が初めてでも迷わず実践できます。
Amazonで詳しく見る
紹介文
パターン認識にはじめて触れる読者に向け,基礎からわかりやすく解説した入門書です.パターン認識の概念がよく理解できるとともに,Rによる実行例など,実際に応用する際にも役立つ内容が盛り込まれています.
第1章 はじめに
第2章 識別規則と学習法の概要
第3章 ベイズの識別規則
第4章 確率モデルと識別関数
第5章 k最近傍法(kNN法)
第6章 線形識別関数
第7章 パーセプトロン型学習規則
第8章 サポートベクトルマシン
第9章 部分空間法
第10章 クラスタリング
第11章 識別器の組み合わせによる性能強化
Amazonで詳しく見る
紹介文
第1章 データの記述と要約
第2章 確率と確率分布
第3章 統計的推定
第4章 統計的仮説検定
第5章 線形モデル分析
第6章 その他の分析法-正規性の検討、適合度と独立性のX2検定
第7章 付録
Amazonで詳しく見る
紹介文
東大で大人気の統計学を文庫でマスター!
『大学4年間シリーズ』の統計学版。2017年刊行のベストセラーの文庫化。
ビジネスマンにとって学びたい身につけたい実学の一つである統計学を、東大の学生から「意味不明だった統計が分かるように」という声が出るほどわかりやすく教えることに定評のある著者が書き下ろす一冊。手元にあるデータ、過去の資料の生かし方が、すき間時間を使って理解できる一冊。読めば、客観的に数値で分析できる頭になっています!
グーグルやマイクロソフトが最も欲しい人材「データサイエンティスト」に必須の統計学。これからの社会を生きる上で必ず役立つこの学問を、東大の現役教授から学ぶ、ビジネスマン必携の1冊です。
第1部 統計学への誘い
第2部 データを読む:データについての基礎知識、図表やグラフによるデータの整理、データの中心の指標 など
第3部 データ発生のメカニズムを描く:母集団と標本、確率、母集団を記述する確率分布、離散型確率分布 など
第4部 データに基づいて判断する 無作為標本、推定、統計的仮説検定、回帰分析、時系列解析 など
Amazonで詳しく見る
紹介文
Pythonで書かれたサンプルコードを使って実際に手を動かしながら統計が学べる、プログラマのための統計入門の決定版。
Pythonコードを使って解説する統計入門書、待望の改訂版!
「プログラミングのスキルを統計の理解に役立てよう」というコンセプトのもと、数学的な観点から語られることが多い統計について、計算処理の観点から説明し、実際にPythonのコードを示し、実データを分析しながら統計の基礎を解説したものとして人気を博した第1版を全面的にアップデート。新しいツールやライブラリを使った統計手法を示すほか、回帰、時系列分析、生存分析について新たな章を追加しました。Pythonで書かれたサンプルコードを使って実際に手を動かしながら統計が学べる、プログラマのための統計入門の決定版。
Amazonで詳しく見る
紹介文
全世界のRユーザーが絶賛したベストセラーがついに翻訳! ggplotとtidyverseの事前知識ゼロでもすぐに実践できる!
★全世界のRユーザーが絶賛したベストセラー“Data Visualization: A Practical Introduction”がついに翻訳!!
・データ可視化の奥深さを、すべての人に!
・ggplotとtidyverseの事前知識ゼロでも、すぐに実践できる!
・可視化の手順はもちろん、「データをどう見せるか」という意図まで踏み込んで解説!
【サポートページ】
https://github.com/uribo/kspub-dataviz
【推薦の言葉:原著刊行にあたって】
この本は,学生や実務家がデータを定量的可視化して研究結果を最大限に活用するために必要な実践的なスキルを提供します.
・Rとggplot2を使用したハンズ・オン形式の実践的な入門を提供します.
・tidyverseを使うことでRの作業をより簡単に,より一貫性のあるものにする方法を示します.
・データセット,コード,関数が含まれたパッケージを含んでいます.
――エリザベス・ブルッフ(Elizabeth Bruch) ミシガン大学
この本はデータの可視化法を読者に教えるだけでなく,データ可視化がなぜ優れた社会学において不可欠なものであるのか丁寧に考察しているすばらしい本です.どのレベルの学生であっても簡単に本書に取り組むことができるでしょう.
――ベッキー・ペッティ(Becky Petti) テキサス大学オースティン校
ヒーリーは定量的なデータ可視化のプロセスに対して独創的な入門書を作りました.このすばらしい一貫した論じ方は,解析の初心者にも上級者にも学びが大きいでしょう.このような本は他にはありません.
――トーマス・J・リーパー(Thomas J. Leeper) ロンドン・スクール・オブ・エコノミクス
【主な内容】
第1章 データを見る
第2章 さあ,始めよう!
第3章 プロットを作る
第4章 正しい数値の示し方
第5章 データの整形・ラベル・メモの追加
第6章 モデルデータの可視化
第7章 地図を描画する
第8章 プロットを整える
付録A
第1章 データを見る
1.1 なぜデータを見るのか
1.2 悪いグラフのどこが悪いのか
1.3 知覚とデータ可視化
1.4 視覚的タスクとグラフの復号化
1.5 データ表現のための表象の種類と形式
1.6 誠実さと適切な判断に関する問題
1.7 グラフに関する明確な思考
1.8 次の一手
第2章 さあ,始めよう!
2.1 プレーンテキストでのR Markdownを使った作業
2.2 RとRStudioを利用する
2.3 Rについて知っておくべきこと
2.4 自分自身,Rへの忍耐
2.5 Rにデータを読み込ませる
2.6 最初の図を作る
2.7 次の一手
第3章 プロットを作る
3.1 ggplotはどうやって動くのか
3.2 tidyデータ
3.3 マッピングがデータと表示物を結びつける
3.4 プロットをレイヤーごとに作り上げていく
3.5 審美的要素のマッピングとテーマの設定
3.6 審美的要素はgeomでもマッピングできる
3.7 保存しよう
3.8 次の一手
第4章 正しい数値の示し方
4.1 文法としては正しいが意味をなさない
4.2 グループ別データに対応する審美的要素
4.3 複数の図を並べるためのfacet_ 関数群
4.4 geomによるデータの変換
4.5 回りくどく度数分布表を描いてみる
4.6 ヒストグラムと密度プロット
4.7 不要な変換を避ける
4.8 次の一手
第5章 データの整形・ラベル・メモの追加
5.1 パイプを使ったデータの集計
5.2 グループ化・カテゴリ化された連続変数の取り扱い
5.3 図にテキストを直接描画する
5.4 特定のデータへのラベリング
5.5 図内への描画と書き込み
5.6 scale_関数・guides()関数・theme()関数
5.7 次の一手
第6章 モデルデータの可視化
6.1 複数の回帰直線を凡例付きで一度に図示する
6.2 モデルオブジェクトの中身を確認する
6.3 モデルから図に使えるデータを正しく抽出する
6.4 予測の図示
6.5 broomパッケージによるtidyなモデルオブジェクトの取り扱い
6.6 グループ化したデータの分析およびリスト列の取り扱い
6.7 限界効果の可視化
6.8 複雑な調査データの可視化
6.9 次の一手
第7章 地図を描画する
7.1 アメリカ合衆国の州単位での地図
7.2 階級区分に頼らないアメリカ合衆国の地図
7.3 地理的な空間配置を考慮したグラフ
7.4 複数の地図を1枚の図にまとめる
7.5 そのデータは本当に空間情報を含みますか
7.6 次の一手
第8章 プロットを整える
8.1 色を使いこなす
8.2 色とテキストを一緒に重ねる
8.3 テーマを使ってプロットの外観を変更する
8.4 テーマ要素を実務的に使う
8.5 ケーススタディ
8.6 次の一手
付録A
Amazonで詳しく見る
紹介文
ベイズ統計の基礎と計算手法を効率的に習得できるテキスト。Rのサンプルコードも入手可能。
Peter D. Hoff, A First Course in Bayesian Statistical Methodsの日本語訳。ベイズ統計の基礎と計算手法を学ぶ。Rのサンプルコードも入手可能。〔内容〕導入と例/信念,確率,交換可能性/二項モデルとポアソンモデル/他。
Amazonで詳しく見る
紹介文
データサイエンティストの必須知識である時系列データ分析を徹底解説。フリーソフトウェアRを使って視覚的、対話的にデータ分析を進める。
1 時系列データのリテラシー(時系列データとは
時系列データと確率分布 ほか)
2 時系列データの観察と要約(時系列データを観察する
時系列データの分布と要約 ほか)
3 時系列データの時間依存と自己回帰モデル(時間依存の表現
時系列データの性質-定常性について ほか)
4 応用編・ホワイトノイズから分散不均一構造へ-ARCH、GARCHモデルの活用(自己回帰モデルの当てはめ残差を調べる
ARCHモデルとGARCHモデル ほか)
5 実践編・時系列分析の投資への応用(収益率という2次データ
見せかけの回帰が引き起こす問題 ほか)
Amazonで詳しく見る
紹介文
Pythonの簡単な使い方から確率・統計の基礎、統計モデルによる機械学習を解説。
Pythonで機械学習に必要な統計解析を学べる!!
機械学習を使いこなすには、確率・統計に根ざしたデータ解析の基礎理論の理解が不可欠です。そこで本書は、Pythonの簡単な使い方から確率・統計の基礎、統計モデルによる機械学習を解説します。
第I部 Python による計算
第1章 Python の初歩
第2章 確率の計算
第II部 統計解析の基礎
第3章 機械学習の問題設定
第4章 統計的精度の評価
第5章 データの整理と特徴抽出
第6章 統計モデルによる学習
第7章 仮説検定
第III部 機械学習の方法
第8章 回帰分析の基礎
第9章 クラスタリング
第10章 サポートベクトルマシン
第11章 スパース学習
第12章 決定木とアンサンブル学習
第13章 ガウス過程モデル
第14章 密度比推定
付録A ベンチマークデータ
A.1 UCI Machine Learning Repository
A.2 mlbench
A.3 datasets
参考文献
Python索引
用語索引
Amazonで詳しく見る
紹介文
データサイエンスの認知の高まりとともに、データ分析に関するコンペティションが多数開催されるようになってきました。最も有名なコンペティションプラットフォームであるKaggleにおけるプレイヤー数は10万人を超え、多くのエンジニアが自分の腕を試すためにコンペティションに参加しています。分析コンペでは、実際のデータを扱うため、機械学習の解説書にはあまり載っていないような手法やテクニックが数多く活用されています。これらを理解し自身で使えるようにしておくことはコンペだけでなく、実務でのモデル構築において非常に役に立ちます。
そこでこれらのテクニックや事例を多くの人に知っていただくために、現時点で最新のものを整理して本書にまとめました。特徴量の作り方、バリデーション、パラメータチューニングなどについて、一般的な書籍ではあまり言及されない暗黙知やポイントについて記述しています。分析コンペにこれから参加してみたい方、あるいはもっと上を目指したい方だけでなく、実務で予測モデルの精度を上げたいという方にも参考になる情報が多いでしょう。
第1章 分析コンペとは?
1.1 分析コンペって何?
1.1.1 何をするものか
1.1.2 予測結果の提出と順位表(Leaderboard)
1.1.3 チームでの参加
1.1.4 入賞賞金・特典
1.2 分析コンペのプラットフォーム
1.2.1 Kaggle
1.2.2 Rankings(ランキング・称号制度)
1.2.3 Kernel
1.2.4 Discussion
1.2.5 Datasets
1.2.6 API
1.2.7 Newsfeed
1.2.8 開催された分析コンペの種類と具体例
1.2.9 分析コンペのフォーマット
1.3 分析コンペに参加してから終わるまで
1.3.1 分析コンペに参加
1.3.2 規約に同意
1.3.3 データをダウンロード
1.3.4 予測値の作成
1.3.5 予測値の提出
1.3.6 Public Leaderboardをチェック
1.3.7 最終予測値を選ぶ
1.3.8 Private Leaderboardをチェック
1.4 分析コンペに参加する意義
1.4.1 賞金を得る
1.4.2 称号やランキングを得る
1.4.3 実データを用いた分析の経験・技術を得る
1.4.4 データサイエンティストとのつながりを得る
1.4.5 就業機会を得る
1.5 上位を目指すためのポイント
1.5.1 タスクと評価指標
1.5.2 特徴量の作成
1.5.3 モデルの作成
1.5.4 モデルの評価
1.5.5 モデルのチューニング
1.5.6 アンサンブル
1.5.7 分析コンペの流れ
Column 計算リソース
第2章 タスクと評価指標
2.1 分析コンペにおけるタスクの種類
2.1.1 回帰タスク
2.1.2 分類タスク
2.1.3 レコメンデーション
2.1.4 その他のタスク
2.2 分析コンペのデータセット
2.2.1 テーブルデータ
2.2.2 外部データ
2.2.3 時系列データ
2.2.4 画像や自然言語などのデータ
2.3 評価指標
2.3.1 評価指標(evaluation metrics)とは
2.3.2 回帰における評価指標
2.3.3 二値分類における評価指標?正例か負例かを予測値とする場合
2.3.4 二値分類における評価指標?正例である確率を予測値とする場合
2.3.5 多クラス分類における評価指標
2.3.6 レコメンデーションにおける評価指標
2.4 評価指標と目的関数
2.4.1 評価指標と目的関数の違い
2.4.2 カスタム評価指標とカスタム目的関数
2.5 評価指標の最適化
2.5.1 評価指標の最適化のアプローチ
2.5.2 閾値の最適化
2.5.3 閾値の最適化をout-of-foldで行うべきか?
Column out-of-foldとは?
2.5.4 予測確率とその調整
2.6 評価指標の最適化の例
2.6.1 balanced accuracyの最適化
2.6.2 mean-F1における閾値の最適化
2.6.3 quadratic weighted kappaにおける閾値の最適化
2.6.4 カスタム目的関数での評価指標の近似によるMAEの最適化
2.6.5 MCCのPR-AUCによる近似とモデル選択
2.7 リーク(data leakage) 107
2.7.1 予測に有用な情報が想定外に漏れている意味でのリーク
2.7.2 バリデーションの枠組みの誤りという意味でのリーク
第3章 特徴量の作成
3.1 本章の構成
3.2 モデルと特徴量
3.2.1 モデルと特徴量
3.2.2 ベースラインとなる特徴量
3.2.3 決定木の気持ちになって考える
3.3 欠損値の扱い
3.3.1 欠損値のまま取り扱う
3.3.2 欠損値を代表値で埋める
3.3.3 欠損値を他の変数から予測する
3.3.4 欠損値から新たな特徴量を作成する
3.3.5 データ上の欠損の認識
3.4 数値変数の変換
3.4.1 標準化(standardization)
Column データ全体の数値を利用して変換を行うときに、学習データのみを使うか、テストデータも使うか
3.4.2 Min-Maxスケーリング
3.4.3 非線形変換
3.4.4 clipping
3.4.5 binning
3.4.6 順位への変換
3.4.7 RankGauss
3.5 カテゴリ変数の変換
3.5.1 one-hot encoding
3.5.2 label encoding
3.5.3 feature hashing
3.5.4 frequency encoding
3.5.5 target encoding
3.5.6 embedding
3.5.7 順序変数の扱い
3.5.8 カテゴリ変数の値の意味を抽出する
3.6 日付・時刻を表す変数の変換
3.6.1 日付・時刻を表す変数の変換のポイント
3.6.2 日付・時刻を表す変数の変換による特徴量
3.7 変数の組み合わせ
3.8 他のテーブルの結合
3.9 集約して統計量をとる
3.9.1 単純な統計量をとる
3.9.2 時間的な統計量をとる
3.9.3 条件を絞る
3.9.4 集計する単位を変える
3.9.5 ユーザ側でなく、アイテム側に注目する
3.10 時系列データの扱い
3.10.1 時系列データとは?
3.10.2 予測する時点より過去の情報のみを使う
3.10.3 ワイドフォーマットとロングフォーマット
3.10.4 ラグ特徴量
3.10.5 時点と紐付いた特徴量を作る
3.10.6 予測に使えるデータの期間
3.11 次元削減・教師なし学習による特徴量
3.11.1 主成分分析(PCA)
3.11.2 非負値行列因子分解(NMF)
3.11.3 Latent Dirichlet Allocation(LDA)
3.11.4 線形判別分析(LDA)
3.11.5 t-SNE、UMAP
3.11.6 オートエンコーダ
3.11.7 クラスタリング
3.12 その他のテクニック
3.12.1 背景にあるメカニズムから考える
3.12.2 レコード間の関係性に注目する
3.12.3 相対値に注目する
3.12.4 位置情報に注目する
3.12.5 自然言語処理の手法
3.12.6 自然言語処理の手法の応用
3.12.7 トピックモデルの応用によるカテゴリ変数の変換
3.12.8 画像特徴量を扱う手法
3.12.9 decision tree feature transformation
3.12.10 匿名化されたデータの変換前の値を推測する
3.12.11 データの誤りを修正する
3.13 分析コンペにおける特徴量の作成の例
3.13.1 Kaggleの「Recruit Restaurant Visitor Forecasting」
3.13.2 Kaggleの「Santander Product Recommendation」
3.13.3 Kaggleの「Instacart Market Basket Analysis」
3.13.4 KDD Cup 2015
3.13.5 分析コンペにおけるその他のテクニックの例
第4章 モデルの作成
4.1 モデルとは何か?
4.1.1 モデルとは何か?
4.1.2 モデル作成の流れ
4.1.3 モデルに関連する用語とポイント
4.2 分析コンペで使われるモデル
4.3 GBDT(勾配ブースティング木)
4.3.1 GBDTの概要
4.3.2 GBDTの特徴
4.3.3 GBDTの主なライブラリ
4.3.4 GBDTの実装
4.3.5 xgboostの使い方のポイント
4.3.6 lightgbm
4.3.7 catboost
Column xgboostのアルゴリズムの解説
4.4 ニューラルネット
4.4.1 ニューラルネットの概要
4.4.2 ニューラルネットの特徴
4.4.3 ニューラルネットの主なライブラリ
4.4.4 ニューラルネットの実装
4.4.5 kerasの使い方のポイント
4.4.6 参考になるソリューション - 多層パーセプトロン
4.4.7 参考になるソリューション - 最近のニューラルネットの発展
4.5 線形モデル
4.5.1 線形モデルの概要
4.5.2 線形モデルの特徴
4.5.3 線形モデルの主なライブラリ
4.5.4 線形モデルの実装
4.5.5 線形モデルの使い方のポイント
4.6 その他のモデル
4.6.1 k近傍法(k-nearest neighbor algorithm、kNN)
4.6.2 ランダムフォレスト(Random Forest、RF)
4.6.3 Extremely Randomized Trees(ERT)
4.6.4 Regularized Greedy Forest(RGF)
4.6.5 Field-aware Factorization Machines(FFM)
4.7 モデルのその他のポイントとテクニック
4.7.1 欠損値がある場合
4.7.2 特徴量の数が多い場合
4.7.3 目的変数に1対1で対応するテーブルでない場合
4.7.4 pseudo labeling
Column 分析コンペ用のクラスやフォルダの構成
第5章 モデルの評価
5.1 モデルの評価とは?
5.2 バリデーションの手法
5.2.1 hold-out法
5.2.2 クロスバリデーション
5.2.3 stratified k-fold
5.2.4 group k-fold
5.2.5 leave-one-out
5.3 時系列データのバリデーション手法
5.3.1 時系列データのhold-out法
5.3.2 時系列データのクロスバリデーション(時系列に沿って行う方法)
5.3.3 時系列データのクロスバリデーション(単純に時間で分割する方法)
5.3.4 時系列データのバリデーションの注意点
5.3.5 Kaggleの「Recruit Restaurant Visitor Forecasting」
5.3.6 Kaggleの「Santander Product Recommendation」
5.4 バリデーションのポイントとテクニック
5.4.1 バリデーションを行う目的
5.4.2 学習データとテストデータの分割をまねる
5.4.3 学習データとテストデータの分布が違う場合
5.4.4 Leaderboardの情報を利用する
5.4.5 バリデーションデータやPublic Leaderboardへの過剰な適合
5.4.6 クロスバリデーションのfoldごとに特徴量を作り直す
5.4.7 使える学習データを増やす
第6章 モデルのチューニング
6.1 パラメータチューニング
6.1.1 ハイパーパラメータの探索手法
6.1.2 パラメータチューニングで設定すること
6.1.3 パラメータチューニングのポイント
6.1.4 ベイズ最適化でのパラメータ探索
6.1.5 GBDTのパラメータおよびそのチューニング
Column xgboostの具体的なパラメータチューニングの方法
6.1.6 ニューラルネットのパラメータおよびそのチューニング
Column 多層パーセプトロンの具体的なパラメータチューニングの方法
6.1.7 線形モデルのパラメータおよびそのチューニング
6.2 特徴選択および特徴量の重要度
6.2.1 単変量統計を用いる方法
6.2.2 特徴量の重要度を用いる方法
6.2.3 反復して探索する方法
6.3 クラスの分布が偏っている場合
Column ベイズ最適化およびTPEのアルゴリズム
第7章 アンサンブル
7.1 アンサンブルとは?
7.2 シンプルなアンサンブル手法
7.2.1 平均、加重平均
7.2.2 多数決、重みづけ多数決
7.2.3 注意点とその他のテクニック
7.3 スタッキング
7.3.1 スタッキングの概要
7.3.2 特徴量作成の方法としてのスタッキング
7.3.3 スタッキングの実装
7.3.4 スタッキングのポイント
7.3.5 hold-outデータへの予測値を用いたアンサンブル
7.4 どんなモデルをアンサンブルすると良いか?
7.4.1 多様なモデルを使う
7.4.2 ハイパーパラメータを変える
7.4.3 特徴量を変える
7.4.4 問題のとらえ方を変える
7.4.5 スタッキングに含めるモデルの選択
7.5 分析コンペにおけるアンサンブルの例
7.5.1 Kaggleの「Otto Group Product Classification Challenge」
7.5.2 Kaggleの「Home Depot Product Search Relevance」
7.5.3 Kaggleの「Home Credit Default Risk」
付 録
A.1 分析コンペの参考資料
A.2 参考文献
A.3 本書で参照した分析コンペ
索引
著者プロフィール
Amazonで詳しく見る
紹介文
本書では、統計のもとになっている「数学」としての意味を、わかりやすく解説しました。
本書では、統計のもとになっている「数学」としての意味を、わかりやすく解説しました。中学数学の知識で理解できるように、必要に応じて基本的な事項の復習も行っています。「数学はあまり得意じゃないなあ」という人もいるかもしれませんが、そういう人こそ本書を手に取っていただきたいと思います。
【目次】(章タイトルのみ)
第1 章 データを整理する
第2 章 統計を理解するためのキホンの確率
第3 章 正規分布なしでは生きられない
第4 章 部分から全体を推定する(基礎編)
第5 章 部分から全体を推定する(発展編)
第6 章 仮説を検証する 仮説検定(基礎編)
第7 章 仮説を検証する 仮説検定(発展編)
第8 章 データ間の関係を分析する
Amazonで詳しく見る
紹介文
基礎的な考え方を丁寧に説明し,時系列モデルを実際のデータに応用する際に必要な知識を紹介
基礎的な考え方を丁寧に説明すると共に,時系列モデルを実際のデータに応用する際に必要な知識を紹介。〔内容〕基礎概念/ARMA過程/予測/VARモデル/単位根過程/見せかけの回帰と共和分/GARCHモデル/状態変化を伴うモデル
1. 時系列分析の基礎概念
1.1 時系列分析の基礎
1.2 定常性
1.3 ホワイトノイズ
1.4 自己相関の検定
2. ARMA過程
2.1 ARMA過程の性質
2.2 ARMA過程の定常性と反転可能性
2.3 ARMAモデルの推定
2.4 ARMAモデルの選択
3. 予測
3.1 予測の基礎
3.2 AR過程の予測
3.3 区間予測
3.4 MA過程の予測
3.5 ARMA過程の予測
4. VARモデル
4.1 弱定常ベクトル過程
4.2 VARモデル
4.3 グレンジャー因果性
4.4 インパルス応答関数
4.5 分散分解
4.6 構造VARモデル
5. 単位根過程
5.1 単位根過程の性質
5.2 単位根検定
5.3 単位根AR過程における統計的推測
6. 見せかけの回帰と共和分
6.1 見せかけの回帰
6.2 共和分
6.3 Granger表現定理
6.4 共和分関係の推定
6.5 共和分の検定
7. GARCHモデル
7.1 ボラティリティのモデル化の重要性
7.2 GARCHモデル
7.3 GARCHモデルの統計的推測
7.4 多変量GARCHモデル
7.5 相関変動モデル
8. 状態変化を伴うモデル
8.1 閾値モデル
8.2 平滑推移モデル
8.3 マルコフ転換モデル
Amazonで詳しく見る
紹介文
「数理モデル」とは、現実のデータを理解・活用するために生み出された様々な数理的な手段の総称である。これには、近年注目を浴びている機械学習だけでなく、物理学、生物学、生態学などの自然科学、また心理学、経済学、といった人文社会科学分野で用いられる諸手法が含まれている。
こうした極めて多様な方法論の間には、データの背後に存在するメカニズムをある種の数式で表現し、それを利用するという共通の目的・手続きが存在する。
データと目的が与えられたとして、どのモデリング手法に頼ればいいのだろうか?特に、現象の理解を目的とした分析には、機械学習の諸手法では太刀打ちできないこともある。
こういった場合には、統計モデリングだけでなく所謂計算論的モデルと呼ばれるボトムアップ型のモデリング手法が必要とされることもあるだろう。こうした俯瞰的な視点でモデルの「種類」を選択することはデータ分析において必須のステップであるが、そうした分野を跨いだ解説書は殆ど存在していないといっても良い。
そこで本書は、数理モデル全体が有機的に繋がって見えるような「横糸的な」理解を可能にする、全く新しい入門的な教科書を目指した。
本書では、さまざまなモデリング手法の基礎的な部分を解説するだけでなく、それらをどのように選択して使用すればよいか、そしてモデリングによって得られる結論について初学者が勘違いしやすい事項について丁寧に解説した。
主な読者としては、「これからデータ分析を始める」、或いは「ある種の分析で結果を出すことはできるが、それが何をやっていることになるのかがモヤモヤする」といった初学者・初級者を想定している。大学の一年次でも読み通せる程度の解説レベルを採用しているが、内容が淡泊になりすぎないように注意した。
また、通常データ分析の文脈では言及されない(しかし重要な)種々の数理手法についても解説することで、ある程度モデリングに慣れた読者が読んでも楽しめる内容を目指した。
第一部 数理モデルとは
第1章 データ分析と数理モデル
〔データを分析するということ/数理モデルの役割〕
第2章 数理モデルの構成要素・種類
〔理解志向型・応用志向型モデリング/数理モデルの適用限界〕
第二部 基礎的な数理モデル
第3章 少数の方程式によるモデル
〔線形モデル/実験式・カーブフィッティング/最適化問題〕
第4章 少数の微分方程式によるモデル
〔線形微分方程式/非線形微分方程式/安定性解析/制御理論〕
第5章 確率モデル
〔確率過程/マルコフ過程/待ち行列理論〕
第6章 統計モデル
〔正規分布/統計的検定/回帰分析〕
第三部 高度な数理モデル
第7章 時系列モデル
〔時系列データの構造/自己回帰モデル/状態空間モデル/非線形時系列解析〕
第8章 機械学習モデル
〔複雑なモデルと過学習/分類・回帰問題/クラスタリング/次元削減/深層学習〕
第9章 強化学習モデル
〔行動モデルとしての強化学習/機械学習モデルとしての強化学習〕
第10章 多体系モデル・エージェントベースモデル
〔ミクロからマクロへ/さまざまな集団現象モデル/相互作用のネットワーク分析〕
第四部 数理モデルを作る
第11章 モデルを決めるための要素
〔数理モデルの性質/理解志向型・応用志向型モデリングのポイント〕
第12章 モデルを設計する
〔変数の選択/データの取得・実験計画/数理構造・パラメータの選択/間違ったモデリングをしないために〕
第13章 パラメータを推定する
〔目的に応じたパラメータ推定/パラメータ推定における目的関数の最小化/ベイズ推定・ベイズモデリング〕
第14章 モデルを評価する
〔「いいモデル」とは/分類精度の指標/情報量基準/ヌルモデルとの比較・尤度比検定/交差検証〕
Amazonで詳しく見る
紹介文
ゲノムデータは宝の山!発見を導く遺伝統計学のツールをこの手に
論文で見たあのプロットが自分でも描ける!遺伝統計学の先端トピック,手法の特徴の理解から,Python・Rでの実習まで,手元のPCでワンストップで体験できる.ゲノムデータから発見を導く先端研究への招待.
序
本書の使い方
第1章 ヒトゲノム入門
1 DNA,ゲノムとは何か
2 ヒトゲノム配列とその個人差
第2章 遺伝統計学の概要
1 ヒトゲノム多型を用いた疾患ゲノム解析
2 オミクス解析による疾患病態の解明
3 ゲノム解析における機械学習
4 ゲノム創薬への展望
第3章 統計学入門
1 統計学の一分野としての遺伝統計学
2 母集団と標本集団,理論分布
3 帰無仮説とp値
4 さまざまな統計検定手法
第4章 Linux入門
1 Linuxについて
2 Cygwinについて
3 Cygwinを使ったLinuxコマンド実習
第5章 プログラミング入門
1 プログラミングについて
2 プログラミング言語の比較
3 Python入門実習
4 AWK入門実習
第6章 R入門
1 統計解析に優れたプログラミング言語:R
2 数値計算,変数(ベクトル・行列)の扱い
3 Rの関数
4 if文とfor文
5 ファイルの読み書き
6 統計検定
7 グラフの描画
第7章 遺伝統計ソフトウェアPLINK
1 ヒトゲノムデータの取り扱い
2 1000 Genomes Projectデータ
3 遺伝統計解析ソフトPLINK実習
第8章 GWAS・eQTL解析実習
1 遺伝統計学における関連解析
2 PLINKを使ったGWAS
3 遺伝子発現量を対象としたeQTL解析
第9章 SNP genotype imputation
1 SNP genotype imputation
2 HLA imputation法
3 SNP2HLAを使ったHLA imputation法
第10章 適応進化の解明・選択圧解析
1 選択圧と適応進化
2 全ゲノムシークエンスに基づく適応進化の解明
3 selscanを使った選択圧解析実習
付録 データベース・ウェブツール一覧
1 ゲノム・遺伝子
2 遺伝子変異・SNP
3 GWAS・疾患感受性遺伝子
4 エピゲノム
5 創薬
索引
Amazonで詳しく見る
紹介文
1 異常検知の基本的な考え方
2 正規分布に従うデータからの異常検知
3 非正規データからの異常検知
4 性能評価の方法
5 不要な次元を含むデータからの異常検知
6 入力と出力があるデータからの異常検知
7 時系列データの異常検知
8 よくある悩みとその対処法
Amazonで詳しく見る
紹介文
ビジネスで実践できるデータ分析力をマスター!
ビジネス現場ではデータ活用の重要性がますます高まっています。データに基づいた経営施策の実施とその効果検証のためには、一般的な統計指標(平均、標準偏差、相関)だけでなく「因果」にまで分析を広げる必要があります。
本書は因果分析の重要な2つの領域である「因果推論」および「因果探索」について、実際にプログラムを実装しながら学ぶ書籍です。因果推論や因果探索を学びたいビジネスパーソンや、初学者の方を対象としています。
・因果推論とは「テレビCM放映で、商品購入量がどれくらい増えたのか?」「研修の実施で、社員スキルがどの程度向上したのか?」など、なんらかの施策を実施した際に、その施策の効果を推定する手法です。
・因果探索とは「生活習慣と疾病の調査」「働き方改革に伴う社員調査」など、アンケート調査等で収集した各項目間の因果関係を明らかにする試みです。
本書は「因果推論、因果探索とはどのようなものか」「因果推論、因果探索を実施するには、具体的にどうしたら良いのか・分析プログラムをどう実装したら良いのか」「因果推論、因果探索が、どのように機械学習やディープラーニングと結びついているのか」が理解・習得できる内容となっています。
プログラミング言語Python、実行環境Google Colaboratory、機械学習ライブラリscikit-learn、PyTorchで実際に手を動かしながら実装し、習得していきます。
データに基づいた経営・ビジネスを実践するうえでスタンダードな手法となる因果分析をマスターしよう。
Part 1:因果推論
第1章 相関と因果の違いを理解しよう
第2章 因果効果の種類を把握しよう
第3章 グラフ表現とバックドア基準を理解しよう
第4章 因果推定を実装しよう
第5章 機械学習を用いた因果推論
Part 2:因果探索
第6章 LiNGAMの実装
第7章 ベイジアンネットワークの実装
第8章 ディープラーニングを用いた因果探索
第1部 因果推論
第1章 相関と因果の違いを理解しよう
1-1 因果推論が必要となる架空事例の紹介
1-2 相関と因果の違い、疑似相関とは
1-3 Google Colaboratoryを用いたPythonプログラミング:疑似相関の確認
第2章 因果効果の種類を把握しよう
2-1 反実仮想と様々な因果効果(ATE、ATT、ATU、CATE)
2-2 介入(doオペレータ)とは
2-3 本書で使用する数学記法の整理
2-4 調整化公式とは
第3章 グラフ表現とバックドア基準を理解しよう
3-1 構造方程式モデルとグラフ表現(因果ダイアグラムDAG)
3-2 バックドア基準、バックドアパス、d分離
3-3 ランダム化比較試験RCTによる因果推論
第4章 因果推論を実装しよう
4-1 回帰分析による因果推論の実装
4-2 傾向スコアを用いた逆確率重み付け法(IPTW)の実装
4-3 Doubly Robust法(DR法)による因果推論の実装
第5章 機械学習を用いた因果推論
5-1 ランダムフォレストによる分類と回帰のしくみ
5-2 Meta-Learners(T-Learner、S-Learner、X-Learner)の実装
5-3 Doubly Robust Learningの実装
第2部 因果探索
第6章 LiNGAMの実装
6-1 LiNGAM(Linear Non-Gaussian Acyclic Model)とは
6-2 独立成分分析とは
6-3 LiNGAMによる因果探索の実装
第7章 ベイジアンネットワークの実装
7-1 ベイジアンネットワークとは
7-2 ネットワークの当てはまりの良さを測る方法
7-3 変数間の独立性の検定
7-4 3タイプのベイジアンネットワークの探索手法
7-5 PCアルゴリズムによるベイジアンネットワーク探索の実装
第8章 ディープラーニングを用いた因果探索
8-1 因果探索とGAN(Generative Adversarial Networks)の関係
8-2 SAM(Structural Agnostic Model)の概要
8-3 SAMの識別器Dと生成器Gの実装
8-4 SAMの損失関数の解説と因果探索の実装
8-5 Google ColaboratoryでGPUを使用した因果探索の実行
Amazonで詳しく見る
紹介文
主要目次:
統計学を学ぶ大切さ/母集団と標本/大数の法則,正規分布,中心極限定理/推定と誤差/平均値の有意差検定:t検定/分散分析/相関/回帰/一般化線形モデル/一般化線形混合モデルと過分散対応/ノンパラメトリック検定/ベイズ統計学の基礎
Amazonで詳しく見る
紹介文
第0章 テンプレートの使い方
第1章 序論および記述統計
第2章 確率
第3章 確率変数
第4章 正規分布
第5章 標本と標本分布
第6章 信頼区間
第7章 仮説検定
第8章 2つの母集団の比較
Amazonで詳しく見る
紹介文
達人が教えるビジュアライゼーションの極意!!
達人が教えるビジュアライゼーションの極意!!
本書で言う「データ視覚化」(ビジュアライゼーション)とは、単に手元にあるデータをグラフにすることではありません。いくらデータを視覚化しても、その中から人間が重要な情報を読み取れないのなら、データ視覚化をする意味がないからです。 あくまで、そのデータが指し示す意味を明確にすること、そしてより多くの人たち(オーディエンス)に興味を持って見てももらえることがデータ視覚化の目的です。
本書では、日本人女性唯一のTableau ZEN MASTERである筆者が長年にわたって培ってきたデータ視覚化のノウハウ、ベストプラクティス、アンチパターン等を整理分類してエッセンスを抽出し、具体的な事例をあげながら、できるかぎり丁寧に解説しました。また、セミナーなどの現場でよくされる質問に対する答えをまとめたものでもあるので、ある意味、"FAQ"でもあります。
達人が教えるビジュアライゼーションの極意!!
第1章 データ視覚化「キモのキモ」
この章では、第2章、第3章を理解するために必要な基礎知識を解説しています。もし、あなたがデータ視覚化の基礎概念に精通していらっしゃる方であれば読み飛ばしていただいても結構ですが、第2章、第3章は、ここで解説する視覚属性やデータのタイプの知識が前提となっています。
第2章 これだけでグッとプロっぽくなるコツ
この章では、少し気をつけるだけで素人っぽさから抜け出せるポイントに焦点を当てて解説しました。明日からすぐにあなたのデータ視覚化のクオリティを上げる具体的な方法を詰めています。
第3章 目的に応じたチャートの選択
この章では、表現したいものに対して適切なチャートを解説し、さらにいくつかの「やってはいけないこと」としてアンチパターンも記載しています。やってはいけないことの構造や理由を知ることで、グラフの目利き力がさらにアップするはずです。
第4章 事例で学ぶ -ダッシュボード作成思考のキャプション-
実際に私がコンサルティングで作ったダッシュボード、トレーニングやワークショップで使用したケースを題材に説明します。ビジネス領域での使用事例を具体的に丁寧に解説することで、ご自身のビジネスや状況に合わせて適切なデータ視覚化が自分の頭で考えられるようになることを目指しています。
第5章 本当に組織に根付かせるために
データ視覚化は、「力の入れどころ」と「勇気を出してあえて力を抜くところ」を知り、さらにオーディエンスを意識すると誰でもご自身が伝えたいメッセージを効果的に届けることができます。この章では、さらにそれらを加速させるコツを書きました。これを知っていれば、あなたのデータ視覚化ライフはさらに楽しくなること間違いなしです。
Amazonで詳しく見る
紹介文
実践的にベイズ統計を学ぶために、数式は最小限とし、難しい計算には「Weka」や「Excel」といったツールを積極的に使用。
「ベイズ統計学」の敷居を低くする「理論より実践」の本!!
本書は、いわゆる「ネイマン‐ピアソン理論」の統計学とベイズ統計学の比較や、ベイズ統計理論の数式的な裏付けを示す等、学術的・専門的な解説を行うことを目的とはせず、ベイズ統計が現代社会の中でどのように生かされているのかを親しみやすい実例を挙げて記載し、実務への橋渡しを行うものです。解説する上で最小限必要とする数式は掲載しますが、ベイズ法で大きな障害となる「計算が難しい」という問題点をツール「Weka」や「Excel」を積極的に使用して簡略化し、データ分析の敷居を低くすることで、「理論より実践」を目指します。
はじめに:数理統計学とベイズ統計学の違い
第1章 宇宙から箱が届いた箱の中身を探る ―これがベイズの考え方
第2章 病気の検査 ―ベイズの定理
第3章 オオカミ少年とベイズ ―Wekaでベイズ決定
第4章 複数の因果関係を表す ―Wekaでベイジアンネットワーク
第5章 確率の確率 ―確率分布の導入
第6章 小さい村への対応 ―事前分布の上手な利用
第7章 見えない状態を推測する ―ベイズの定理と発展
付 録 ベイズ統計用ソフトウェア
Amazonで詳しく見る
紹介文
「あるある」なシチュエーションの例題で学べて、解説は直感的かつ親切・ていねい。文系学生の教科書にも社会人の独習にもピッタリ!
【統計学はこんな場面で役に立つ】
経営戦略、顧客分析、マーケティングといったビジネス上の課題においては、たくさんの数値(データ)を扱う場面が必ず現れます。そんなときに必要となるのが「統計学」の知識です。
たとえば、過去のデータを根拠にして以下の問いに答えるには、どのような分析が有効でしょうか?
●広告費を増やすと、売上はどれだけ増えると期待できるか? 広告費を増やすのと営業部員を増やすのでは、どちらが効果的か?
●SNSによる情報発信の前後で売り上げは変化したか?
●工場の機械が不調をきたしているか?(製品のばらつきの範囲は誤差の範囲と言えるだろうか?)
本書では、こうしたトピックを例題として扱いながら、統計学の知識・手法を解説していきます。じつはむずかしい数式を覚えたりする必要はありません! 感覚的な理解を目指しながら、ていねいに説明しました。「数学は苦手で……」「自分、文系ですから」と、統計を避けがちな方にこそ読んでいただきたいです。
【学生にも社会人にも】
経営学や商学を専攻する大学生が「統計学」に入門するためテキストとして、また、社会人の独習書としてオススメです!
【本書の特徴】
数学的に厳密な理解を深めることよりも、手を動かすことを主眼においた内容です。まず簡単な例題を示し、その解説を掘り下げていくことで、確率・統計の知識や考え方を身につけられる構成となっています。理解の定着を図るため、例題を発展させた練習問題を多数用意し、解説・解答も掲載しました。また、手計算が難しい例題・練習問題については、表計算ソフト(エクセル)による解法を解説し、便利な関数を紹介しています。
【おもな内容】
第0章 はじめに
第I部 データの全体像をつかむ
第1章 データの可視化
第2章 度数分布表・ヒストグラム
第3章 代表値・分散
第4章 散布図・相関係数
第5章 単回帰分析
第6章 重回帰分析
第II部 観測されたデータの起こりやすさを測る
第7章 確率の定義と場合の数
第8章 事象の関係と確率の計算
第9章 条件付き確率とベイズの定理
第III部 観測されたデータの背景を知る
第10章 確率変数、確率分布、期待値
第11章 代表的な離散分布:二項分布
第12章 代表的な連続分布1:正規分布
第13章 代表的な連続分布2:カイ2乗分布とt分布
第IV部 データの背後にある確率分布を推測する
第14章 標本調査と標本からの推定
第15章 区間推定
第16章 仮説検定
第0章 はじめに――統計学の役割と本書の構成を知ろう
第I部 データの全体像をつかむ
第1章 データの可視化――数字の羅列をグラフにしよう
1.1 グラフの描画
1.2 グラフ作成の注意点と対数目盛
第2章 度数分布表・ヒストグラム――データの分布を可視化しよう
2.1 集計
2.2 度数分布表とヒストグラムのつくり方
第3章 代表値・分散――データ全体の特徴を数字で表そう
3.1 代表値
3.2 分散
第4章 散布図・相関係数――2つの変数を同時に扱おう
4.1 2次元データ
4.2 散布図
4.3 相関係数
4.4 相関係数の解釈
第5章 単回帰分析――2変数の関係を定式化しよう
5.1 最小2乗法と単回帰分析
5.2 回帰直線にもとづく予測
第6章 重回帰分析――複数の説明変数で目的変数を表そう
6.1 重回帰分析
6.2 重相関係数と決定係数
6.3 多重共線性
第II部 観測されたデータの起こりやすさを測る
第7章 確率の定義と場合の数――確率的な現象を3種類の場合の数で表そう
7.1 確率の定義
7.2 場合の数
7.3 場合の数を用いた確率の計算
第8章 事象の関係と確率の計算――計算を楽ちんにする事象のとらえ方を知ろう
8.1 事象の関係
8.2 確率の基本的性質
8.3 余事象の関係を用いた確率の計算
第9章 条件付き確率とベイズの定理――影響し合う事象の確率を考えよう
9.1 条件付き確率
9.2 事象の独立
9.3 結果から原因の確率を求める
第III部 観測されたデータの背景を知る
第10章 確率変数、確率分布、期待値
10.1 確率変数
10.2 確率分布
10.3 期待値
10.4 分散
第11章 代表的な離散分布:二項分布
11.1 二項分布
11.2 二項分布の期待値・分散
第12章 代表的な連続分布1:正規分布
12.1 正規分布
12.2 任意の正規分布の確率を求める
第13章 代表的な連続分布2:カイ2乗分布とt分布
13.1 カイ2乗分布(1)――カイ2乗統計量とは
13.2 カイ2乗分布(2)――分割表を使う考え方
13.3 t分布
第IV部 データの背後にある確率分布を推測する
第14章 標本調査と標本からの推定
14.1 標本調査とは
14.2 大数の法則・中心極限定理
第15章 区間推定
15.1 区間推定の考え方(1)――分散が既知の正規分布の平均を推定する
15.2 区間推定の考え方(2)――分散が未知の正規分布の平均を推定する
第16章 仮説検定
16.1 仮説検定の考え方
16.2 t検定
16.3 カイ2乗検定(適合度検定)
Amazonで詳しく見る
紹介文
サンプルコードを動かして統計の直観的な理解を促した『Think Stats-プログラマのための統計入門』の著者によるベイズ統計・ベイス推論の解説書。数学的な観点での記述は最小限にとどめ、実例を多く使って実用的観点からベイズ手法を解説。Pythonで書かれたサンプルコードを使って実際に手を動かしながらベイズ統計を学ぶことができる。
1章 ベイズの定理
2章 計算統計学
3章 推定
4章 もっと推定を
5章 オッズと加数
6章 決定分析
7章 予測
8章 観察者バイアス
9章 2次元
10章 ベイズ計算を近似する
11章 仮説検定
12章 証拠
13章 シミュレーション
14章 階層的モデル
15章 次元を扱う
Amazonで詳しく見る
紹介文
統計学・データ分析は今やビジネスパーソン必須のスキル。統計学の基礎から、分析の技法、論文の書き方までを一冊で解説。
この本は企業に関するデータを用いて分析を行い、その結果を論文にまとめるために必要なことを説明しています。この本を読むことで、企業にかかわる実証論文を作成する能力を身につけることができます。この本は、いままでのデータ分析の本といくつかの点で明確に異なっています。
◆この本の特徴1--研究プロセス全体を学ぶ
この本の特徴の1つ目は、統計学だけではなく、テーマの決め方や論文の書き方などの研究プロセス全体について説明していることです。商学部やビジネススクールで統計学を勉強する学生の多くが求めているのは、統計学の練習問題を解けることではなく、卒業論文や専門職学位論文を書く能力です。そのことを念頭に、統計学の知識だけではなく研究プロジェクトを実行し、論文を書くための知識を身につけるという観点から執筆しています。
◆この本の特徴2--実証分析の結果を例として用いている
この本のもう1つの特徴は、例として企業データを用いた実証論文を多数紹介していることです。統計学の教科書では、身長と体重の関係や英語の成績と数学の成績の例などを用いて説明することがよくあります。この本では、できるだけ企業に関係する例を用いています。さらにこの本では、それぞれの章で学ぶ手法が実際の学術論文でどのように使用されているかの例が多数しめされています。
◆この本の特徴3--XがYに影響を与えているということをどのように示すのか
企業に関する論文には、さまざまなスタイルがあります。理論的に経営を分析するものもありますし、いくつかの実例(ケース)をもとに概念と概念の関係を抽出するものもあります。この本では企業データを集めて「変数Xが変数Yにどのような影響を与えているか」というテーマに関して統計的な分析を行う論文を書くことを説明しています。このように書くと、せまい分野に関する説明だと思うかもしれません。しかし、勉強を進めると、非常に多くの論文がこのように書かれていることがわかります。
◆この本の特徴4--東洋経済新報社の財務データを用いた実例
企業にかかわる分析において、上場企業の財務データが用いられた論文は無数にあります。このため、企業データを用いたデータ分析を学ぶためには財務データを用いることが望ましいといえます。この本の練習問題には、付属のウエブサイトからダウンロードする東洋経済新報社の財務データを用いる問いがいくつかあります。実際の財務データを用いて分析することができることが、この本のもう1つの特色です。この本では、東洋経済新報社の協力のもと、2000年から2009年の10年分の日本の時価総額上位200社の財務データを利用しています。企業データ分析を学ぶ教材としてはたいへん画期的です。
はじめに--本書の特徴
Part1 データ分析の道具を身につけよう
1 データ分析とは
2 正規分布と基礎統計量:100年に一度の大暴落は何年に一度起きているか
3 平均値の差のt検定:投資ファンドのターゲットになる企業の特徴は何か
4 回帰直線:日本の経営者は業績を最大化するインセンティブを持つのか
5 t値による回帰直線の確からしさの確認:保育所と女性就労の関係
6 重回帰分析:リストラに影響するのは売上高かROAか
Part2 自分の研究をはじめよう
7 研究テーマの選び方その1:実証分析の典型的なパターン
8 研究テーマの選び方その2:問題意識から研究テーマへ
9 先行研究の検索:どのような貢献ができるかを考える
10 データの探し方:「会社四季報」だけでも分析が可能
11 論文作成:研究計画書を作成し、分析結果を論文にまとめる
Part3 経営学でよく使われる分析ツール
12 ダミー変数、交差項と対数変換:男性のほうが女性より昇給が早い?
13 ロジット回帰:「する」か「しない」かの分析
14 株価のイベントスタディとDID:企業合併は株価や利益にどのような影響を与えるのか
あとがきにかえて--この本で取り扱わなかったトピックと今後の学習に関するアドバイス
Amazonで詳しく見る
紹介文
正しいデータの読み取り方、統計学的素養を学ぼう!客観的に物事を考え、主観や感情に流されない力を身に付けることができます。
正しいデータ解析方法を学ぶことで
クリティカルシンキングを育む!統計学はデータを正しく読み取ったとり、確率からより正しい判断ができるようになる学問です。
「ビッグデータ」や「AI」がビジネスの世界でキーワードになっています。多くのデータをインプットし、それを正しく解析することの重要性はますます増していくことはまちがいありません。
日々の生活の中で統計学的素養がないと、事象の捉え方を間違えてしまったり、時にはだまされたり、損をすることなどの例を示しながら、統計について勉強することの重要性についての理解を促します。
本書では、小学校中・高学年を対象に、高度な数学を必要としない「統計学の基本のき」について子どものみならず、「統計」という言葉にアレルギー反応を示すような数字が苦手な大人の方々にもわかりやすく説明していく内容です。
2020年4月より採用された「新学習指導要領」をベースとし、さらに統計学の三大グラフと呼ばれる「ヒストグラフ」「散布図」「箱ヒゲ図」の作成方法とそこからデータが導き出す実態を読み解く手法を解説します。
また、本書内で取り上げる事例は親子が会話をするきっかけになるようなテーマを吟味し、家庭内のコミュニケーションを推進する一冊となります。
小学生から正しいデータの読み取り方、クリティカルシンキングを身に付けよう!統計学的素養を身に付ければ客観的に物事を考え、主観や感情に流されない力をつけることができます。
Amazonで詳しく見る
紹介文
組織を変革する絶大な力を持つデータ分析。だがそのため必要なのは最新の分析ソフトよりも正しい方法論。第一人者がその方法を説く。
いまやビジネスの世界では、「データ分析が競争を制す」と言われる時代。しかしその一方で、高い分析ソフトを買ったものの、宝の持ち腐れで終わっているという会社も少なくない。では、分析力を武器にできる会社は何が違うのか? また分析力を武器にできる個人は何が違うのか? 第一人者が丁寧にその違いを解き明かす。(講談社現代新書)
いまやビジネスの世界では、「データ分析が競争を制す」と言われる時代。
そのために必要なのが「データ分析」。
データ分析は、たしかに使いようによっては、仕事の効率化、売上大幅アップなど、企業を変革するくらいのインパクトを持つ。
しかしその一方で、高い分析ソフトを買ったものの、宝の持ち腐れで終わっているという会社も少なくない。
また、いくら分析の得意な人間を増やしてもそれだけで実績が上がるわけでもない。
では、分析力を武器にできる会社は何が違うのか?
また分析力を武器にできる個人は何が違うのか?
第一人者が丁寧にその違いを解き明かす。
著者河本氏は2013年8月、日経情報ストラテジーが選ぶ第1回データサイエンティスト・オブ・ザ・イヤーを受賞!
第1章 データ分析に関する勘違い
第2章 データ分析でビジネスを変える力
第3章 分析力を向上するための流儀
第4章 分析プロフェッショナルへの道
Amazonで詳しく見る
紹介文
楽しみながら統計の考え方と簡単な手法が覚えられ、統計に強い人になれる一冊。累計20万部のロングセラーの第3版。
新聞を読んでも統計、テレビを見ても統計、仕事をしても統計・・・。私たちの身辺は、それこそ統計で満ちあふれています。まさに数、数、数の世の中です。
これらの統計の意味を正しく理解するために、うその統計のカラクリを見抜くために、データでものを言うために・・・。統計を知らないとほんとに損をします。
統計学はやたらと数式や数学を振り回す学問とおじけづき、毛嫌いしてはいないでしょうか。すべての人々に統計の基礎的な考え方を知っていただきたいという願いから、この本は書かれました。統計学の初歩を、マンガや図を豊富に使って、これだけやさしく解説した本は他にありません。楽しみながら、統計の考え方と簡単な手法が覚えられ、統計に強い人になれます。
第2版発行から20年以上が経ちました。現状にそぐわない用語・人名・統計値・比喩・事例などを改訂しました。
難解で敬遠しがちな統計の基礎を、マンガや図を多用してできるかぎりやさしく解説。楽しみながら統計の考え方と簡単な手法が覚えられ、統計に強い人になれる一冊。累計20万部のロングセラーの第3版。
基礎編
1.統計と人生
2.数字のグループを取り扱う
3.ばらつきのスタイル
4.ばらつきの法則-正規分布のはなし
5.見本で全体を推定するーその1.標準偏差がわかっているとき
6.見本で全体を推定するーその2.標準偏差がわかっていないとき
7.能力を判定するー検定のはなし
応用編
8.実験は楽しく有効に
9.故障と寿命
10.ぺてんにかかりそうな統計
11.統計の大学院
娯楽編
12.パチンコの統計
13.野球の統計
14.競馬の統計
Amazonで詳しく見る
紹介文
第1部 基礎と1変数関数の微積分(基礎事項ア・ラ・カルト
和と積
順列・組合せと2項定理・多項定理 ほか)
第2部 線形代数(ベクトルと行列の加減
ベクトルと行列の積
いろいろな行列 ほか)
第3部 多変数関数の微積分(偏微分と微分
テイラーの公式と極値問題
ベクトル微分と条件付き極値問題 ほか)