リンク - htanaka ページ！

統計WEB

http://software.ssri.co.jp/statweb2/

ラベル屋さん　←ラベルシートのテンプレートがある、ポストイットラベルシートを買って制作する

http://www.labelyasan.com/

統計基礎第１０回演習（相関）

https://docs.google.com/forms/d/e/1FAIpQLSdZl0GMCTzUnnBMhXXtXLLWYZtjc4yWiIJ_7eV7BNCYKHFF-w/viewform?entry.895468147&entry.2105535735&entry.715015080&entry.765794416

●記述統計学と推測統計学

記述統計学
- 目的：データを整理し、データの特徴をできるだけ簡潔に表す
- 手法：数値、表、グラフなどでデータの特徴を捉える
- 例：国勢調査、テストの成績
推測統計学
- 目的：サンプルデータ（標本）から全体（母集団）の状況を推測する
- 手法：推定、検定

●相関と因果

出典：中室牧子他「原因と結果の経済学」
因果推論の5ステップ
ステップ1 「原因」は何か
ステップ2 「結果」は何か
ステップ3 ３つのチェックポイントを確認
（1）まったくの偶然ではないか
（2）交絡因子が存在しないか
（3）逆の因果関係は存在しないか
ステップ4 反事実を作り出す
ステップ5 比較可能になるように調整する

情報学研究データリポジトリ

http://www.nii.ac.jp/dsc/idr/index.html

Nioopnの数字（↽統計教材の作成等）

http://www.nippon-num.com/

東京都中央卸売市場日報　

クリスマス近辺のいちごの価格を調べると高くなっていることがわかる
（経済学の授業へ）

■PC教室でのネットワークドライブへの接続方法

ログインする
→windowsボタン→検索ボックス
→\\file1\2143教室
又は
→\\file1\home\○○×××

●Ｑ　日本人の年齢の平均値と中央値はどちらた高いか？

Ａ　中央値は56.1歳(2015年国勢調査）

となぜ、警察官が多い街ほど犯罪が多いのか？（塚崎公義大学教授）

2016年07月20日 05:00

http://sharescafe.net/49058445-20160718.html

赤ワインの味わい分布図

横軸（フルボディ～ライトボディ）、縦軸（渋みが強い～渋みが弱い）
カベルネソービニヨンは左上、メルローやピノノワール（新世界）は左下

統計教材（総務省統計局）

http://www.stat.go.jp/teacher/

相関係数あてゲーム

散布図を見て相関係数を推定する。大きく3回外れるとアウト。

http://guessthecorrelation.com/

●Q　相対的貧困の定義として、ざっくり、ア）所得が国民の平均所得の半分以下の人、　イ）所得が国民の所得の中央値の半分以下の人、のどちらが採用されていると考えますか？

（参考）国民生活基礎調査における相対的貧困率
- 一定基準（貧困線）を下回る等価可処分所得しか得ていない者の割合をいう。
- 貧困線とは、等価可処分所得（世帯の可処分所得（収入から税金・社会保険料等を除いたいわゆる手取り収入）を世帯人員の平方根で割って調整した所得）の中央値の半分の額をいう。

【アンケート調査で注意すべきこと】

（出典：実積寿也「アンケート調査結果の正しい使い方①、②」BBIQモーニングビジネススクール）

ホームページ、ML、SNS、ネット専門調査会社を使って調査できる時代。
対象を誰にすべきか？　（何を調べたいのか？）
- 製品の利用者へ調査　⇒　自分の選択が間違っていたとは認めにくいから高い評価となる　
- ⇒　（可能であれば）消費者全体に調査が望ましい
アンケート結果とは？
- 調査対象となった人のうちきちんとした情報を記入し返送してくれた人の傾向
ランダムサンプリングが必要
- 対象集団に含まれるすべての個人について、アンケート票配布対象となる確率が等しくする

【データ分析】

①問題の定義

②どのようなフレームで分析を行うか？

③データのチェック、クレンジング

④分析方法の選択（代表値、クロス集計）

標準偏差の使い方

A案とB案で平均が高いからA案が有利とは言えるのか？

人間の認知バイアスにより解釈を誤る可能性（事例）

【Excelの使い方】

・行と列を入れ替える

（表の全てのセルを選択）→（右クリック）→コピー→（コピー先のセルをクリック）

　→（右クリック）→形式を選択して貼り付け→形式を選択して貼り付け

　→（「行列を入れ替える」にチェック）→OK

【統計の教材】（新メニュー）

確率分布：さいころなどを使って待ち行列のシミュレーションはできる？
分散は何に使う→推測統計に用いること、グループAとグループBに分けてマーケティングすべきか否かの判断材料に使えるという事例問題

【EXCELの統計関数】

平均　=average(範囲）

中央値　=median(範囲）

標準偏差　=stdevp(範囲）

度数　=countif(範囲,"条件") (例）　=countif(範囲,"<1")

【世代別の投票率と投票人数】

投票率

20から24歳　46.66％

65から69歳　85.04％

投票人数

20から24歳　310万人

65から69歳　710万人

　調査はパートや派遣労働者を含む約27万人の給与から

【相関】

国民所得と問題発生率には相関なし

所得格差と問題発生率は正の相関あり

個人の所得と子どもの幸せは無関係

所得格差と子どもの幸せは負の相関あり

所得格差の大きい国ほど人を信頼していない

所得格差が問題

【ダミー変数】

もともと量的な意味の無い変数に見せかけの量を持たせることからダミー変数と呼ぶ。例えば、ダミー変数として０、１を割当てるとしても、実は、どちらの状態に０を割当ててもよいのである。

【割合の表現方法】

日本の食糧自給率
- ７０％（生産額ベース）
- ４０％（カロリーベース）
- 　（∵輸入品にカロリーが高いものがある、例：畜産物、油脂、小麦）
- 　（カロリーベースの数字を使っているのは、日本と韓国のみ）

【度数分布】

×　人間は「頭がいい人」と「頭が悪い人」に分かれている

　（△の山が２つある）

○　人間は「頭がいい」と「頭が悪い」に連続的に変化している

　（正規分布の山がある）

（注）ただし、頭のよさをはかる客観的な尺度（スケール、モノサシ）は存在しない

【世論調査のサンプルサイズ】

・百台では！

【将来の電源構成のあり方】

・世論のアンケート調査の結果をどう扱うべきか？

・「税率は何％であるべきですか？」というアンケートに意味はあるのか？

【閾値は存在するのか？】

Ｑ　放射線による健康被害について、

暴露放射線量（横軸）と健康被害（縦軸）の関係はどのようになるのであろうか？

Ｑ　鉄道の駅のプラットフォームで、プラットフォームからの距離(横軸）と安全性（縦軸）

の家計はどのようになるのか？　（黄色い線の内側での安全性は？）

●データサイエンス革命1　データサイエンスことはじめ（和泉志津恵）

データ：加工、分析、活用
ビッグデータ＝ネットワーク上に蓄積された多様多量のデータ
データの種類：身体、経済、自然、アンケート、音声、画像
データサイエンス

データエンジニアリング：収集・加工・処理　：データベース

Tそうかこれがひと塊

データアナリシス：分析・解析：　機械学習、パターン認識
価値創造：人文知の知識、結果の解釈
e-satat,resas,気象

問いを作る（データを使う前に）とともに答えも予想して理由も書く

いつ、どこで・・・

演習系に最適

例：気温↑⇒飲料支出金額↑
e-stat:国政調査、家計消費調査等のデータ　飲料支出金額（月別、大津市）
気象庁：最高気温（月別、大津市）
月、飲料支出、最高気温
１、〇〇、▲▲
２、〇〇、▲▲
散布図
補助線（平均値）を２本ひくと傾向がわかる
相関係数

これも考える　aha!

なぜ、そうしない：なぜ気温以外を調べないの？　関係するデータがあれば合わせて使う
もし、そうしたら：もし〇〇したら飲料金額↑？
二人世帯以上世帯の　風が強いと飲料↑
青か赤の紙を学生に上げてもらう

まとめ

データは掛け算で価値が増大する（例：相関）
機械学習、深層学習、統計的モデリング

●データサイエンスをいかす（松井秀俊）

偏りのないサンプリングが重要
碁

従来＝シミュレーションを繰り返す
深層学習（過去の棋譜を読み込ませる）aha!
疑似相関の場合
- 偏相関：年齢を固定して身長と学力の関係を見る
判別分析

６４次元であっても同じ数字は同じような場所に来るだろう
人の顔に自動的にピントが合う＝判別分析

●経営における人工知能とデータサイエンス（倉橋節也）

AI研究
- 人工知能⇒検索、顔認識、Siri、ワトソン、自動運転
- データがあって似たようなパターンを見つける〇
- フレーム問題：特化したAIは他の分野で使えない、特定のパターンを見つけるのは得意
- 機械学習、マルチエージェントをやる
- 決定木学習=機械学習である
- データ：異常はほとんど発生しない
- モデル：希少イベントは起きない
- 実験不可能
- ⇒シミュレーションを行う
- １演繹法＝人気なし
- ２帰納法＝人気
- ３生成法：複数のエイジェントにより得られた結果を基に戻す
- 課題：ネットワーク化されている銀行のどこに資本注入すべきか？
- 媒介中心性

●マーケティングとデータサイエンス（佐藤忠彦）

●サイト

マーケティングメトリックス研究所
https://www.mm-lab.jp/

●演習問題

度数分布図、散布図は、どのような場合に用いますか？　違いがわかるように説明してください。
二つの関係を表すものとして散布図とクロス集計表があります。どのような場合にどちらを利用するのですか？　説明してください。

●さまざま

正規分布をやめ所得分布を行おう
データからどうゆうことが言えて、どうゆうことが言えないかを分析する能力が必要
典型的な誤答をさせて学生に直させる
この人たちといっしょにこの国を作っていくしかない（我々は若者に未来を託している）
ディベイトの練習を行う
市民は自分が判断する基準を持つことが必要
防潮堤の高さは何メートルがよいか？（演習）
薬代+リスク料＝麻薬代
モーガンフリーマン時空を超えて「貧富の差をもたらすものは何か」ＮＨＫ、2017.11
所得分布

下位９７％＝ボルツマン分布（熱経済の分布）
上位３％＝べき乗分布
平等＝同じ報酬がもらえること、公平＝努力に見合った報酬
自分を利するための行動　ＮＥ　利己的（自分だけよい）
共有地の悲劇＝一人の利己主義が全体の利益を減ずる
環境問題など、様々な例がある
そのために法がある、しかし完全ではなく、富裕層が有利
恥の意識を使うとよい
実験
お互い話さない
1人10ドルを倍に増やすゲーム
第２回は、最も貢献した人と、逆の人を発表するという
共同資金に出資すると２倍に増えるのでその分け前をもらえる
投資家が投資するから全体の経済は上がる

『Pythonによるスクレイピング&機械学習開発テクニック』レビュー

ProgateのPythonコースと、ドットインストールのPythonコースを事前に学ぶとよい

30代の貯蓄額、中央値は83万で平均値は589万で最頻値は0万