ビッグデータ

●演習問題

Q　情報公開されているデータが、整理されてネット上で公開されるならば、公開されにくくなる？
A　その可能性はある。

●演習がよい（特に集中力がない場合）

facebookを参照せよはダメ
googleが無料でサービスしているのだから、プライバシーは多少よいでしょうという考え方
google Docsはスキャンされている
gmail もスキャンされているけど、会社の情報は大丈夫
コンピュータサイエンスの人間なので合法に関心
IT産業は１社になりやすい

●●ビッグデータ処理　第７回、８回　170926

最近傍法：近くを参照
線形回帰法
サポートベクターマシン法：間に線を書く
ランダムフォレスト法：決定木
今は無料で機械学習のアルゴリズムが利用できる
励ます：相手の価値観を認めて応援
eliza（イライザ）
Siri 情報がアップルに蓄積されてしまう
スマートスピーカー Amazon　Alexa
google Home　は大きな声を出すと起動する／ーガーキングCM事件
チャットボットの自動作成ツールあり
音声検索ははずかしい
再識別は容易
４年前のスイカ情報

●所感

どうやったら紙芝居のようにｐｐでできる？
今は体の調子が悪い（疲れを感じる）

●●ビッグデータ処理　第５回、６回　170519

我々はビッグワールドに住んでいる、スモールワールドに住んでいる？
（平均２頂点間距離がビッグかスモールか）
植物はなぜ枝分かれするの？＝効率的に水が送れるという観点あり
演習：弱い結合が重要な役割を果たす場合とは？　
- 強い結合は同質な考え方、情報を持つ。
- 一方弱い結合は異質なものであることがある。
- ／転職の時に役に立つのは弱い結合の時、
大きな正の数と小さな数の足し算　→　対数をとって行う
動的計画法（かな漢字変換）：ｎ回終了は（ｎー１）回終了問題から得られる、１回問題は解ける、→２回問題は解ける→３回問題は解ける→・・・・・
Ｔ：遷移関係を利用する。ダイナミック（動的）・プログラミング（＝計画法）
【次回のまとめ問題】
①箱とボールの条件付確率問題
②ベクトルとcos類似度問題
③グラフの頂点Ａと頂点Ｅを別グループにする２分割問題：最小コストとなるように分ける
迷惑電話が平均２回かかってくる
１日は100万回、起こるのは２／100万回と考える
100万回のうち２回起こる確率は2項分布となる。
式が大変なので、近似式を用いる
その日はかかってこない＝100万回で１度もないこと＝で求められる
ｋ回　（２^ｋ）/（ｋ！）＊（１／e^2)
０回　１/(e^2)= 0.135335 １／２＝０．３６７８７９４
１回　2/(e^2)=0.270670
3回　(2^3)/(3!)*(1/e^２) =8/6*(0.3678794)^3=0.180447004
検索エンジンでも検索できる

●大規模グラフ解析

適合しない場合もある法則
Unitedはハブ構造／southwestはp to p構造（ハブ構造ではない）
altavista（昔の検索エンジン）
webの構造＝蝶ネクタイ構造　broder氏
行けないところがあるので平均２頂点間距離は無限
特徴的スケールのない法則
特徴的スケールのある法則（単位が変わると式自体が変わる）
エネルギー以上の地震回数とエネルギーの関係／小さな地震はたくさんある！／べき乗
指数関数式：ウェーバーフェヒナーの法則／感覚量は刺激強度の対数に比例する
べき乗則
1位、2位は１／２、３位は１／３、・・・・
パレートの法則８０％、２０％の法則
YouTube の購読者数の分布を両対数グラフに書くと直線になる
クルーグマン：「都市の成長モデル」
ミルグラム：「知り合いの知り合いへの到達度の実験」、
「人はやりたくないことを平気にできるか」の実験
※人間は命令があると従う
①似た商品→確率
②→ランダム移動結果がページ重要度→記事は長いベクトルで示す
③ネットワークの形は次数の分布で決まる→べき乗則

●●ビッグデータ処理　第３回、４回　170512

検索エンジンのあるゴリズム
HITS法：クラインバーグ
- オーソリティ：持っている人：評価の高い人から指されている人
- ハブ：見ている人：見ている相手が立派
ページランク法
【演習】検索エンジンがキャッシュを表示したり、アーカイブを作成するサービスは、著作権上問題なのか？
特に画像検索など。米はフェアユースか否かで判断。／違法コピーを索引にしてはダメ
フェアユース：1984年　ビデオレコーダは時差視聴を可能にしている

●ニュース記事検索

ベクトル空間モデル
- 文章１のベクトル（スマホという単語の軸，SNSという単語の軸，・・・・）
- 文章２のベクトル
- 文書の類似度＝cosΘ
- 欠点：単語の意味や相互の類似度は考慮していない！
TF-IDF法　(TF:（ Time Frequency）、IDF（出現割合の逆数の対数））
- T:誘導質問 gooood
- 単語が出てくるとよい
- 単語が出すぎてもよくない
- TF*IDF
オントロジー：単語の意味の階層的分類
- 単語の意味の階層的分類
- オントロジーには、wikipediaの分類など、分類法にはいろいろある
クラスタ分割
- 指定された個数に分ける（←誰が決める？）
- 例：SNSのユーザグループをいくつかに分ける
- 一層クラスタリング
- - ｋ平均法（k個に分ける→適当にｋ個に分ける→ｋ個のグループの中心に近いところは残る、そうでない場合は移動→再計算・・・）
  - 欠点：飛び離れたものがあると悲劇！
  - 良い知らせと悪い知らせ
  - 良い知らせ：たくさんのバリエーションがある
  - 悪い知らせ：
- 階層的クラスタリング
- - １個１グループ→グループ間の距離が一番近いものを一緒
  - 合併した時の平均距離がなるべく近くなるようにする
  - ※（次回行う）ネットワークを分割するクラスタリング（時価）は感動するはず

●●ビッグデータ処理（徳田雄洋）【第１,２回】170428

Ｔ：当方の相対番号＝１２
【商品推薦】
ソース：購買履歴、閲覧履歴、発言履歴
チューニング：検索をするとふさわしい広告、あなたが見たいニュース
発信：チャットボット
重要な見方：①多様なアプローチ、②確率的な見方、③ネットワーク的な見方
確率的な見方
- 条件付き確率＝Ｂが起きたときにＡ∩Ｂが起こる確率＝Ｐ（Ａ∩Ｂ）／Ｐ（Ｂ）
- あることが起こっても起こらなくても関係はないということ
- 独立事象では確率の掛け算でよい
- Ｐ（Ａ｜Ｂ）＝Ｐ（Ａ）なら独立
ネットワーク的な見方
- 向きのない関係：例：知り合い
- 向きのある関係：例：twitterのフォロー
- 山手線の各ノードの次数は２
- 航空路線は、「スター型を組み合わせた形」がよい
- Ｔ：各ラインの需要量によるのではないか
商品の推薦
- ネットストア
- - 欠点：思わぬ出会いが少ない
- 頻出商品セット（例）
- - 紙オムツとビール／咳止め薬とジュース／キャンディーとグリーティングカード
  - データマイニング＝資源を掘り出す
  - 「分類上似た利用者は分類上似た商品を買うのではないか」という仮説は成り立つときと成り立たない場合もある
  - Ｔ：もう買ってしまった
- アソシエーションルール／結合ルール
- アプリオリ法（ＩＢＭの人が開発）はその１つ
- 支持度：集合のうち、そのルールに合致する購買行動が占める割合をいう。支持度が高いほど、そのルールは一般性が高いと考える。
- Netflix（ＤＶＤレンタル、ストリーミング）のコンテスト／ネットフリックスという映画の配信サービスで星いくつかを予測する／ＡＴ＆Ｔチームが優勝。様々なトライアルを行った。／似た利用者は似た映画をＤＶＤ公開後高く・低く評価する。／個人情報法保護法の問題点あり。匿名化しても個人再識別が可能という問題あり。
- スイミングプール数、科学技術論文数
- バスケット部の部員は背が高い。しかし、バスケットをすると背が高くなるの＞
- ａｍａｚｏｎのランキングは対象期間を言っていない。瞬間でつけている模様。つくと上がる。一般的には１週間、１か月など。

【迷惑メール】
Ｑ　迷惑メールで困っている？　→1990年代の半ばは問題だった。／2000年の前半はスパムフィルターの性能がとても高くなった。／今はウィルスメールが問題。企業では標的型メール訓練を行っている。
単語でやる＝ベイズ確率でやる。／正常メールを迷惑メールと分類されたくない。見逃しは少なくしたい。
精度を高くするには、１通が迷惑メールと確信して迷惑という
再現率を高くするには、全てを迷惑メールという。
和の公式　確率＝起こった場合の条件付き確率+起こらなかった場合の条件付確率
結果が起きたときに原因１なのか原因２なのかのどちらかを判定する
分母＝迷惑メールのときにバイアグラが入っている確率
Ｐ＝原因１で起こる確率／（原因１で起こる確率+原因２で起こる確率）
条件付独立という考え方
迷惑メールと正常メールの割合は半々（シマンテック）
観察したことの原因は何か？
白いボールの確率
箱１から白の確率、箱２から白の確率、箱３から白・・・①
箱３からの白いボールの確率・・・②
②／①　←ベイズ分類
起こる起こらないを予測するには、コインを投げて決めれば、的中率は５０パーセントである。
単語は、高い割合のものか、低い割合のものを使うと良い
ドアの後のプレゼント問題
- Ａ，Ｂ，Ｃのドアの後にプレゼントがある（３通り）に対し、あなたはａ、ｂ、ｃのどれかを選ぶの３通りの場合分け図を作って計算する
- （応用問題）Ａ，Ｂ，Ｃのうち１人だけ釈放される。ＡさんがＡさん以外で釈放してくれる人を教えてもらう。Ｂさんだった。この場合、Ｃさんが釈放される確率は、この知識によって上がるが、Ａさんの確率は上がらない。
- 間違えたらマイナスにする採点方法にすると、受験生の戦略も変わってくる。
- α碁も、条件付確率を刻々と変えている。

【ビッグデータの効果】（出典：実積寿也「ビッグデータ」BBIQモーニングビジネススクール）

効率性改善
- 本質的なもの
- - 過剰診療（軽い風邪などの不要な人に医療行為を行う）
  - 過小診療（糖尿病患者に治療を行わない）
  - 医療ミス（誤診）
- ビジネス（産業が花開いていない）
- - 個人の健康情報や遺伝情報を用いた先進医療産業、遺伝子創業産業
  - （注）市場メカニズムを考えながら政策を行う必要あり
  - T:なるほど。産業としての視点は重要ですね。