●●ビッグデータ処理(徳田雄洋)【第1,2回】170428
- T:当方の相対番号=12
- 【商品推薦】
- ソース:購買履歴、閲覧履歴、発言履歴
- チューニング:検索をするとふさわしい広告、あなたが見たいニュース
- 発信:チャットボット
- 重要な見方:①多様なアプローチ、②確率的な見方、③ネットワーク的な見方
- 確率的な見方
-
-
条件付き確率=Bが起きたときにA∩Bが起こる確率=P(A∩B)/P(B)
- あることが起こっても起こらなくても関係はないということ
- 独立事象では確率の掛け算でよい
- P(A|B)=P(A)なら独立
- ネットワーク的な見方
-
- 向きのない関係:例:知り合い
- 向きのある関係:例:twitterのフォロー
- 山手線の各ノードの次数は2
- 航空路線は、「スター型を組み合わせた形」がよい
- T:各ラインの需要量によるのではないか
- 商品の推薦
-
- ネットストア
-
- 頻出商品セット(例)
-
- 紙オムツとビール/咳止め薬とジュース/キャンディーとグリーティングカード
- データマイニング=資源を掘り出す
- 「分類上似た利用者は分類上似た商品を買うのではないか」という仮説は成り立つときと成り立たない場合もある
- T:もう買ってしまった
- アソシエーションルール/結合ルール
- アプリオリ法(IBMの人が開発)はその1つ
- 支持度:集合のうち、そのルールに合致する購買行動が占める割合をいう。支持度が高いほど、そのルールは一般性が高いと考える。
- Netflix(DVDレンタル、ストリーミング)のコンテスト/ネットフリックスという映画の配信サービスで星いくつかを予測する/AT&Tチームが優勝。様々なトライアルを行った。/似た利用者は似た映画をDVD公開後高く・低く評価する。/個人情報法保護法の問題点あり。匿名化しても個人再識別が可能という問題あり。
- スイミングプール数、科学技術論文数
- バスケット部の部員は背が高い。しかし、バスケットをすると背が高くなるの>
- amazonのランキングは対象期間を言っていない。瞬間でつけている模様。つくと上がる。一般的には1週間、1か月など。
【ビッグデータの効果】(出典:実積寿也「ビッグデータ」BBIQモーニングビジネススクール)
- 効率性改善
-
- 本質的なもの
-
- 過剰診療(軽い風邪などの不要な人に医療行為を行う)
- 過小診療(糖尿病患者に治療を行わない)
- 医療ミス(誤診)
- ビジネス(産業が花開いていない)
-
- 個人の健康情報や遺伝情報を用いた先進医療産業、遺伝子創業産業
- (注)市場メカニズムを考えながら政策を行う必要あり
- T:なるほど。産業としての視点は重要ですね。