●演習問題

  • Q 情報公開されているデータが、整理されてネット上で公開されるならば、公開されにくくなる?
  • A その可能性はある。

●演習がよい(特に集中力がない場合)

  • facebookを参照せよはダメ
  • googleが無料でサービスしているのだから、プライバシーは多少よいでしょうという考え方
  • google Docsはスキャンされている
  • gmail もスキャンされているけど、会社の情報は大丈夫
  • コンピュータサイエンスの人間なので合法に関心
  • IT産業は1社になりやすい

 

 

●●ビッグデータ処理 第7回、8回 170926

  • 最近傍法:近くを参照
  • 線形回帰法
  • サポートベクターマシン法:間に線を書く
  • ランダムフォレスト法:決定木
  • 今は無料で機械学習のアルゴリズムが利用できる
  • 励ます:相手の価値観を認めて応援
  • eliza(イライザ)
  • Siri 情報がアップルに蓄積されてしまう
  • スマートスピーカー Amazon Alexa
  • google Home は大きな声を出すと起動する/ーガーキングCM事件
  • チャットボットの自動作成ツールあり
  • 音声検索ははずかしい
  • 再識別は容易
  • 4年前のスイカ情報

●所感

  • どうやったら紙芝居のようにppでできる?
  • 今は体の調子が悪い(疲れを感じる)

 ●●ビッグデータ処理 第5回、6回 170519

  • 我々はビッグワールドに住んでいる、スモールワールドに住んでいる?
  • (平均2頂点間距離がビッグかスモールか)
  • 植物はなぜ枝分かれするの?=効率的に水が送れるという観点あり
  • 演習:弱い結合が重要な役割を果たす場合とは? 
    • 強い結合は同質な考え方、情報を持つ。
    • 一方弱い結合は異質なものであることがある。
    • /転職の時に役に立つのは弱い結合の時、
  • 大きな正の数と小さな数の足し算 → 対数をとって行う
  • 動的計画法(かな漢字変換):n回終了は(nー1)回終了問題から得られる、1回問題は解ける、→2回問題は解ける→3回問題は解ける→・・・・・
  • T:遷移関係を利用する。ダイナミック(動的)・プログラミング(=計画法)
  • 【次回のまとめ問題】
  • ①箱とボールの条件付確率問題
  • ②ベクトルとcos類似度問題
  • ③グラフの頂点Aと頂点Eを別グループにする2分割問題:最小コストとなるように分ける
  • 迷惑電話が平均2回かかってくる
  • 1日は100万回、起こるのは2/100万回と考える
  • 100万回のうち2回起こる確率は2項分布となる。
  • 式が大変なので、近似式を用いる
  • その日はかかってこない=100万回で1度もないこと=で求められる
  • k回 (2^k)/(k!)*(1/e^2)
  • 0回 1/(e^2)= 0.135335     1/2=0.3678794
  • 1回 2/(e^2)=0.270670
  • 3回 (2^3)/(3!)*(1/e^2) =8/6*(0.3678794)^3=0.180447004
  • 検索エンジンでも検索できる

●大規模グラフ解析

  • 適合しない場合もある法則
  • Unitedはハブ構造/southwestはp to p構造(ハブ構造ではない)
  • altavista(昔の検索エンジン)
  • webの構造=蝶ネクタイ構造 broder氏
  • 行けないところがあるので平均2頂点間距離は無限
  • 特徴的スケールのない法則
  • 特徴的スケールのある法則(単位が変わると式自体が変わる)
  • エネルギー以上の地震回数とエネルギーの関係/小さな地震はたくさんある!/べき乗
  • 指数関数式:ウェーバーフェヒナーの法則/感覚量は刺激強度の対数に比例する
  • べき乗則
  • 1位、2位は1/2、3位は1/3、・・・・
  • パレートの法則80%、20%の法則
  • YouTube の購読者数の分布を両対数グラフに書くと直線になる
  • クルーグマン:「都市の成長モデル」
  • ミルグラム:「知り合いの知り合いへの到達度の実験」、
    「人はやりたくないことを平気にできるか」の実験
  • ※人間は命令があると従う
  • ①似た商品→確率
  • ②→ランダム移動結果がページ重要度→記事は長いベクトルで示す
  • ③ネットワークの形は次数の分布で決まる→べき乗則

 

●●ビッグデータ処理 第3回、4回 170512

  • 検索エンジンのあるゴリズム
  • HITS法:クラインバーグ
    • オーソリティ:持っている人:評価の高い人から指されている人
    • ハブ:見ている人:見ている相手が立派
  • ページランク法
  • 【演習】検索エンジンがキャッシュを表示したり、アーカイブを作成するサービスは、著作権上問題なのか?
  • 特に画像検索など。米はフェアユースか否かで判断。/違法コピーを索引にしてはダメ
  • フェアユース:1984年 ビデオレコーダは時差視聴を可能にしている

●ニュース記事検索

  • ベクトル空間モデル
    • 文章1のベクトル(スマホという単語の軸,SNSという単語の軸,・・・・)
    • 文章2のベクトル
    • 文書の類似度=cosΘ
    • 欠点:単語の意味や相互の類似度は考慮していない!
  • TF-IDF法 (TF:( Time Frequency)、IDF(出現割合の逆数の対数))
    • T:誘導質問 gooood
    • 単語が出てくるとよい
    • 単語が出すぎてもよくない
    •  TF*IDF
  • オントロジー:単語の意味の階層的分類
    • 単語の意味の階層的分類
    • オントロジーには、wikipediaの分類など、分類法にはいろいろある
  • クラスタ分割
    • 指定された個数に分ける(←誰が決める?)
    • 例:SNSのユーザグループをいくつかに分ける
    • 一層クラスタリング
      • k平均法(k個に分ける→適当にk個に分ける→k個のグループの中心に近いところは残る、そうでない場合は移動→再計算・・・)
      • 欠点:飛び離れたものがあると悲劇!
      • 良い知らせと悪い知らせ
      • 良い知らせ:たくさんのバリエーションがある
      • 悪い知らせ:
    • 階層的クラスタリング
      • 1個1グループ→グループ間の距離が一番近いものを一緒
      • 合併した時の平均距離がなるべく近くなるようにする
      • ※(次回行う)ネットワークを分割するクラスタリング(時価)は感動するはず

 

●●ビッグデータ処理(徳田雄洋)【第1,2回】170428

  • T:当方の相対番号=12
  • 【商品推薦】
  • ソース:購買履歴、閲覧履歴、発言履歴
  • チューニング:検索をするとふさわしい広告、あなたが見たいニュース
  • 発信:チャットボット
  • 重要な見方:①多様なアプローチ、②確率的な見方、③ネットワーク的な見方
  • 確率的な見方
    • 条件付き確率=Bが起きたときにA∩Bが起こる確率=P(A∩B)/P(B)
    • あることが起こっても起こらなくても関係はないということ
    • 独立事象では確率の掛け算でよい
    • P(A|B)=P(A)なら独立
  • ネットワーク的な見方
    • 向きのない関係:例:知り合い
    • 向きのある関係:例:twitterのフォロー
    • 山手線の各ノードの次数は2
    • 航空路線は、「スター型を組み合わせた形」がよい
    • T:各ラインの需要量によるのではないか
  • 商品の推薦
    • ネットストア
      • 欠点:思わぬ出会いが少ない
    • 頻出商品セット(例)
      • 紙オムツとビール/咳止め薬とジュース/キャンディーとグリーティングカード
      • データマイニング=資源を掘り出す
      • 「分類上似た利用者は分類上似た商品を買うのではないか」という仮説は成り立つときと成り立たない場合もある
      • T:もう買ってしまった
    • アソシエーションルール/結合ルール
    • アプリオリ法(IBMの人が開発)はその1つ
    • 支持度:集合のうち、そのルールに合致する購買行動が占める割合をいう。支持度が高いほど、そのルールは一般性が高いと考える。
    • Netflix(DVDレンタル、ストリーミング)のコンテスト/ネットフリックスという映画の配信サービスで星いくつかを予測する/AT&Tチームが優勝。様々なトライアルを行った。/似た利用者は似た映画をDVD公開後高く・低く評価する。/個人情報法保護法の問題点あり。匿名化しても個人再識別が可能という問題あり。
    • スイミングプール数、科学技術論文数
    • バスケット部の部員は背が高い。しかし、バスケットをすると背が高くなるの>
    • amazonのランキングは対象期間を言っていない。瞬間でつけている模様。つくと上がる。一般的には1週間、1か月など。
  • 【迷惑メール】
  • Q 迷惑メールで困っている? →1990年代の半ばは問題だった。/2000年の前半はスパムフィルターの性能がとても高くなった。/今はウィルスメールが問題。企業では標的型メール訓練を行っている。
  • 単語でやる=ベイズ確率でやる。/正常メールを迷惑メールと分類されたくない。見逃しは少なくしたい。
  • 精度を高くするには、1通が迷惑メールと確信して迷惑という
  • 再現率を高くするには、全てを迷惑メールという。
  • 和の公式 確率=起こった場合の条件付き確率+起こらなかった場合の条件付確率
  • 結果が起きたときに原因1なのか原因2なのかのどちらかを判定する
  • 分母=迷惑メールのときにバイアグラが入っている確率
  • P=原因1で起こる確率/(原因1で起こる確率+原因2で起こる確率)
  • 条件付独立という考え方
  • 迷惑メールと正常メールの割合は半々(シマンテック)
  • 観察したことの原因は何か?
  • 白いボールの確率
  • 箱1から白の確率、箱2から白の確率、箱3から白・・・①
  • 箱3からの白いボールの確率・・・②
  • ②/① ←ベイズ分類
  • 起こる起こらないを予測するには、コインを投げて決めれば、的中率は50パーセントである。
  • 単語は、高い割合のものか、低い割合のものを使うと良い
  • ドアの後のプレゼント問題
    • A,B,Cのドアの後にプレゼントがある(3通り)に対し、あなたはa、b、cのどれかを選ぶの3通りの場合分け図を作って計算する
    • (応用問題)A,B,Cのうち1人だけ釈放される。AさんがAさん以外で釈放してくれる人を教えてもらう。Bさんだった。この場合、Cさんが釈放される確率は、この知識によって上がるが、Aさんの確率は上がらない。
    • 間違えたらマイナスにする採点方法にすると、受験生の戦略も変わってくる。
    • α碁も、条件付確率を刻々と変えている。

 

【ビッグデータの効果】(出典:実積寿也「ビッグデータ」BBIQモーニングビジネススクール)

  • 効率性改善
    • 本質的なもの
      • 過剰診療(軽い風邪などの不要な人に医療行為を行う)
      • 過小診療(糖尿病患者に治療を行わない)
      • 医療ミス(誤診)
    • ビジネス(産業が花開いていない)
      • 個人の健康情報や遺伝情報を用いた先進医療産業、遺伝子創業産業
      • (注)市場メカニズムを考えながら政策を行う必要あり
      • T:なるほど。産業としての視点は重要ですね。