ビッグデータ解析プログラムの良い検証方法を思いついた。
この切り抜き動画がスパチャ数と合計金額手動で数えてるんだよね。
じゃ、この動画と同じ数値出るなら、プログラムは正常に動いているはず。
この人はスパチャの色数も数えているので、
ついでに色数も数えられるようにする。
スパチャの色は、金額の条件分岐で可能なんだけど、
JSONからbody background color既に取ってるから、そっちで判別する。
条件 | 色 | body background color |
---|---|---|
200円未満 | 青 | 4280191205 |
500円未満 | 水色 | 4278248959 |
1000円未満 | 黄緑 | 4280150454 |
2000円未満 | 黄 | 4294953512 |
5000円未満 | オレンジ | 4294278144 |
10,000円未満 | ピンク | 4293467747 |
10,000円以上 | 赤 | 4293271831 |
色名は今後も使うだろうから、実態ビューに突っ込んでおいた。
SELECT mv.color_name 色名 ,count(*) 個数 FROM mv_chat_paids mv WHERE mv.video_id = 'c5kTxq_-_NY' GROUP BY mv.color_name
で、切り抜き動画とプログラムとの比較
色 | 切り抜き | プログラム | 差 |
---|---|---|---|
青 | 16 | 11 | 45.45% |
水色 | 217 | 246 | 11.79% |
黄緑 | 107 | 125 | 14.40% |
黄 | 143 | 147 | 2.72% |
オレンジ | 37 | 38 | 2.63% |
ピンク | 24 | 25 | 4.00% |
赤 | 52 | 51 | 1.96% |
合計数 | 596 | 643 | 7.31% |
合計金額 | 1069895.55 | 1090650.504 | 1.90% |
カウント誤差7%、金額誤差2%か。
カウント誤差が有る割に金額誤差が少ないのは、
赤、ピンク、オレンジの上位色でカウント誤差が少ないからだろうな。
しかし、プログラムが正しいかどうかの確証を得られるような結果では無かったな、残念。
動画に赤スパカウンターが出ているので、
赤の誤差がどこで生まれるのかを確認しておこうかと思ったが、
Youtubeのバグっぽいのにぶつかって、これ以上は無理となった。
以下挫折の経緯。
赤スパ検証
赤スパ一覧を出力して、どのタイミングで数値がずれるのかを見てみる。
直ぐに切り抜き動画での赤スパカウンターがずれる場所はわかった。
この『止まるんじゃねぇぞ!!(本日ラストスパ)』がプログラムで取得できてない。
で、本放送を見に行ってみたんだが、『止まるんじゃねぇぞ!!(本日ラストスパ)』がいつまでたっても出てこない。
プログラムで取得したチャット一覧と、表示されるチャット一覧は正しく同期している。
なんでや?と思って何度かシークバー動かしていたら、今まで出てこなかったチャットが出てきた。
動画の再生ボタンを押しても表示されないチャットが有るっぽい。
その表示されないチャットがシークバー動かしてると、たまに現れるっぽい。
何じゃそりゃ。
通常再生で投げられた赤スパをカットしてるとは考えにくいので、
Youtube側のバグだと思われる。
通常再生で取得できないチャットの取得とか無理だろうて。