たきこみの丸太

暇だった。

ホロライブ5期生初配信 頻出単語アートの作製方法

ツイッターで見かける『よくつぶやくワード』っぽいものを作ってみる。
f:id:takikomiprogramming:20200817101112p:plain

【ワードクラウド】って名前でライブラリとかも出てるっぽい。

動画を決めて、
【初配信!】ホロライブ5期生、桃鈴ねねある🥟【#ほろふぁいぶ】

チャットコメント一覧を抜き出して、MeCabを使って形態素解析すると、テキストの単語分割が出来る。
単語毎に使用回数をカウントして、ランキングを作製してみる。
f:id:takikomiprogramming:20200817101514p:plain
が、なんか思ってたのと違う。

助詞とか接続詞が出てきても意味がわからない。名詞も最小単位分割が発生しているので、意味が失われている。

入力:愛されやい…(また誤字警察かw)
f:id:takikomiprogramming:20200817102851p:plain

単語分割を行った後、文法結合をする必要があるっぽい。
ググってみるといろんな論文が出てきたが、読んでる途中で面倒くさくなったので、自分の感覚で自作してみた。
考え方はこんな感じ
・名詞と名詞を結合
・終助詞、接尾詞と前を結合
・接頭詞と後ろを結合
・接続助詞、非自立詞と前を結合
・助動詞を条件付きで前と結合
感動詞感動詞を結合
・出力時に一般記号、助詞、助動詞、フィラーを除外する。
これで、『誤字』と『警察』に分離された単語が『誤字警察』として認識できる。
記号を全部除外すると、『🥟』が消えてしまうので、無視対象の記号一覧を作ってみた。
『愛されやい』は文法処理ではどうしようも無いので、手動で辞書登録を行う。
f:id:takikomiprogramming:20200817105336p:plain

ついでに、記号が『サ変接続』に認識されるMeCabの謎仕様を修正しておく。

入力:愛されやい…(また誤字警察かw)
f:id:takikomiprogramming:20200817110546p:plain

再度単語毎に使用回数をカウントして、ランキングを作製してみる。
f:id:takikomiprogramming:20200817111218p:plain
最初に作ったのと比べて格段に良くなった。


ExcelE2D3というワードクラウトが使えるアドインが有ったので、
ランキングを食わせてみる。
takikomiprogramming.hateblo.jp

完成。

考察

辞書登録が手動だと、かなり恣意的な一覧になるので、自動化には向かない。
ピクシブ百科事典とか、ニコニコ大百科読ませて、ネットスラングを学習させる様な手段も有るが、まぁ気が向いたら考えよう。

特徴点が抽出できていないので比較に向かない。
5期生初配信を並べてみたが、上位単語の類似度が高い。
全体に存在しているような『草』、『w』、『かわいい』とかは除外したほうが個性が出る。
類似を抜いた頻出単語の1位はこうなる。

雪花ラミィ 清楚
桃鈴ねね 愛されやい
獅白ぼたん ぱおん
魔乃アロエ ちくわ
尾丸ポルカ 🎪

これが自動化できればこっちの方が欲しい。

英語文章が解読できてない。
チャット一覧を直接MeCabに食わせているので、英文がうまく分解できていない。日本語と比べれば圧倒的に分解が楽なんだから、Mecabに入れる前に何か処理を入れて分解するべき。