ツイッターで見かける『よくつぶやくワード』っぽいものを作ってみる。
【ワードクラウド】って名前でライブラリとかも出てるっぽい。
動画を決めて、
【初配信!】ホロライブ5期生、桃鈴ねねある🥟【#ほろふぁいぶ】
チャットコメント一覧を抜き出して、MeCabを使って形態素解析すると、テキストの単語分割が出来る。
単語毎に使用回数をカウントして、ランキングを作製してみる。
が、なんか思ってたのと違う。
助詞とか接続詞が出てきても意味がわからない。名詞も最小単位分割が発生しているので、意味が失われている。
入力:愛されやい…(また誤字警察かw)
単語分割を行った後、文法結合をする必要があるっぽい。
ググってみるといろんな論文が出てきたが、読んでる途中で面倒くさくなったので、自分の感覚で自作してみた。
考え方はこんな感じ
・名詞と名詞を結合
・終助詞、接尾詞と前を結合
・接頭詞と後ろを結合
・接続助詞、非自立詞と前を結合
・助動詞を条件付きで前と結合
・感動詞と感動詞を結合
・出力時に一般記号、助詞、助動詞、フィラーを除外する。
これで、『誤字』と『警察』に分離された単語が『誤字警察』として認識できる。
記号を全部除外すると、『🥟』が消えてしまうので、無視対象の記号一覧を作ってみた。
『愛されやい』は文法処理ではどうしようも無いので、手動で辞書登録を行う。
ついでに、記号が『サ変接続』に認識されるMeCabの謎仕様を修正しておく。
入力:愛されやい…(また誤字警察かw)
再度単語毎に使用回数をカウントして、ランキングを作製してみる。
最初に作ったのと比べて格段に良くなった。
ExcelにE2D3というワードクラウトが使えるアドインが有ったので、
ランキングを食わせてみる。
takikomiprogramming.hateblo.jp
完成。
考察
辞書登録が手動だと、かなり恣意的な一覧になるので、自動化には向かない。
ピクシブ百科事典とか、ニコニコ大百科読ませて、ネットスラングを学習させる様な手段も有るが、まぁ気が向いたら考えよう。
特徴点が抽出できていないので比較に向かない。
5期生初配信を並べてみたが、上位単語の類似度が高い。
全体に存在しているような『草』、『w』、『かわいい』とかは除外したほうが個性が出る。
類似を抜いた頻出単語の1位はこうなる。
雪花ラミィ | 清楚 |
桃鈴ねね | 愛されやい |
獅白ぼたん | ぱおん |
魔乃アロエ | ちくわ |
尾丸ポルカ | 🎪 |
これが自動化できればこっちの方が欲しい。
英語文章が解読できてない。
チャット一覧を直接MeCabに食わせているので、英文がうまく分解できていない。日本語と比べれば圧倒的に分解が楽なんだから、Mecabに入れる前に何か処理を入れて分解するべき。