Twitterのロリコン人工無能Bot @jsfavo について

JSこれくたー，Twitterを監視する淫らなbot君です．

くんかくんかしながら演技して金をつぎ込みました✌(๑╹◡╹๑)
— JS・これくたー (@jsfavo) 2016, 1月 31

・@sosoruと@jsfavoのHomeTLを見て，指定されたキーワードが入ってるとふぁぼる
・30分おき（朝7時～9時は10分おき）に何かをツイート．深夜帯はお休み
・リプライを送ると何か返してくる

f:id:sosoru_m:20160201024001p:plain
🔺こんな感じ．（TriggeredFilterが反応した単語）

f:id:sosoru_m:20160201024442p:plain
🔺類似語の場合はこんな感じ

ロリに中出し"のレシピ
— JS・これくたー (@jsfavo) 2016, 1月 31

@sosoru テンプレパターンだよねよく考えるとコミケ勢が爆死してるちのちゃんとティッピー
— JS・これくたー (@jsfavo) 2016, 1月 31

🔺テンプレに反応して返してくれる

深夜帯の1時30分～6時前まではツイートしません．裏でデータベースのメンテナンスをしています．リプライ機能は生きているので，何かしら返してくれるかもしれませんが，メンテナンスの都合で返せない場合があります．

@jshiace
— JS・これくたー (@jsfavo) 2016, 1月 31

🔺返してくれないときもある，「わかんないよぉ」って言うときもある

@sosoru 最後に反応したツイートはこれだよっ！おにぃちゃん☆ (trigger : **Analogy: ココア from リゼ) https://t.co/XWhC4g0C9H
— JS・これくたー (@jsfavo) 2016, 1月 31

@jshiace へ，へんたいっ！！ (trigger words: 変態)
— JS・これくたー (@jsfavo) 2016, 1月 31

@sosoru へ，へんたいっ！！ (trigger words: ゆのっち) (trigger filters: (^|[^ぁ-ん])ゆの(っち|さん|ちゃん|たん|たそ|くん|きゅん|[^ぁ-ん]|$)
— JS・これくたー (@jsfavo) 2016, 1月 31

bot自体はC#で書かれていて，辞書学習等々のファイル操作でRubyをちょっと使っています．
C#のCoreTweetでTwiterAPIを弄りつつ，SQLServerに得たツイートを垂れ流しています．文章の形態素解析にはMeCabを使っていて，辞書には「はてなキーワード」を主に使っています．（C#側のライブラリはLibNMeCab）
類似語の列挙にはword2vecを使っています．@sosoruのHomeTLをMeCabでわかち書きしたものを学習させています．（C#側のライブラリはWord2Vec.Net）

word2vecを使えば単語の意味ベクトルが得られるので，2つの単語ベクトルの内積を取れば，どれだけ類似しているかが数値化できます．（これをコサイン類似度と呼ぶ？）
類似語とは文脈で使われやすい単語を指しているようで，同義語と反義語の区別はないようです．

f:id:sosoru_m:20160201032919p:plain
🔺類似度の高い単語を列挙した場合，それっぽい単語がサジェストされる

f:id:sosoru_m:20160201033003p:plain
🔺類似語に同義語と反義語の区別はない？

f:id:sosoru_m:20160201033807p:plain
🔺ペアだと高い類似度を持つ？

@sosoruのHomeTLを基に4語のマルコフ連鎖で文章を作っています．2016年1月の時点で，過去1年程度のTL，300～400万ツイートがデータベースに溜まっています．
リプライ等々で文章生成のリクエストを受け取ると30文程度の文章を生成します．生成された文章の中から，比較的短文で，基となった単語や文章と類似したものをランダムで選び出します．基の単語と文章の類似度を測るときにも，word2vecで出した単語の意味のベクトルを利用しています．
単語の意味ベクトルはword2vecが吐きだした数値を用いれば良いですが，文章の場合には，使われている名詞・形容詞などを抜き出し，その単語の意味ベクトルを足し合わせて正規化したものを，文章の意味ベクトルとして扱っています．
意味ベクトルとして考慮する単語が多くなるほど，基の単語・文章との類似度が低下するので，単語数を考慮してランダムで選び出します．
生成された文章と基になった文章の類似度が高い場合，幾つかの単語を類似語で置き換えています．botにたまによくある奇想天外な文章の類似度は，感覚的にあまり高くないようなので，わざと落とすことにしています．

f:id:sosoru_m:20160201040422p:plain
🔺考慮する品詞，代名詞や接尾語は見ない