はてブの「トピック」が笑点レベルに到達している件について

心臓がバクバクしてて調子よくない…。いっぽうではてなブックマークの「新着トピック」欄はあいかわらず快調だ。ディープラーニングの域を超越して、もはや笑点への出演も可能なのではないかと思わされる。

ところでこいつを見てくれ。どう思う?

20150617-01-001-gamba

ガンバ、3D CGアニメ映像が脱ぐ!

すごく…ヤバいです…。そうか。ガンバ、放送コードに挑戦するという意味で「冒険者たち」になっちゃうのね。たぶん、ガンバ×ノロイ(女体化)オンリーイベントとかもそのうち開催されちゃう。

いやもう。高度なAI積んでなきゃありえないと思った。こんな例もあるけど。

20150617-01-002-30000000

あれなんかな…。政治的なネタをマジで茶化すのはタブーとかで、ボケ路線でトピック化するアルゴリズムなのかな。

前もメモったけど、正直、この新着トピック欄は、

技術の限界を見極め、自動化と人力を妥当なラインで融合させサービス化させる

ことがきちんとできていないと思う。

いや、はてなみたいな技術系ベンチャーはこういう挑戦をどんどんしていくべきで、
ぼくらはあたたかい視線で見守らなきゃダメなンだ!

って言う人もいるかもしれないけど…。個人が趣味で作ってるならいいけど、上場目指してるとかいう会社の成果物ならもう少し見栄を張るべきなんじゃないのかな。あと、10期過ぎてる会社をベンチャーと呼ぶのは個人的に抵抗ある…。新創業支援とかの対象になるような3期くらいまでの企業で、黒転してない法人なら見守るけども。

ぼくレベルで推測できる範囲で、トピック欄は以下のように生成されていると思う:

wpg_div_wp_graphviz_2

ここでトピック欄の場合、

  • 類似記事選出
  • 本文サマライズ

の精度がかなり低いのだ。特に後者。

特徴語を抽出してベクトル空間にマッピングし、そこから類似記事のクラスタを見つけるのはそう難易度は高くない。というか、門外漢でも自然言語処理を見よう見まねでやる最初の事例だから、ここでつまづいてるとなにもおもしろいことができない。もちろん精度が完璧とは言えないが。時間的・空間的に狭い領域にしぼって分析すればそれらしくはなる。…でも、はてなのココの欄の場合、ぽろぽろ間違ってるんだよね。ここはチューニング不足と「運」としか言いようがない。あまり責められない。

後者のほう。これはなぜ精度が低いかというと理由はかんたん。「むずかしい」からだ。いろいろ方法はあるけどかなりたいへんです。どれくらいたいへんかというと論文読んでください。

その中で、比較的確実なのは「対象となる文章からテーマになっていそうなそれっぽい一文を抜き出す」手法だ。

「えっ、わたしの自然言語処理、そんなに低レベル…」

と思うかもしれないが「これでも高レベル」なのだ。けっこうな確率で当たるし(宝くじか?)、そもそも非文を生成する可能性が低い。

はてなの場合、それとはちがうアルゴリズムにチャレンジしようとしてうまくいっていないのだ。具体的には、生成されたタイトルとサマライズもとの記事のタイトルを見比べてみるとわかる。

…見ればだいたい想像つくけど、もっとも重要と思われる記事のタイトルをさらにサマライズすることで独自のまとめ文を生成しようとしている。この場合、重要そうだと判断された、

  • 主部:GAMBA ガンバと仲間たち』3DCGアニメ映像
  • 述部:脱ぐ

を抽出し、非文(…でもないね。意味は通じるから)を生成してしまったということになる。

ただねえ、このあたりだけなら、

痛みに耐えてよく開発した! 感動した!

で済むかもしれないけど、「記事本文の抽出」のあたりでもうすでにチューニング不足なんじゃないかなと思うんだ。

というのは、

  • GAMBAガンバと仲間たち』3DCGアニメ
    →かぎかっこなどの記号がうまく処理されていない(語の構成要素になっている)
  • 2番目のキャプチャ例の「3000000…」
    →サイト内に埋め込まれていた display: none; なテキストを拾ってしまっているか、最悪、抽出モジュールが例外を起こしたときに変な定数を返してしまっている

ように見えるから。だから、わりと基礎の部分がきちんとできてない気がするんだよ。

まあ、技術的に実際どうなのかというのは開発している人たちにしかわからないし、他人が苦労しているのを指さして「へっへー、あいつらばかでやんのー」とか言う趣味は持ち合わせていないので、ここらへんの推測はあんまり意味ないです。半分以上「ぼくだったらこうつくるなあ」という妄想入ってるし。

問題は、前も書いたんだけれど、

運用してたらこれくらい精度が低いのはすぐわかるのに、
なぜ誰も止めたり路線変更したりしないの?

ということ。

  • 精度が低いので、ある程度は手編集も入れるワークフロー下で新コンテンツとする
  • 関連記事の集積自体は実用レベルなので、タイトルの自動生成はあきらめて「重心に位置する記事のタイトルを採用する」路線にする

など対案はいくらでもある。この枠が公開されて数か月は経っているはずだが、誰も仲間と話し合ったり、上の人間に上申したりしないのだろうか。

ほぼ同時期に提供のはじまった「おすすめブックマーク」枠は広告販売用なわけだけれど、その下にこのクオリティのプロダクトがならんでいるというのはどうなんだ…。

会社だと、

えらいひと「あー、これこれこんな枠があったらええと思うんやけど。どないやねん? ちゃっちゃっとできるやろ? あ?(有無を言わさぬ目付き)」
えらくないひと「アッ、ハイ…(いろいろできないけど適当にごまかしとこ…)」

とか、

同僚1「あー、またおかしな文章になっちゃってるなー」
同僚2「あら、ほんとだ。はぁ…もう25時だからなあ、今は明日出す週報書かないと」
同僚1「そやね。後回しやね」

とか、

同僚1「む。またサマライズのアルゴリズムがうまく動いていないな」
同僚2「それ、やっぱり学習器のパラメータが z じゃないからだよ」
同僚1「いや。そのりくつはおかしい」
  :以下8時間ほど議論

とかいった感じのことってよくあるよね…。なんか、そういう感じなのかなー、などと要らぬ想像をめぐらせてしまうのだった。

ぼくは、

「もうさ、めんどくさいし疲れるじゃん? みんなラクなように(前出のような)工数のかからない改修かけようよ。そんでさっさと定時に帰って寝よう!」

みたいに空気読まずに提案しあうのが、いちばんいいんじゃないかと思うけどなー。

まあ、いずれにしてもはてブのページを開いた瞬間にコーヒー吹き出すのは、もうカンベンしていただきたいので。適当にがんばってください。