全3439文字
PR

 「fastTextは優秀だが、何を判定するかは自分で定義する必要がある点が難しい」と今CTOは話す。具体的には、「この記事はテクノロジーというジャンル」など、利用者が1ジャンルごとに数百の教師データを作成し、機械学習に学ばせる必要があった。

 教師データとする記事だけで合計数千本以上を人間が読み込んでラベルを付ける必要がある。通常業務にプラスするので、これだけでも一苦労。教師データを読み込ませた後、fastTextが分類を誤ったデータをまた教師データにして再度学ばせる作業を繰り返していった。

 特に苦労したのが「小説なのにビジネス分野がテーマになっているため、ビジネスに分類される」といった2つのカテゴリーにまたがる内容の記事の取り扱いだった。こうした場合、小説に分類されるように教師データを細かくそろえるといったチューニングに手間がかかったという。

 2017年を通して検証を続け、外部に公開したのは2018年1月ごろだった。「まだまだ精度に改善の余地がある」と今CTOは語るが、サイトのアクセス数が伸びているのは、AIによるジャンル分けによって生み出した時間を改善作業に充てられているからだ。

 AIによる自動分類は別の効果も生み始めいている。例えばnoteのトップページに掲載する「編集部のおすすめ」の更新を1日1回から2回に増やせた。自動分類で編集者がジャンルごとにまんべんなくチェックができる時間が生まれたからだ。

「スパム記事」もAIであぶり出し

 AI分類は「スパム」記事の排除にもつながっているという。スパムも記事のカテゴリーの1つと考えて、教師データを作って分類しているからだ。

 犯罪につながるような違法な内容はもちろん、一見記事を読んだだけではスパムと分かりにくいものまで機械学習で見つけられるケースがあるという。サイト側でも人がスパムを監視しているが、見つけやすくなり、手間が減った。

 ピースオブケイクは今後、9つのカテゴリーを細分化する計画だ。その際に機械学習の仕組みを使えば、より読みたい記事に読者がたどりつきやすくなるのではと考えている。例えば「サッカー」というカテゴリーの記事を3回連続で読んだ人はサッカー好きであると仮説を立てて、サッカー関連の記事をリコメンドするといったものだ。

 機械学習ツールの導入は省力化につながっただけでなく、サイト自体の機能や価値の向上にも貢献している。

 ピースオブケイクには日本経済新聞社も出資している。