B4 の堤です。
卒業研究では「タグ分析によるSNSからのスポット抽出とスポットのペア推薦システムの提案」と題しまして,ハッシュタグを用いてInstagramの投稿データの分析して,スポットの抽出とスポットの推薦をペアで行う手法を提案しました.
B4の堤です.私は22年に卒業をしたのちに,就職し社会人になります.スポーツなどの体を動かすことが好きで,大学では公式テニス部に所属しています.趣味は旅行で,コロナ禍出なければ月に1回ぐらいは旅行に行きたいと思っていますが,毎回どこに行けばいいのかわからず,悩んでしまいます.
そこで私は観光支援と題して,観光客の意思決定をサポートする研究をしました.
研究テーマを決めるにあたり,以下の2つの点を意識しました.
Instagramのデータを用いること
新規性のある推薦システムを作ること
Instagramのデータを用いることに拘った理由としては,まず私がInstagramを参考に観光計画を立てていて,大変参考になる有用なデータだと感じたから.そして,先行研究でInstagramのデータを用いて観光支援を行っているものがなかったからです.
新規制のある推薦システムを作ることに関しては,研究を行なっているので,新規性は必須であるということと,私自身既存のシステムに満足できていなかったため,こだわりました.その結果観光スポットをペアで推薦するという手法を思いつきました.先行研究を見てもこの推薦手法は今までになく,私自身とても使いやすいと思いました.
提案システムをスポット抽出とスポット推薦の2つから成ります.
スポットの抽出は投稿に付けられているハッシュタグから行いました.Instagramの特徴としてハッシュタグによるタグ付けが頻繁に行われていることに着目しました.スポットを抽出する処理は「不要ハッシュタグの除去」「TF-IDFを用いた特徴語の抽出」「類似度判定」の3つから構成されます.
不要ハッシュタグの除去ではMeCabと英語辞書を用いて,スポットではない一般単語のハッシュタグを除去しました.また,対象エリアの都道府県,市区町村を求め,それらを表すハッシュタグも除外します.
TF-IDFを用いた特徴語の抽出では投稿内の特徴的な単語を抽出することで,スポットになり得るハッシュタグを抽出します.事前にTF-IDFによって分析する対象.タイミング,特徴語とする閾値を変えたすべての条件に対してF値が高い条件を採択します.その結果,本研究では投稿本文から抽出した固有名詞と未知語のうち,不要ハッシュタグを削除したものに対してTF-IDFの分析を行い,閾値0.31以上のものを特徴語としました.
類似度判定は,以上の2つの処理で残ったハッシュタグに対して行いました.ハッシュタグをクエリとしてGoogle Maps Platformにリクエストを行います.返ってきたスポット名とクエリとしたハッシュタグの文字列の類似度をゲシュタルトパターンマッチングのアルゴリズムを用いて求めます.F値の最も高かった時に閾値を,同一とする類似度の閾値に設定します.本研究では閾値を0.34としました.
スポット推薦は以下の手順で行います.
抽出したスポットを用いて,投稿からスポットを表すハッシュタグを抽出する
1で抽出したハッシュタグが示すスポットで全通りのペアスポットを作成する
全投稿に1,2を行い,ペアスポットを集計する
集計したペアスポットに対して,各ペアスポットごとの重複数を求め,重複数が多い順に並べる
入力がエリアであれば,5の推薦結果のうち,入力されたスポットを含むペアスポットのみ推薦する
入力がスポットであれば,5の推薦結果のうち,入力されたスポットを含むペアスポットのみ推薦する
以下の図はスポット推薦の概念図です.
スポット抽出とスポット推薦のそれぞれに対して,評価実験を行いました.評価項目はそれぞれ次のようになります.
スポットの抽出率
新たなスポットを抽出できたか
推薦するに値するスポットを抽出できたか
推薦されるペアスポットに一緒に訪れたいか
既存手法と比較して良いペアスポットを推薦できたか
正しくスポット抽出を行えていた場合のスポット推薦の有効性
評価実験の結果,有効性が認められるものと認められないもの,それぞれ以下のようになりました.