Site Navi

2024年5月17日 掲載

長島弘昂君が研究成果をWebに関する国際会議 The Web Conference で発表

長島弘昂君が研究成果をWebに関する国際会議 The Web Conference で発表しました.

今回の発表の内容は「情報の価値の期限」を表すような記述の識別に関するものです.例えば,

  • 「ご応募は明日の17:00までに」
  • 「今晩7時にライブ配信します!」

などの記述を含むテキストは,そこに記述されている時間を過ぎると情報の価値が大きく減少すると考えられます.そのため,これらのような「情報の価値の期限」を表す記述を検出できれば

  • その時間が迫っている情報についてアラートを出す
  • 反対に,期限を過ぎて情報の価値がなくなったものをフィルタリングする

といった応用が可能です.

しかし,似たような時間表現でも

  • 「明日の10:00より応募受付を開始いたします」

という記述は,その時間を過ぎてから情報を見ても遅すぎるという期限を表しているとはいえません.よって,時間表現を含む記述を,情報の価値の期限を表すものとそうでないものに自動分類する技術が必要です.

そのような識別は近年の機械学習を用いた自然言語処理技術で可能と思われますが,そのためには,「期限を表す表現」「期限を表さない表現」というラベルが付けられたデータセットが必要です.そこで,そのようなデータセットをX(旧Twitter)上のデータから自動的に生成しようというのが今回の研究です

X上には時間表現を含む投稿が大量にあり,それらの中には期限を表すものも期限を表さないものもあります.また,X上では各投稿がリポスト(リツイート)や「いいね」をされた回数を調べることができます.そこで,時間表現を含み,かつ,リポストや「いいね」をある程度以上の回数されている投稿のリポスト数や「いいね」数の変化を監視すると,以下のようなグラフが得られます.三つのグラフそれぞれが,ある一つの投稿のリポスト数(青線)と「いいね」数(赤線)の時間変化を表しています.



これらのグラフを見ると,

  • 左のグラフでは,リポスト数が一定の割合で伸び続けている
  • 中央のグラフではある時点で急にリポスト数が伸びなくなっている
  • 右のグラフでは徐々にリポスト数の伸びが鈍っているものの,中央のグラフのような明確な変化点はない

となっています.そして,実はこれら三つの投稿の内容を人手で確認すると

  • 中央のグラフに対応する投稿には,情報の価値の期限に当たる時刻表現があり,その時刻はリポスト数の伸びが止まる時刻とほぼ一致している
  • 一方,左や右のグラフに対応する投稿に現れる時間表現は情報の価値の期限に当たるものではない

ということがわかります.そこで,X上から時間表現を含み,かつ,リポスト数が一定数以上ある投稿を大量に発見し,それらのリポスト数を監視して,

  • リポスト数の伸びが止まる点が明確に存在し,その時刻が投稿内の時間表現とほぼ一致する場合は「期限を表す時刻表現」とラベルを付ける
  • そうでない場合は,「期限を表さない時刻表現」とラベルを付ける

とすれば,自動的に「期限を表す時刻表現」と「期限を表さない時刻表現」のデータセットを生成することができるというのが今回の発表の主な内容です.

なお,上のグラフには「いいね」の数も赤線で示していますが,中央のグラフにおいて,「いいね」数はリポスト数ほど明確な伸びの止まる点が見られません.これは,リポストは情報の価値の期限を過ぎるとほとんど行われなくなるのに対し,「いいね」はそうとも限らないということを表していると思われます.そのため,今回の研究では「いいね」の回数は用いず,リポスト数のみを用いています.

今年の The Web Conference の開催地はシンガポールのセントーサ島にあるリゾート・ワールド・セントーサ会議場です.
下の写真は,シンガポール空港到着直前の機内から撮ったもので,マラッカ海峡(正確にはこのあたりはシンガポール海峡?)は,4月授業第一週の3限と4限の間の京大正門のように混み合っています.

セントーサ島はビーチや Universal Studio Singapore などがある観光地で,シンガポール本土からモノレール,徒歩,ロープウェーなどで行くことができます.下の写真はシンガポール本土側から撮ったもので,真ん中のかまぼこのような建物の奥の建物が会議場です.右にロープウエーも写っています.

たいした距離ではないので徒歩で橋を渡ってみました.左に写っているのがモノレール.

モノレールのセントーサ島側の到着駅.島の入り口がテーマパークの入り口のようです.

こちらは昼食休憩中のメイン会場.

会議二日目の基調講演は,HITSアルゴリズムを作ったコーネル大学の Kleinberg 教授による講演でした.

また,この会議では毎年,10年以上前のこの会議で発表された論文の中から,その後,大きな影響を与えた論文を一本選び表彰していますが,今年は22年前の2002年のこの会議で発表された Topic-Sensitive PageRank が選ばれていました(press release).
さて,今回の発表は short paper として採択された論文のためのポスター発表です.

入れ代わり立ち代わり聞きにくる人達に説明をします.
    

    
ポスター会場全体はこんな様子.

会議最終日の終了後,シンガポール名物のチリクラブを食べに行きました.

シンガポールには,その他にも,Universal Studio Singapore,マリーナベイの光と水のショー,カジノ,夜の「ナイトサファリ」がある動物園など,夜に行く場所がたくさんある街でした.


チャイナタウンに宿泊したのですが,色々なものを売っていました.


こちらは,チャイナタウンにいた野良(?)ニワトリ.