2024年5月17日 掲載
長島弘昂君が研究成果をWebに関する国際会議 The Web Conference で発表しました.
今回の発表の内容は「情報の価値の期限」を表すような記述の識別に関するものです.例えば,
などの記述を含むテキストは,そこに記述されている時間を過ぎると情報の価値が大きく減少すると考えられます.そのため,これらのような「情報の価値の期限」を表す記述を検出できれば
といった応用が可能です.
しかし,似たような時間表現でも
という記述は,その時間を過ぎてから情報を見ても遅すぎるという期限を表しているとはいえません.よって,時間表現を含む記述を,情報の価値の期限を表すものとそうでないものに自動分類する技術が必要です.
そのような識別は近年の機械学習を用いた自然言語処理技術で可能と思われますが,そのためには,「期限を表す表現」「期限を表さない表現」というラベルが付けられたデータセットが必要です.そこで,そのようなデータセットをX(旧Twitter)上のデータから自動的に生成しようというのが今回の研究です.
X上には時間表現を含む投稿が大量にあり,それらの中には期限を表すものも期限を表さないものもあります.また,X上では各投稿がリポスト(リツイート)や「いいね」をされた回数を調べることができます.そこで,時間表現を含み,かつ,リポストや「いいね」をある程度以上の回数されている投稿のリポスト数や「いいね」数の変化を監視すると,以下のようなグラフが得られます.三つのグラフそれぞれが,ある一つの投稿のリポスト数(青線)と「いいね」数(赤線)の時間変化を表しています.
これらのグラフを見ると,
となっています.そして,実はこれら三つの投稿の内容を人手で確認すると
ということがわかります.そこで,X上から時間表現を含み,かつ,リポスト数が一定数以上ある投稿を大量に発見し,それらのリポスト数を監視して,
とすれば,自動的に「期限を表す時刻表現」と「期限を表さない時刻表現」のデータセットを生成することができるというのが今回の発表の主な内容です.
なお,上のグラフには「いいね」の数も赤線で示していますが,中央のグラフにおいて,「いいね」数はリポスト数ほど明確な伸びの止まる点が見られません.これは,リポストは情報の価値の期限を過ぎるとほとんど行われなくなるのに対し,「いいね」はそうとも限らないということを表していると思われます.そのため,今回の研究では「いいね」の回数は用いず,リポスト数のみを用いています.
今年の The Web Conference の開催地はシンガポールのセントーサ島にあるリゾート・ワールド・セントーサ会議場です.
下の写真は,シンガポール空港到着直前の機内から撮ったもので,マラッカ海峡(正確にはこのあたりはシンガポール海峡?)は,4月授業第一週の3限と4限の間の京大正門のように混み合っています.
セントーサ島はビーチや Universal Studio Singapore などがある観光地で,シンガポール本土からモノレール,徒歩,ロープウェーなどで行くことができます.下の写真はシンガポール本土側から撮ったもので,真ん中のかまぼこのような建物の奥の建物が会議場です.右にロープウエーも写っています.
たいした距離ではないので徒歩で橋を渡ってみました.左に写っているのがモノレール.
モノレールのセントーサ島側の到着駅.島の入り口がテーマパークの入り口のようです.
こちらは昼食休憩中のメイン会場.
会議二日目の基調講演は,HITSアルゴリズムを作ったコーネル大学の Kleinberg 教授による講演でした.
また,この会議では毎年,10年以上前のこの会議で発表された論文の中から,その後,大きな影響を与えた論文を一本選び表彰していますが,今年は22年前の2002年のこの会議で発表された Topic-Sensitive PageRank が選ばれていました(press release).
さて,今回の発表は short paper として採択された論文のためのポスター発表です.
入れ代わり立ち代わり聞きにくる人達に説明をします.
ポスター会場全体はこんな様子.
会議最終日の終了後,シンガポール名物のチリクラブを食べに行きました.
シンガポールには,その他にも,Universal Studio Singapore,マリーナベイの光と水のショー,カジノ,夜の「ナイトサファリ」がある動物園など,夜に行く場所がたくさんある街でした.