Site Navi

Tomohiro Manabe, Keishi Tajima,

Extracting Logical Hierarchical Structure of HTML Documents Based on Headings

Proc. of VLDBVol.8, No.12,
pp.1606-1617, August 2015

research announcement
真鍋知博君がVLDB 2015で発表

2015年9月3日
真鍋知博君がVLDB 2015で発表

真鍋知博君が,データベース技術の分野で最も権威のある国際会議の一つであり,今年で41回目となるInternational Conference on Very Large Data Bases (VLDB 2015)で研究発表をしました.研究発表のタイトルは “Extracting Logical Hierarchical Structure of HTML Documents Based on Headings” で,Webページ内の文書の論理的階層構造を自動的に抽出する技術に関するものです.そう聞くと,<h1>, <h2>, … などのタグを抽出すればよいだけなのではないかと思われるかもしれませんが,現在のWebでは,それでは非常に低い再現率でしか論理階層構造を抽出できず,さらには,精度も決して十分ではありません.本研究では,人間の読者はページの視覚的情報を用いて階層構造を理解しているという仮定のもと,視覚的情報を用いて文書の論理的階想像を抽出する手法を提案しています. 今回のVLDBは,多数のトップレベルの研究発表もさることながら,2014年度のチューリング賞を受賞したMichael Stonebraker教授の受賞記念講演が目玉になっていました.講演の様子は下記のYouTubeで見ることができます. 今回の会場は火山で有名なハワイ島のHilton Hotelでした.このホテル,敷地内にビーチやいくつものプールがありイルカまでいる巨大なホテルです.あまりに大きいので,ホテル内を移動するための路面電車が走っていました. 海や火山の自然も素晴らしいところだったのですが,Michal Stonebraker教授は飛行機が嫌いでUC BarkleyからMITに移籍する際にも自転車でアメリカを横断して引っ越したそうで,ハワイについても「世界中のどこからも遠い場所」と愚痴を言っていました.

Hikaru Takemura, Keishi Tajima,

Tweet Classification Based on Their Lifetime Duration

Proc. of 21st ACM International Conference on Information and Knowledge Management,
pp. 2367-2370, ACM Press, October 2012 (ACM DL)

research announcement
竹村光君が ACM CIKM 2012 で発表

2012年10月31日
竹村光君が ACM CIKM 2012 で発表

竹村光君が情報抽出などの分野における重要国際会議の一つであるACM Conference on Information and Knowledge Management (CIKM 2012) で研究発表をしました.論文のタイトルは “Tweet Classification Based on Their Lifetime Duration” というもので,定期的にTwitterのタイムラインをチェックするユーザに対して,タイムライン中のツイートを緊急度に応じて「今回読むべき」「次回読むのでも良い」「もう読まなくて良い」という三つのタブに分類して表示する技術に関するものです.実際のシステムの表示のイメージは下記のようなものになります. 今回の会場はハワイのマウイ島の Sheraton Hotel でした.このホテル,会議の会場となっている建物の目の前がビーチなので,会議の昼休みの間にすかさず水着になってシュノーケリングに行き海亀と出会うなんてことが余裕で出来てしまいます. こちらはマウイの海亀. こちらは,会議後の会場前からの夕日.竹村君,発表ご苦労様でした.