2015年9月3日 掲載
真鍋知博君が,データベース技術の分野で最も権威のある国際会議の一つであり,今年で41回目となるInternational Conference on Very Large Data Bases (VLDB 2015)で研究発表をしました.研究発表のタイトルは “Extracting Logical Hierarchical Structure of HTML Documents Based on Headings” で,Webページ内の文書の論理的階層構造を自動的に抽出する技術に関するものです.そう聞くと,<h1>, <h2>, … などのタグを抽出すればよいだけなのではないかと思われるかもしれませんが,現在のWebでは,それでは非常に低い再現率でしか論理階層構造を抽出できず,さらには,精度も決して十分ではありません.本研究では,人間の読者はページの視覚的情報を用いて階層構造を理解しているという仮定のもと,視覚的情報を用いて文書の論理的階想像を抽出する手法を提案しています.
今回のVLDBは,多数のトップレベルの研究発表もさることながら,2014年度のチューリング賞を受賞したMichael Stonebraker教授の受賞記念講演が目玉になっていました.講演の様子は下記のYouTubeで見ることができます.
今回の会場は火山で有名なハワイ島のHilton Hotelでした.このホテル,敷地内にビーチやいくつものプールがありイルカまでいる巨大なホテルです.あまりに大きいので,ホテル内を移動するための路面電車が走っていました.
海や火山の自然も素晴らしいところだったのですが,Michal Stonebraker教授は飛行機が嫌いでUC BarkleyからMITに移籍する際にも自転車でアメリカを横断して引っ越したそうで,ハワイについても「世界中のどこからも遠い場所」と愚痴を言っていました.