Wednesday, December 08, 2004

UMass Amherst、手書き文書を検索できる技術を開発

http://www.sem-research.jp/sem/search_n_20041/20041206012102.html
http://www.umass.edu/umhome/news/articles/7683.phphttp://ciir.cs.umass.edu/~trath/prj/hw_retr/demo_intro.html

マサチューセッツ州立大学アムハースト校( http://www.umass.edu/ )が、手書き文書の検索が可能な情報検索技術を開発した。米国議会図書館に保存されている米初代大統領ジョージ・ワシントンの14万ページに及ぶ私文書の検索などに役立つという。これまで手書きの歴史的文書を検索するためには誰かが書き写してそこからインデックスを作成する必要があったがコストの関係から実質的に不可能だった。


原理的にはOCR+検索 で可能なような気もしますが、元にした文書(GeorgeWashingtonの私文書)は印刷物ではありませんし、しかもかなり乱れた手書き文字なので結構難しそうです。

イメージボキャブラリと、アノテーションボキャブラリを併用するデュアルレプリゼンテーションコンセプトを利用し…という辺りが、情報論研究としては面白いのでしょうが、まあ、正解率としてはあと一歩というところです。

単語によって当たり外れが大きく、「Governor」で調べるとなかなか正解、「President」で調べるとほとんど不正解でした。(検索デモは一番下のURLでできます。2番目の検索方法がいいです。)

技術はともかくとして、人手を使って力技で一度テキストに落とした方が、後々いいような気がするのですが。

No comments: