« ■塩田明彦監督「ギプス」! | トップページ | ■福井県に2億円の当選宝くじ! »

2004.07.25

■非構造化Web情報の分析!

 IBMリサーチの研究施設では、WebFountainプロジェクトが進められている。インターネット上の膨大なデータを収集してデータマイニングの材料にする。構造化されたデータだけでなく、Blogや掲示板など、非構造化データも扱えるのが特徴。非構造化データの中にこそ、本当に興味のあるデータが眠っているというのがWebFountainの考え方だ。
 サイトをインデックス化し、ページ内のすべての単語にXMLでタグを付加し、単語固有の構造を明らかにし、相互の関連性を分析する、というのが流れとなる。ちなみに現在のタグの数は30億以上だ。unicodeを用いることで、英語圏以外のWebページについてもマイニングが行えるように作業を進めている。17時間をかけてインターネット上のWebページをクローリングし、データを蓄積する。Xeon3GHzを2個搭載したブレードサーバ「HS20」が256台クラスタ構成で設置されている。7月はブレードサーバの数を540台にまで、ストレージを640Tバイトまで拡張する。

|

« ■塩田明彦監督「ギプス」! | トップページ | ■福井県に2億円の当選宝くじ! »

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/1152/1042300

この記事へのトラックバック一覧です: ■非構造化Web情報の分析!:

« ■塩田明彦監督「ギプス」! | トップページ | ■福井県に2億円の当選宝くじ! »