サイトトップ > 検索エンジンのクローラ
検索エンジンのクローラ
これらロボット型検索エンジンと呼ばれているシステムですが、クローラと呼ばれるロボット・スパイダーを使うことが特徴だと言えます。
これによって、ネット上に存在するあらゆる情報を効率良く集めることが出来ます。
検索エンジンでも規模が大きくなると、何十億ページにもなる大量のページから情報を得ることが出来るのです。
さて、収集されたページ情報は、解析され、インデックスも作成されます。
特に私達が使っている日本語は検索プログラムにとっては難しいものなのです。
なぜなら、日本語は普段使っている言葉と正式な言葉とは違いが出ることがあるからです。
特にブログに書かれている言葉などは口語的ですよね。
今風の言葉を使っていたり、ちょっと砕けた言い方をしていたりしますよね。
それらもきちんと検索にヒットするように、情報収集をしなければなりません。
自然言語処理機能とは、日常語を自動的に処理出来るシステムなのです。
データベースの情報を、自動的に自然言語に変換することや、自然言語になっている言葉をコンピューターが分析しやすい表現に変換することも出来ます。
このように、自然言語をコンピューターに理解させることを、自然言語理解と呼びます。
このように、普段の言葉使いで書かれているページの情報も、すべて収集できるようにするため「自然言語処理機能」と言うものが使われています。
ですから、この機能を使っているロボット型検索エンジンですと、かなりの情報量を集められますと言えます。
検索エンジンの種類