Googleが「検索の仕組み」に関するWEBページを公開

Googleが「検索の仕組み」に関するWEBページを公開

Googleが「検索の仕組み」に関するWEBページを公開

Googleが検索の仕組みに関するページを公開しました。検索の仕組みが各項目ごとに丁寧に解説されています。

詳しくは公式サイトを見ていただくとして、ここでは忙しい方のためにポイントを押さえてまとめてみました。

クロールとインデックス

Googleのマット・カッツ氏の動画付きで、WEBサイトが検索エンジンにインデックスされる仕組みについて解説されています。

動画には日本語の字幕もついていて、クローラがリンクを辿ってサイトの情報を収集していく様子をわかりやすく説明してくれます。


※公式サイトで見ないと日本語字幕が出ません。。。

この章は動画がすべてかな、と個人的には思いました。

アルゴリズム

この章では、検索エンジンのアルゴリズムについて事細かに説明されています。

ここでも日本語字幕付きの動画がついています。クロールのスピードが遅くて、9.11のときに最新の情報が検索結果で出せなかった話など、とても興味深いものでした。Googleの進化の過程が説明されていて面白かったです。


※公式サイトで見ないと日本語字幕が出ません。。。

Googleには、素早く・適切な情報を検索結果で提供するためのプロジェクトが多数あり、より良質な検索エンジンになっていくことが窺えます。

スピード アンサー

天気、スポーツのスコア、調べ物など、知りたい情報をすばやく表示する。

オートコンプリート

ユーザーが検索する可能性のあるものを予測する。これには、複数の意味を持つ言葉を理解することも含まれます。

書籍

世界中の図書館や出版社の何百万もの書籍(プレビューや本文など)から結果を検索する。

コンテンツの新しさ

最新のニュースや情報を表示する。これには、ユーザーが特定の日付を検索したときに、その日付に関連する検索結果を収集することも含まれます。

Google インスタント検索

入力と同時に検索結果を表示する。

画像

検索結果と一緒にサムネイルを表示して、アクセスするページをイメージで判断できるようする。

インデックスへの登録

システムを使用して、ウェブ上のドキュメントを収集して保存する。

ナレッジ グラフ

現実世界の人物、場所、物、それらの関係性をデータベース化し、それに基づいて検索結果を表示する。

Google モバイル

タブレットやスマートフォンのようなモバイルデバイス専用に設計された機能に対応する。

ニュース

世界中のオンライン新聞やブログからの検索結果を含める。

クエリの解析

入力された語句の深い意味を理解する。

絞り込み

「検索オプション」、他のキーワードなど、検索ツールを使って検索を微調整できる機能を提供する。

セーフサーチ

検索結果に表示される成人向けのウェブページ、画像、動画の数を制限する。

検索方法

「画像検索」や「音声検索」のような新しい検索方法を開発する。

サイトとページの品質

情報源がどのくらい信用できるか、評判が良いか、権威があるかなどを、何らかのシグナルで判断できるようにする(このようなシグナルの 1 つが PageRank です。PageRank は Google の当初からのアルゴリズムの 1 つで、ページ間のリンクを見てその関連性を識別するものです)。

スニペット

検索結果ごとに、簡単なプレビュー情報(ページのタイトルや説明文など)を表示する。

スペル

スペルミスを特定し、修正したり別の候補を表示したりする。

同義語

同じような意味を持つ単語を認識する。

翻訳と多言語対応

言語や国に基づいて検索結果をカスタマイズする。

ユニバーサル検索

画像、ニュース、地図、動画、個人のコンテンツなど、関連性の高いコンテンツを 1 つの検索結果ページに統合する。

ユーザーのコンテキスト

地域やウェブ履歴などの要素に基づいて、より関連性の高い検索結果を提供する。

動画

動画の検索結果と一緒にサムネイルを表示して、見る動画をすばやく決められるようにする。

スパム対策

この章ではスパム対策に関する情報が掲載されています。

スパムの種類や手動によるスパム対策の推移がグラフで紹介されています。ピーク時が2011年6月で、553,994件ものスパムが手動で対応されています。手動での対応も相当数されていることがグラフからわかります。

spam_google

また、スパムの種類にも色んなものがあります。

クローキングまたは不正なリダイレクト

サイトはクローキングされている(検索エンジンに表示されるコンテンツとは別のコンテンツがユーザーに表示される)か、Google が確認したページとは別のページにユーザーをリダイレクトしているようです。

ハッキングされたサイト

このサイトの一部のページが第三者によってハッキングされ、スパム行為のあるコンテンツやリンクが表示されている可能性があります。ウェブサイトの所有者は、サイトのクリーンアップを行い、セキュリティ上の脆弱性を解決するための措置を直ちに取る必要があります。

隠しテキストまたはキーワードの乱用

一部のページに隠しテキストが含まれているか、ページ内でキーワードが乱用されている可能性があります。

パーク ドメイン

パーク ドメインは固有のコンテンツがほとんど含まれていないプレースホルダ サイトなので、通常 Google の検索結果には含まれません。

純粋なスパム

サイトは、意味不明なコンテンツの自動生成、クローキング、他のウェブサイトからのコンテンツのスクレイピングなどの手法を使用しているか、Google のウェブマスター向けガイドラインに繰り返しまたは著しく違反しているようです。

スパム コンテンツを含むホスティング サービスと動的 DNS プロバイダ

サイトは、大量のスパム コンテンツを含むホスティング サービスまたは動的 DNS プロバイダによってホストされています。

付加価値がほとんどまたはまったくない、実質のないコンテンツ

サイトは、ユーザーに付加価値をほとんど提供しない質の低いまたは中身の乏しいページ(実質のないアフィリエイト ページ、誘導ページ、個性のない大量生産サイト、自動生成コンテンツ、コピーされたコンテンツなど)で構成されているようです。

サイトからの不自然なリンク

サイト内から人為的または不自然で疑わしい リンク群が検出されました。原因としては、PageRank に影響を及ぼすリンクの販売やリンク プログラムへの参加などが考えられます。

サイトへの不自然なリンク

サイトへの人為的または不自然で疑わしいリンクが検出されました。原因としては、PageRank に影響を及ぼすリンクの購入やリンク プログラムへの参加などが考えられます。

ユーザー生成スパム

サイトには、ユーザーによって生成されたスパム行為のあるコンテンツが含まれているようです。問題のコンテンツは、フォーラム ページ、ゲストブック ページ、またはユーザー プロフィールに表示されている可能性があります。

ポリシー

この章ではGoogleがどんなことに重きを置いているかなど、ポリシーについての詳細が書かれています。

情報へのアクセスを最優先

Google では、表現の自由および情報の自由な流れを尊重しています。スパム、不正なソフトウェア、法的要求、ID の窃取のような限定されたケースを除き、ユーザーが情報を利用できるように取り組んでいます。

手動による対策よりもアルゴリズムを優先する

ユーザーにとって役立つ検索結果を表示するためには、どのようなキーワードにも応えられる関連性の高さと包括性が重要です。そのため、Google では、手動での情報整理よりも、アルゴリズムを用いることを優先しています。なぜなら、アルゴリズムを用いれば、一つ改善を加えるだけで、1 ページだけでなく、数千ページ、数百万ページもの検索結果を改善することができるからです。一方、アルゴリズムから得られる結果が十分ではないと判断される場合は、手動で個別の対策を行う場合があります。

例外リスト

一般的な検索エンジンと同様、Google のアルゴリズムもサイトを誤って識別する可能性があるため、検索の品質向上のために特定の例外を設けています。たとえば、セーフサーチ アルゴリズムは、オンラインのアダルト コンテンツから子供を保護することを目的に設計されています。このようなアルゴリズムのいずれかが、あるウェブサイト(たとえば、essex.edu)を誤って識別した場合は、そのサイトがポルノ サイトとして分類されないように手動で例外を設けることがあります。

スパムおよび不正なソフトウェア対策

みなさんがスパムは迷惑だと思うように、Google もこれらを歓迎しません。たとえば、スパムは無関係なリンクを散りばめて検索結果を汚し、ユーザーを困らせます。Google には、スパム行為をしているウェブサイトを検出し、検索結果からサイトを削除することに取り組んでいるチームがあります。フィッシング サイトや不正なソフトウェアについても同様です。

ウェブマスターに対する情報開示

ウェブマスター向けガイドラインではベストプラクティスやガイドライン違反にあたるスパムのような行為を明確に定義しています。スパムとみなされるサイトに対して、スパム対策チームが手動で対策を講じ、それがサイトのランキングに影響する場合、Google はその情報を開示し、かつ、ウェブマスターにできるかぎり通知を行なっています。このような対策を講じられた場合には、サイトの管理者は問題を修正し、再審査リクエストを申請することができます。

ID の窃盗防止

Google は、ID の窃盗や金融詐欺など、ユーザーに被害が及ぶ可能性があると判断した場合は、リクエストに応じて、検索結果からこれらの情報を削除することがあります。これには、米国のソーシャル・セキュリティ番号など行政機関発行の機密性の高い ID 番号、銀行の口座番号、クレジット カード番号、署名の画像などが含まれます。ただし、通常、行政機関のウェブサイトから ID 番号を削除することはありません。このような情報は、公開情報と見なすためです。なお、これらのポリシーを乱用して検索結果からその他の情報を削除しようとしていると判断した場合は、リクエストを拒否することがあります。

法的な理由による削除

検索結果から、法的な理由でコンテンツを削除する場合があります。たとえば、米国でデジタルミレニアム著作権法(DMCA)に則り有効な通知を受け取った場合、これらのコンテンツは削除対象となります。また、各地域の法律に照らして、その地域の Google から、問題があるコンテンツを通知に従って削除することがあります。たとえば、google.de(ドイツ) ではナチス党を不当に賞賛するコンテンツが、google.co.in(インド) では宗教を不法に侮辱するコンテンツが削除の対象となります。法的な理由で検索結果からコンテンツを削除した場合、コンテンツが検索結果から削除されたことを示す通知を表示し、これらの削除を chillingeffects.org に報告します。これはオンライン上の言論統制を監視する、Berkman Center for Internet and Society が運営するプロジェクトです。また、検索結果からの法的な理由による削除に関する詳細情報は透明性レポートで開示します。

児童ポルノ対策

Google では、児童ポルノに誘導する検索結果をブロックします。これは法律によって求められており、また正当な行動と考えています。

刺激の強いコンテンツ

Google では、探している情報を確実に提供することを目指していますが、嫌悪感を抱かせる不要なコンテンツが表示されないようにすることにも配慮しています。したがって、いくつかの狭義のカテゴリで不適切な結果を招く可能性があるクエリに対しては、特定の検索機能が起動しないことがあります。

セーフサーチ

Google は基本的にウェブ上で、どのような情報が探すに足るのか、という判断をユーザーにお任せしています。そこで、Google は、セーフサーチフィルタを提供し、ユーザーがアダルトコンテンツを表示したくない場合に、これらを非表示に設定できるようにしています。

あとがき

Google検索の仕組みは、WEBサイトを運営している人は理解しておいた方がいいので、一度読んでおくことをおすすめします。

全文を読むのが面倒という人は、動画だけでもとても興味深いので見ておくといいと思います。

この記事が気に入ったら
いいね!してね♪

Twitter で

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です