XMLサイトマップのおさらいとWorePress標準のXMLサイトマップ出力機能

何かがリストアップされた書類
©いらすとや.

サイトマップのおさらい

ウェブのサイトマップというのは人間向けと検索エンジン向けに提供する2種類があります。 人間向けというのは例えばカテゴリ別に「このような分類の仕方で分けてページをこのように階層化しています」というような階層をどのように辿れば目的のページを見つけられるかという案内図のようなものです。デパートやスーパーでそれぞれの階で何を扱っているかの案内板とか売り場の地図だとかと似たものとなります。このページては人間向けのサイトマップは扱いません。

検索エンジン向けのサイトマップは、「マップ」という単語を含むものの実際はマップというよりリストです。「私のサイトにある(全ての)ページの一覧を用意しました。検索エンジンさん、サイトマップを見て私のサイトのページをクロールして検索インデックスに登録して下さい」というものです。検索エンジン向けなので人間が認識できなくても構いません。検索エンジンが理解できるフォーマットで書きましょう。

Googleの サイトマップの作成と送信 の解説。

とはいえ、普通は手書きするものではありません。CMSのようなものを使っているのであればCMSにサイトマップ出力機能があるかもしれませんし、無くてもサイトマップを出力する機能を追加すれば対応できます。WordPressであればv5.5.0からはXMLサイトマップを出力する機能が標準装備になりましたし、それ以前のバージョンでもプラグインでサイトマップ出力機能を追加できました。もちろんv5.5.0以降もプラグインによりサイトマップを出力できます。

検索エンジンが理解できるサイトマップのフォーマットで最も簡単なのはテキスト形式で1行に1つページのURLを書くものです。

プレーンテキスト形式のサイトマップ
http://example.com/content1.html
http://example.com/content2.html
http://example.com/content3.html
http://example.com/content4.html

単純明快ですが、これだとURL情報しか送信できません。それはちょっと不都合です。ウェブサイト内のページが全部で数ページ程度でそれぞれのページが設置後に更新されないということであればこれでも構わないでしょうが、その程度の規模であればそもそもサイトマップは必要ありません。

RSSフィードやAtomフィードもGoogleはサイトマップとして扱うようです。しかし、RSSフィードやAtomフィードはサイトの全ページ一覧を扱うのではなく「最近の記事」の一覧です。(普通は10記事以内程度)。なのでウェブサイトオーナーがサイトマップを「私のサイトの全てのページの一覧」という認識をしているのであれば不適でしょう。

現在、検索エンジン向けサイトマップの主流はXML形式です。

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>http://example.com/content1.html</loc>
    <lastmod>2022-07-24</lastmod>
  </url>
 <url>
    <loc>http://example.com/content2.html</loc>
    <lastmod>2022-07-27</lastmod>
  </url>
</urlset>

この例ではページのURLとページの更新日時だけを通知していますが、ページの更新頻度や優先度のような情報を追加することができます。
参照: https://www.sitemaps.org/ja/protocol.html

また、サイトマップを小分けにすることができます。中規模以上のウェブサイトだと数千〜数十万のURLがあるでしょうがそれら全てを1つのサイトマップに載せるのは効率が悪いです。CMSなどを使っていればおそらくサイトマップ出力も動的に行われますが全てのURLを出力しようとして処理が重く表示されるまで待たされるのはよくありません。サイトマップの分け方は任意ですが、記事のカテゴリや月別で分けるのが一般的でしょう。

サイトマップを小分けする場合はその子サイトマッブのリストを記載するサイトマップインデックスファイルを作成してそれを親サイトマップということにします。

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://example.com/child-sitemap-2022-07.xml</loc>
    <lastmod>2022-07-31T23:59:59+00:00</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://example.com/child-sitemap-2022-06.xml</loc>
    <lastmod>2022-06-30T23:59:59+00:00</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://example.com/child-sitemap-2022-05.xml</loc>
    <lastmod>2022-05-31T23:59:59+00:00</lastmod>
  </sitemap>
</sitemapindex>

上の例は月別でサイトマップを分けています。sitempindex内にsitemapタグがありその下のlocタグで子サイトマップの在り処を示しています。
子サイトマップの名前は任意です。子サイトマップは普通のサイトマップの書き方です。

仮に月別でサイトマップを分けたとしてその中のURLの数が100以下程度であればリクエストからサイトマップ出力までほぼ瞬時なので検索エンジンのクローラーがサイトマップを取得失敗するということは無い筈です。

なお、Googleさんによりますとサイトマップの容量の上限は50MB(非圧縮時)とのことです。50MBだと仮に英数字だけで構成するなら単純に50,000,000(5千万)文字です。新聞の朝刊の文字数が(全角かな/漢字も単純に1文字として)15万文字程度であるとすれば333日分(約11ヶ月分)となります。このことから中規模/大規模サイトであったとしてもサイトマップ1つでも賄えるかもしれませんが、その場合はサイトマップは動的出力+キャッシュまたは静的出力が好ましいでしょう。(毎日夜中に出力するなど)

WordPress標準のXMLサイトマップ出力機能

前述のとおり、WordPressはv5.5から標準でXMLサイトマップを出力できる。
テーマ内でサイトマップ出力機能を意図的に無効化しなければXMLサイトマップが出力される。別途XMLサイトマップ出力用のプラグインなどを使用するとそちらが使われる。(もしくはWordPress標準のサイトマップとプラグインのサイトマップの両方が機能します。)

WordPress標準機能のXML Sitemap 1
WordPressのウェブサイトのURLが https://example.com であれば XMLサイトマップのURLは https://example.com/wp-sitemap.xml となる。これはサイトマップでよく使われるURLとは違うが。設定によってはhttps://example.com/sitemap.xml にもできる。
そして、生意気にも子サイトマップ対応。しかし、その子サイトマップの分け方が残念。
WordPressの標準では1つのサイトマップに2000URLまで書き込まれるようになっている。 つまり、「投稿」用の子サイトマップ wp-sitemap-posts-post-1.xmlに2000 URLまで溜まるみたい。「投稿」の数が2000を超えるとwp-sitemap-posts-post-2.xmlが作成されてそこにまた2000URLまで入る。(これの繰り返し)
これだと子サイトマップ1つあたりに多く入りすぎ。
「固定記事」を大量に作成するという使い方はWordPressではあまりないとは思われるが、wp-sitemap-posts-page-1.xmlも2000 URLまで溜まり、超えるとwp-sitemap-posts-page-2.xmlに入るという感じ?

WordPress標準機能のXML Sitemap 2
投稿記事用の子サイトマップ wp-sitemap-posts-post-1.xml を表示してみた。
画像のように、投稿記事のURLが並ぶだけ。これが非常に残念なポイントで、どうして標準状態で更新日時を出力してくれないのか?

WordPress標準のサイトマップ出力機能に更新日時を追加するコード
使用中のWordPressテーマディレクトリのfuctions.phpに1行追加。
/WORDPRESS-PATH/wp-content/themes/使用中テーマ/functions.php
function bny_sitemap_lastmod( $entry, $post ) {
    $entry['lastmod'] = $post->post_modified_gmt;
    return $entry;
}
add_filter( 'wp_sitemaps_posts_entry', 'bny_sitemap_lastmod', 10, 2 );

WordPress標準機能のXML Sitemap 3
タイムゾーンは無いが記事の更新日時が追加されるようになった。

WordPress標準の子サイトマップ1つあたりのURL数の上限を変更するコード
使用中のWordPressテーマディレクトリのfuctions.phpに1行追加。
/WORDPRESS-PATH/wp-content/themes/使用中テーマ/functions.php
function bny_sitemap_maxurls( $max_urls, $object_type ) {
    $max_urls = 10;
    return $max_urls;
}
add_filter( 'wp_sitemaps_max_urls', 'bny_sitemap_maxurls', 10, 2 );

上のコードの $max_urls = 10; の10を希望の上限数にする。10は極端に少ないので100〜500あたりが無難かと。(WordPressの初期値は2000)

WordPress標準機能のXML Sitemap 4
1サイトマップに含められるURL数を10に絞ったので元々の「投稿」用の子サイトマップ wp-sitemap-posts-post-1.xml が1つでは無理になった。溢れたURLを納めるためにサイトマップインデックス(親サイトマップ)にはwp-sitemap-posts-post-2.xml 〜 wp-sitemap-posts-post-11.xmlの子サイトマップが増えている。

WordPress標準機能のXML Sitemap 5
変更前はwp-sitemap-posts-post-1.xmlには108個のURLがあったが、1サイトマップのURL数の上限を10に変更したのでそのとおりになっている。10というのは極端だが、このように上限数を設定できるのは好ましい。

このように、更新日時を出力できて、子サイトマップ内のURL数を変更することもできるのでWordPress標準機能のXMLサイトマップ出力機能の気に入らないことは投稿記事用の子サイトマップを年別や月別で分けられないということ。まぁ、管理者の自己満足の部分だけど、気になるとWordPress標準のXMLサイトマップは嫌ということに。年別/月別などで子サイトマップを出し分けできて更新日時が出力されるXMLサイトマッププラグインを使いたいところ。

WordPress標準のXMLサイトマップ出力はデフォルトで有効だが、他のXMLサイトマップ出力ブラグインを使うとかXML出力機能を自作して組み込んだということであれば標準のXMLサイトマップ出力機能は完全に停めたいかも。

使用中のWordPressテーマディレクトリのfuctions.phpに1行追加。
/WORDPRESS-PATH/wp-content/themes/使用中テーマ/functions.php
add_filter( 'wp_sitemaps_enabled', '__return_false' );

他にもWordPress標準のXMLサイトマップのカスタムに役立つ情報がWordPress v5.5リリース時に出たドキュメントに解りやすく書かれています。
参照: https://make.wordpress.org/core/2020/07/22/new-xml-sitemaps-functionality-in-wordpress-5-5/

関連記事:

記事へのコメント

いただいたコメントは管理人が確認した後に記事の 下部(ここ)に公開されます。
コメントスパム対策: 2022年4月以降、コメント内にリンクURLを含めると自動破棄されます。(記録されません)