Question 1

アポストロフィに `'` ではなく `'` を使うのはなぜですか？

Accepted Answer

`'` は XML と HTML5 にはありますが、HTML 4 にはありません。古いブラウザ(スクレイパーやフィードリーダーに残るレガシーパーサを含む)は `'` をデコードせずリテラルで表示することがあります。数値形 `'` はどこでも動くため、未知のレンダリング経路を通る可能性のあるコンテンツにはより安全な既定値です。

Question 2

HTML エンティティエンコードだけで XSS を防げますか？

Accepted Answer

HTML 本文コンテキストにおいてのみです。各コンテキスト(HTML 本文・HTML 属性・JavaScript 文字列・CSS 値・URL)はそれぞれ専用のエンコード方式が必要で、値が `onclick=` ハンドラや `<style>` ブロックに入る場合、`<` のエスケープは何の意味も持ちません。OWASP の XSS Prevention Cheat Sheet には主要コンテキストをカバーする 7 つのルールが挙げられています。コンテキストをまたぐ可能性のある入力には、スロットごとに自動エスケープするテンプレートシステム(React・Liquid・Mustache など)を選ぶほうが安全です。

Question 3

HTML エンティティと URL パーセントエンコード — どちらを使い分けますか？

Accepted Answer

レイヤーが違うため役割も違います。HTML エンティティ(`&`)は HTML パーサがマークアップとして解釈してしまう文字をエスケープするためのもので、ドキュメント本文や属性値の内側で使います。パーセントエンコード(`%26`)は URL の構文を壊す文字をエスケープするためのもので、`href`・`src`・フォーム送信のクエリ文字列の内側で使います。`<a href>` 属性内の URL に含まれる単一の `&` は両方が同時に必要になることがあり、`https://x.com/?a=1&b=2` のように `&` で HTML パーサを満たし、デコード後にはリテラルな `&` が URL に残るようにします。

Question 4

見たことのない奇妙なエンティティもデコードされるのはなぜですか？

Accepted Answer

デコーダはブラウザ自身の HTML パーサを使うため、HTML5 の名前付きエンティティ全集合(2231 種、ギリシャ文字・数学演算子・装飾文字、果ては `&Aogon;`(オゴネク付き Ą)のような変わった文字まで)を認識します。通常のページでブラウザが描画できる文字は本ツールでもデコードされます。数値形(`&#NNN;` および `&#xHH;`)は U+10FFFF までの全コードポイントをカバーします。

Question 5

` ` は通常のスペースと同じですか？

Accepted Answer

いいえ。` ` は U+00A0(NO-BREAK SPACE)で、その位置での改行を抑止します。多くのフォントで見た目は通常スペースと同じ幅ですが、別のコードポイントとして扱われます。例えば `"a b".split(" ").length` は 2 ですが、`"a\u00A0b".split(" ").length` は 1 になります。` ` を YAML ファイル・CSV の列・SQL クエリに貼り込むのは、見えないパースエラーの典型的な原因です。

Question 6

`<script>` をデコードすると動作する script タグになりますか？

Accepted Answer

テキストエディタや本ツール上では、デコードするとリテラル文字列 `<script>` が得られます。その文字列を `innerHTML` でライブページに挿入すると script 要素は作成されますが、実行はされません。HTML5 仕様が遅延挿入の script を除外しているためです。DOMParser と明示的な eval 相当を組み合わせれば実行できますが、まさに「簡単なデコードが簡単な実行を意味しない」ようにするため仕様がそれを阻止しているのです。

HTML エンティティエンコーダ・デコーダ

入力

出力

使い方

例

予約 5 文字をエンコード

名前付き・数値混在のエンティティをデコード

レガシーテンプレート向けに非 ASCII を全エンコード

よくある質問

アポストロフィに `'` ではなく `'` を使うのはなぜですか？

HTML エンティティエンコードだけで XSS を防げますか？

HTML エンティティと URL パーセントエンコード — どちらを使い分けますか？

見たことのない奇妙なエンティティもデコードされるのはなぜですか？

` ` は通常のスペースと同じですか？

`<script>` をデコードすると動作する script タグになりますか？

関連する概念

関連ツール

Markdown エディター

JSON フォーマッター

Base64 エンコーダ / デコーダ

URL エンコーダ / デコーダ

入力

出力

入力

出力

使い方

例

予約 5 文字をエンコード

名前付き・数値混在のエンティティをデコード

レガシーテンプレート向けに非 ASCII を全エンコード

よくある質問

アポストロフィに `&apos;` ではなく `&#39;` を使うのはなぜですか？

HTML エンティティエンコードだけで XSS を防げますか？

HTML エンティティと URL パーセントエンコード — どちらを使い分けますか？

見たことのない奇妙なエンティティもデコードされるのはなぜですか？

`&nbsp;` は通常のスペースと同じですか？

`&lt;script&gt;` をデコードすると動作する script タグになりますか？

関連する概念

関連ツール

Markdown エディター

JSON フォーマッター

Base64 エンコーダ / デコーダ

URL エンコーダ / デコーダ

入力

出力

アポストロフィに `'` ではなく `'` を使うのはなぜですか？

` ` は通常のスペースと同じですか？

`<script>` をデコードすると動作する script タグになりますか？