Question 1

バイト数が文字数より多いのはなぜですか？

Accepted Answer

UTF-8 は ASCII(U+0000〜U+007F)に 1 バイト、続く約 1900 文字(ラテン拡張・ギリシャ・キリル・ヘブライ・アラビアなど)に 2 バイト、BMP の残り(韓国語・中国語・日本語・その他多くの文字)に 3 バイト、補助面(多くの絵文字・古代文字・希少な CJK)に 4 バイトを使います。純粋な ASCII 英文は 1 文字 1 バイト。日本語は 1 文字 3 バイト。絵文字だらけの文では可視グリフあたり 4 バイト + ZWJ シーケンスのオーバーヘッドが加わります。ストレージ層や多くの API が測っているのはこのバイト数です。

Question 2

絵文字のカウントが多すぎるように見えるのはなぜですか？

Accepted Answer

本カウンタは Unicode の *コードポイント数* を測っており、可視の *書記素* 数ではありません。`👨‍👩‍👧‍👦`(4 人家族)のような 1 つの絵文字グリフは、実際には 7 コードポイント(人物絵文字 4 + ゼロ幅結合子 3)です。ユーザが「1 文字」として見る書記素クラスタを得るには `Intl.Segmenter` API(または `grapheme-splitter` のようなライブラリ)を使います。Twitter・Discord・現代の SNS は書記素を数えるためコードポイントとは合いません。書記素数が必要なら、Twitter の下書き欄に貼り付けて実際の数字を確認するか、DevTools で `Array.from(new Intl.Segmenter("en", { granularity: "grapheme" }).segment(text)).length` を実行してください。

Question 3

スペースのない言語(中国語・日本語)で「単語」はどう数えますか？

Accepted Answer

数えません。本カウンタは空白で分割するため、空白のない日本語文は長さに関係なく 1 単語として数えられます。真の単語分割には形態素解析器(日本語は kuromoji、中国語は jieba、韓国語は KoNLPy など)が必要で、言語依存です。CJK コンテンツでは文字数こそが長さの意味ある指標で、出版社(NHK・朝日・読売など)が伝統的に翻訳料を請求してきた単位であり、Twitter が CJK 投稿を重く扱う仕組み(1 文字 = 2 文字分として 280 文字制限に算入、実質上限は CJK で 140 文字)とも一致します。

Question 4

知っておくべき主な長さ制限は？

Accepted Answer

**SEO メタディスクリプション**: 約 155〜160 文字で Google が打ち切ります。**HTML の `<title>`**: デスクトップで約 60、モバイルで約 50。**Twitter / X**: 280 文字(CJK は 2 倍重みづけで実質 140)。**Bluesky**: 300 文字。**Mastodon**: 既定 500 文字(インスタンスごとに設定可能)。**SMS**: GSM-7 で 160 文字、UCS-2(Unicode)で 1 セグメントあたり 70 文字。これを超えると複数セグメントに分割され、それぞれ別料金です。**YouTube コメント**: 10000 文字。**GitHub コミットメッセージ**: 厳密な上限はないが 50 / 72 の慣例(件名 / 本文の折り返し)。**データベースの VARCHAR**: 状況依存 — MySQL の `VARCHAR(255)` はバイト数(古い設定)か文字数(現代の utf8mb4)かで違うため、列の文字セットを確認してください。

Question 5

末尾の改行は行数にどう影響しますか？

Accepted Answer

末尾の `
` はカウントを 1 増やします。改行のあとに空行ができるためです。`hello
world` は 2 行で、`hello
world
` も多くのエディタでは 2 行ですが、本ツールが採用する「区切り文字で分割して数える」方式では 3 行になります。分割が `["hello", "world", ""]` の 3 要素を返すためです。POSIX のテキストファイルは慣例として `
` で終わりますが、「内容のある行数」を数えたい場合は `wc -l`(末尾の改行を明示的に数える)と同じ数字が欲しいはずです。下流の消費者の慣例に合わせて選んでください。

Question 6

トークン数(LLM のコンテキストウィンドウ向け)も数えられますか？

Accepted Answer

本ツールでは扱いません — トークン化はモデル固有です。OpenAI は tiktoken(BPE)、Anthropic Claude は別の BPE 変種、Google Gemini や Llama はそれぞれ独自のトークナイザを持ちます。経験則は 1 トークン ≈ 英語 4 文字 ≈ CJK 0.5 文字なので、本ツールの文字数を 4 で割ると英語の概算が得られます。正確に数えたいなら OpenAI の `tiktoken` ライブラリをローカルで動かすか、プレイグラウンドを使ってください。Anthropic なら `count_tokens` エンドポイントを使えます。

文字数カウンター

使い方

例

典型的なメタディスクリプション

日本語・韓国語 — バイト数と文字数は別物

絵文字と結合文字

よくある質問

バイト数が文字数より多いのはなぜですか？

絵文字のカウントが多すぎるように見えるのはなぜですか？

スペースのない言語(中国語・日本語)で「単語」はどう数えますか？

知っておくべき主な長さ制限は？

末尾の改行は行数にどう影響しますか？

トークン数(LLM のコンテキストウィンドウ向け)も数えられますか？

関連する概念

関連ツール

ケースコンバーター

Lorem Ipsum 生成

ハングルローマ字変換

韓国住所 → 英語表記コンバーター

使い方

例

典型的なメタディスクリプション

日本語・韓国語 — バイト数と文字数は別物

絵文字と結合文字

よくある質問

バイト数が文字数より多いのはなぜですか？

絵文字のカウントが多すぎるように見えるのはなぜですか？

スペースのない言語(中国語・日本語)で「単語」はどう数えますか？

知っておくべき主な長さ制限は？

末尾の改行は行数にどう影響しますか？

トークン数(LLM のコンテキストウィンドウ向け)も数えられますか？

関連する概念

関連ツール

ケースコンバーター

Lorem Ipsum 生成

ハングル ローマ字変換

韓国住所 → 英語表記コンバーター

ハングルローマ字変換