Question 1

바이트 수가 글자 수보다 많은 이유는?

Accepted Answer

UTF-8은 ASCII(U+0000~U+007F)에 1바이트, 다음 약 1900자(라틴 확장·그리스·키릴·히브리·아랍 등)에 2바이트, BMP의 나머지(한국어·중국어·일본어·기타 다수 문자)에 3바이트, 보조 평면(대다수 이모지·고대 문자·드문 CJK)에 4바이트를 사용합니다. 순수 ASCII 영문은 글자당 1바이트, 한국어는 글자당 3바이트, 이모지가 가득한 문장은 가시 글리프당 4바이트 + ZWJ 시퀀스 오버헤드가 더해집니다. 저장 계층과 다수의 API가 재는 것이 이 바이트 수입니다.

Question 2

이모지 카운트가 왜 이렇게 많이 나오나요?

Accepted Answer

이 카운터는 Unicode *코드 포인트 수*를 잽니다. 가시 *그래핌 수*가 아닙니다. `👨‍👩‍👧‍👦`(4인 가족) 같은 이모지 글리프 하나는 실제로는 7 코드 포인트(인물 이모지 4 + 폭 0 결합자 3)입니다. 사용자가 "한 글자"로 보는 그래핌 클러스터를 얻으려면 `Intl.Segmenter` API(또는 `grapheme-splitter` 같은 라이브러리)가 필요합니다. Twitter·Discord·현대 SNS는 그래핌을 세므로 코드 포인트와 맞지 않습니다. 그래핌 수가 필요하면 Twitter 초안 칸에 붙여 넣어 실제 숫자를 확인하거나, DevTools에서 `Array.from(new Intl.Segmenter("en", { granularity: "grapheme" }).segment(text)).length`를 실행하세요.

Question 3

공백이 없는 언어(중국어·일본어)에서 "단어"는 어떻게 셉니까?

Accepted Answer

세지 않습니다. 이 카운터는 공백으로 분리하므로 공백 없는 일본어 문장은 길이에 관계없이 1 단어로 세어집니다. 진짜 단어 분할에는 형태소 분석기(일본어는 kuromoji, 중국어는 jieba, 한국어는 KoNLPy)가 필요하며 언어 의존적입니다. CJK 콘텐츠에서는 글자 수가 길이의 의미 있는 척도이며, 출판사(NHK·아사히·요미우리)가 전통적으로 번역료를 책정해 온 단위이자 Twitter가 CJK 게시물을 무겁게 다루는 방식(글자 1 = 2글자분으로 280자 한도에 산입, 실효 상한은 CJK 140자)과도 일치합니다.

Question 4

알아 두면 좋은 주요 길이 제한은?

Accepted Answer

**SEO 메타 디스크립션**: 약 155~160자에서 Google이 잘라냅니다. **HTML `<title>`**: 데스크톱 약 60, 모바일 약 50. **Twitter·X**: 280자(CJK는 2배 가중되어 실효 140). **Bluesky**: 300자. **Mastodon**: 기본 500자(인스턴스별 설정 가능). **SMS**: GSM-7로 160자, UCS-2(Unicode)로 세그먼트당 70자. 이를 넘으면 다중 세그먼트로 나뉘어 각각 따로 과금됩니다. **YouTube 댓글**: 10000자. **GitHub 커밋 메시지**: 엄격한 상한은 없지만 50·72 관례(제목·본문 줄바꿈). **데이터베이스 VARCHAR**: 상황 의존 — MySQL의 `VARCHAR(255)`는 바이트(옛 설정)냐 글자(현대 utf8mb4)냐로 다르므로 컬럼 문자 집합을 확인하세요.

Question 5

끝에 있는 줄바꿈은 줄 수에 어떻게 영향을 주나요?

Accepted Answer

끝의 `
`은 카운트를 1 증가시킵니다. 줄바꿈 뒤에 빈 줄이 생기기 때문입니다. `hello
world`는 2줄이고, `hello
world
`도 대부분의 에디터에서는 2줄이지만 이 도구가 채택한 "구분자로 나눠 세는" 방식에서는 3줄입니다. 분할이 `["hello", "world", ""]`의 3 요소를 돌려주기 때문입니다. POSIX 텍스트 파일은 관례적으로 `
`으로 끝나지만, "내용 있는 줄 수"를 세고 싶다면 `wc -l`(끝의 줄바꿈을 명시 카운트)과 같은 숫자를 원할 것입니다. 하류 소비자의 관례에 맞춰 고르세요.

Question 6

토큰 수(LLM 컨텍스트 윈도용)도 셀 수 있나요?

Accepted Answer

이 도구로는 안 됩니다 — 토큰화는 모델 고유입니다. OpenAI는 tiktoken(BPE), Anthropic Claude는 다른 BPE 변종, Google Gemini와 Llama는 각자 자체 토크나이저를 가집니다. 경험칙은 1 토큰 ≈ 영어 4글자 ≈ CJK 0.5글자이므로 이 도구의 글자 수를 4로 나누면 영어 추정이 됩니다. 정확히 세고 싶다면 OpenAI의 `tiktoken` 라이브러리를 로컬에서 돌리거나 플레이그라운드를 사용하세요. Anthropic이면 `count_tokens` 엔드포인트를 쓸 수 있습니다.

글자수 카운터

사용법

예제

전형적인 메타 디스크립션

한국어·일본어 — 바이트와 글자 수는 다름

이모지와 결합 문자

자주 묻는 질문

바이트 수가 글자 수보다 많은 이유는?

이모지 카운트가 왜 이렇게 많이 나오나요?

공백이 없는 언어(중국어·일본어)에서 "단어"는 어떻게 셉니까?

알아 두면 좋은 주요 길이 제한은?

끝에 있는 줄바꿈은 줄 수에 어떻게 영향을 주나요?

토큰 수(LLM 컨텍스트 윈도용)도 셀 수 있나요?

관련 개념

관련 도구

케이스 변환기

Lorem Ipsum 생성기

한글 로마자 변환기

영문주소 변환기 (한국)