← ブログ2026-05-30開発者向け

CSVからJSONへ: クォート、型、エンコーディングの罠

CSVは実際にパースするまでは単純に見えます。クォートのルール、すべてが文字列になる問題、フィールド内の改行、そして整然と見えるスプレッドシートを壊れたJSONに変えてしまうエンコーディングの問題を扱います。

CSVは誰もが単純だと思い込む形式です。値をカンマで区切った行をカンマで分割すれば終わり、という具合です。ところがあるフィールドにカンマが入ったり、クォートが入ったり、改行が入ったり、意味のある先頭のゼロが入ったりすると、単純な分割は崩れます。CSVをJSONに変換すると、こうしたエッジケースがすべて表面化します。JSONには型と構造がありますが、CSVにはテキストしかないからです。実際に問題になるのは次の点です。

CSVは標準と呼べるものではありません

CSVを説明するRFC(4180)はありますが、実際のファイルはそれより前から存在し、これを自由に無視します。区切り文字はカンマかもしれませんし、セミコロン(カンマが小数点の区切りであるロケールでよく見られます)かもしれませんし、タブかもしれません。改行は \nかもしれませんし\r\nかもしれません。ヘッダー行はあるかもしれませんしないかもしれません。CSVをパースする際の第一のルールは、何も仮定できないということです。あるエクスポートで動くパーサーが次のファイルでは壊れます。だから「とりあえずカンマで分割する」という方法は、難しい部分にたどり着く前にすでに間違っているのです。

クォートが中心となるルールです

CSVの中で明確に定義されている唯一の部分は、クォートがどのように特殊文字を救い出すかです。二重引用符で囲まれたフィールドは、カンマ、改行、クォートを含むことができます。

name,note
"Smith, John","He said ""hi"" twice"

これは2つのフィールドです。Smith, Johnと He said "hi" twiceです。クォート内のカンマは区切り文字ではなくデータであり、二重になったクォート""はエスケープされた1つのクォートです。単純なsplit(",")はこれを壊れた4つの断片にしてしまいます。正しいCSVからJSONへの変換であればクォートのルールを守る必要があり、これこそが一行のコードではなく本物のパーサーを選ぶ理由です。

すべてが文字列です

これが2つの形式の間にある概念上のギャップです。CSVには型がありません。すべてのセルがテキストです。JSONには数値、真偽値、 nullがあります。そのため変換は決断を迫ります。すべてを文字列のまま保つのか、それとも型を推論するのか、ということです。

型の推論は便利でありながら危険です。

007が7になります。すると郵便番号、製品SKU、あるいは電話番号の先頭のゼロを壊してしまったことになります。
1.0が1になったり、さらに悪いことに長い小数が正確に表現できない浮動小数点数になったりします。
TRUE/FALSEがツールによって真偽値になったり、文字列のまま残ったりします。
空のセルが""になったり、nullになったり、まったく省略されたりします。

普遍的に正しい答えはありません。データ交換が目的なら、すべてを文字列のまま保ち、利用する側が意図的にキャストするようにするのが安全な既定値です。自分で管理する分析が目的なら型の推論でも構いません。ただし、変換ツールがどちらを行っているかは知っておく必要があります。静かな型推論は「データは問題なく見えたのにインポートが間違っていた」という典型的な原因だからです。

フィールド内の改行は行ベースのツールを壊します

クォートで囲まれたフィールドは実際の改行を含むことができるため、 **CSVのレコードはファイルの1行と同じではありません。**CSVを 1行ずつ処理するツール、たとえばwc -l、単純なreadlineループ、ログのパイプラインなどは、複数行にまたがるフィールドを持つレコードを誤って数え、分割してしまいます。行数が多すぎるように見える場合は、クォートされたフィールド内の改行を最初に疑うべきです。

エンコーディングとBOM

CSVはエンコーディングの宣言を持たないため、バイト列は曖昧です。繰り返し発生する2つの問題があります。

**BOM。**スプレッドシートはファイルの先頭にバイトオーダーマークを付けたUTF-8として保存することがよくあります。すると最初のヘッダー名が静かにnameではなくnameになり、"name"で検索すると目に見える理由もなく失敗します。読み込む際にBOMを取り除いてください。
**UTF-8以外のエクスポート。**Latin-1や地域別のコードページとして保存されたファイルは、UTF-8として読み込むとアクセント付きの文字が文字化けに変わります。これを示すフラグはないので、元のエンコーディングを知っているか検出する必要があります。

短いチェックリスト

CSVからJSONへの変換が誤った出力を生む場合は、次の項目を順番に確認してください。

区切り文字は正しいですか?(カンマ対セミコロン対タブ)
クォートのルールを守っていますか?二重になったクォートとフィールド内のカンマを含めて、です。
ヘッダー行があり、BOMで汚染されていませんか?
型は推論したものですか、それとも文字列のまま保ったものですか? そしてそれは望んだものですか?
エンコーディングは実際にUTF-8ですか?

クォートを正しく処理し、型について明確に選択してファイルを変換するには、当サイトのCSV ↔ JSON変換ツールがブラウザ内で処理するため、データはローカルにとどまります。JSONに変換した後、ダウンストリームに渡す前に形を強制したい場合は、 JSON Schemaで検証するが次のステップです。また、表形式のデータではなく設定用の形式を選んでいる場合は、JSON対YAMLがそのトレードオフを扱います。