カーパシー氏の「DeepSeek-OCR」論文について：ピクセルはテキストよりもLLMへのより良い入力か？

2025年10月22日原文(twitter.com)

概要

Andrej KarpathyのX（旧Twitter）投稿に関する内容
LLM（Large Language Model）のコード生成能力についての議論
コード生成の進化と現状分析
プログラマーの役割や今後の展望
技術的・社会的なインパクトの考察

Karpathy氏によるLLMのコード生成能力への考察

Andrej Karpathyは、 LLM（Large Language Model） が コード生成 において 非常に優れた能力 を持つことを強調
LLMは既に 多くのプログラミングタスク で 人間と同等かそれ以上のパフォーマンス を発揮
コードの自動生成や補完、バグの検出と修正にも応用可能
プログラマーはLLMを パートナーやツールとして活用 することで生産性向上が期待
LLMの進化により、 プログラミングの在り方そのものが変化 する可能性

LLMの進化とプログラマーの役割

LLMの進化により、 単純なコーディング作業は自動化 される傾向
プログラマーは 設計や要件定義、レビューなど上流工程 へのシフトが進行
LLMの出力を 正しく評価し、指示を最適化する能力 が重要に
コードの品質やセキュリティ担保のため、 人間の監督・判断力 も依然として不可欠
LLMと人間の 協働による新しい開発スタイル の確立が期待

技術的・社会的インパクト

LLMの普及により、 ソフトウェア開発の効率化 と コスト削減 が進展
プログラミング教育やキャリアパスにも 変化が生じる可能性
新たなツールやサービスの登場による 産業構造の変革
LLMの利用に伴う 倫理的・法的課題 への対応も重要
今後もLLMの進化と社会への影響に 継続的な注視が必要

Hackerたちの意見

現在のトークン化が、画像パイプラインの効率に比べてあまり良くないかもしれないね。言語はすでにかなり圧縮されてるけど、潜在空間での表現方法にはもっと良い方法があるかもしれない。

└

業界の人たちは、トークナイザーがダメだって知ってるし、もっと良くする余地があるって思ってる。でも、実際にそれを大規模にやるのは難しいんだよね。

└

画像モデルは「大きな」トークンを使ってるよ。テキストトークンでも、大きなトークン辞書を使って一般的なn-gramトークンを生成すれば同じ効果が得られるけど、今のLLMアーキテクチャは大きな出力分布には向いてないんだ。

https://xcancel.com/karpathy/status/1980397031542989305

└

ありがとう。他にもこれがあるよ: - https://addons.mozilla.org/en-US/firefox/addon/toxcancel/ - https://chromewebstore.google.com/detail/xcancelcom-redirect...

└

ありがとう！トップテキストにも追加したよ。

カパシーの指摘は正しいよ（もちろん）。テキストトークンのいいところは、テキスト入力方法（特にQWERTYキーボード）についての理解を学ぶところだと思う。「Hello」と「Hwllo」は、意外と意味空間では近いんだよね。だって「w」と「e」は隣同士だから。このことは、手動でコーディングしたスペルモデルではもっとわかりやすくて、「キーボード距離」メトリックを文字列距離メトリックと一緒に使うと、より良い結果が得られるんだ。

└

自分は特にタイプミス学習に共感してるんだけど、これは合成データの議論で見落とされがちだと思う（自分のはこちら https://www.youtube.com/watch?v=yXPPcBlcF8U）。でもこの場合、画像の中でタイプミスを生成することはできて、学習可能だと思う。OPにとっては難しい問題ではないよ。

└

でも、ピクセル入力がAIに読解能力を与えると仮定すると、HWLLOがHELLOに意味的に近いと認識できるようになると思う（H3LL0や、下手な手書きのテキストも同様に）。結局、私たちはそれを識別できるからね… もう少しトレーニングが必要かもしれないけど、結果はもっと一般的になるだろうね。

「トークナイザーを殺せ」っていうのはすごく大胆な提案だけど、基本に根ざしてるんだよね。テキストをトークン化するのはハックみたいなもので、実際うまくいってるけど、最先端の技術は言語を定量化するための近似から始まっていて、いろんな面で間違ってる。ピクセルが情報のより強力な表現だっていうのは理解しがたいけど、トークナイザー以外の何かを考え出さなきゃいけないんだ。

└

視覚がある人として読むとき、テキストを画像として全部消費してるから、進化のテストを通過する感じがするよね。視覚が素晴らしい入力方法だってことに、あまり驚かなくてもいいのかも。実際、もっと考えると、私は「テキスト」を画像としても、音としても消費してるんだよね。これが提案してるようにレンダリングやOCRの代わりにTTSを使って、単語の発音をMP3サンプルのようにエンコードしたら、レンダリングされたピクセルバージョンよりもバイト数が少なくなるのかな…解像度やサンプルレートによるだろうけど。

└

バイトラテントトランスフォーマーがあったけど、トークナイザーを終わらせるためのもので、結局どこにも行かなかったみたい。 https://ai.meta.com/research/publications/byte-latent-transf...

Hacker Newsで議論の続きを見る

ハクソク

カーパシー氏の「DeepSeek-OCR」論文について：ピクセルはテキストよりもLLMへのより良い入力か？

概要

Karpathy氏によるLLMのコード生成能力への考察

LLMの進化とプログラマーの役割

技術的・社会的インパクト

Hackerたちの意見