世界を動かす技術を、日本語で。

カーパシー氏の「DeepSeek-OCR」論文について:ピクセルはテキストよりもLLMへのより良い入力か?

概要

  • Andrej KarpathyのX(旧Twitter)投稿に関する内容
  • LLM(Large Language Model)のコード生成能力についての議論
  • コード生成の進化と現状分析
  • プログラマーの役割や今後の展望
  • 技術的・社会的なインパクトの考察

Karpathy氏によるLLMのコード生成能力への考察

  • Andrej Karpathyは、 LLM(Large Language Model)コード生成 において 非常に優れた能力 を持つことを強調
  • LLMは既に 多くのプログラミングタスク人間と同等かそれ以上のパフォーマンス を発揮
  • コードの自動生成や補完、バグの検出と修正にも応用可能
  • プログラマーはLLMを パートナーやツールとして活用 することで生産性向上が期待
  • LLMの進化により、 プログラミングの在り方そのものが変化 する可能性

LLMの進化とプログラマーの役割

  • LLMの進化により、 単純なコーディング作業は自動化 される傾向
  • プログラマーは 設計や要件定義、レビューなど上流工程 へのシフトが進行
  • LLMの出力を 正しく評価し、指示を最適化する能力 が重要に
  • コードの品質やセキュリティ担保のため、 人間の監督・判断力 も依然として不可欠
  • LLMと人間の 協働による新しい開発スタイル の確立が期待

技術的・社会的インパクト

  • LLMの普及により、 ソフトウェア開発の効率化コスト削減 が進展
  • プログラミング教育やキャリアパスにも 変化が生じる可能性
  • 新たなツールやサービスの登場による 産業構造の変革
  • LLMの利用に伴う 倫理的・法的課題 への対応も重要
  • 今後もLLMの進化と社会への影響に 継続的な注視が必要

Hackerたちの意見

現在のトークン化が、画像パイプラインの効率に比べてあまり良くないかもしれないね。言語はすでにかなり圧縮されてるけど、潜在空間での表現方法にはもっと良い方法があるかもしれない。

業界の人たちは、トークナイザーがダメだって知ってるし、もっと良くする余地があるって思ってる。でも、実際にそれを大規模にやるのは難しいんだよね。

画像モデルは「大きな」トークンを使ってるよ。テキストトークンでも、大きなトークン辞書を使って一般的なn-gramトークンを生成すれば同じ効果が得られるけど、今のLLMアーキテクチャは大きな出力分布には向いてないんだ。

https://xcancel.com/karpathy/status/1980397031542989305

ありがとう。他にもこれがあるよ: - https://addons.mozilla.org/en-US/firefox/addon/toxcancel/ - https://chromewebstore.google.com/detail/xcancelcom-redirect...

ありがとう!トップテキストにも追加したよ。

カパシーの指摘は正しいよ(もちろん)。テキストトークンのいいところは、テキスト入力方法(特にQWERTYキーボード)についての理解を学ぶところだと思う。「Hello」と「Hwllo」は、意外と意味空間では近いんだよね。だって「w」と「e」は隣同士だから。このことは、手動でコーディングしたスペルモデルではもっとわかりやすくて、「キーボード距離」メトリックを文字列距離メトリックと一緒に使うと、より良い結果が得られるんだ。

自分は特にタイプミス学習に共感してるんだけど、これは合成データの議論で見落とされがちだと思う(自分のはこちら https://www.youtube.com/watch?v=yXPPcBlcF8U)。でもこの場合、画像の中でタイプミスを生成することはできて、学習可能だと思う。OPにとっては難しい問題ではないよ。

でも、ピクセル入力がAIに読解能力を与えると仮定すると、HWLLOがHELLOに意味的に近いと認識できるようになると思う(H3LL0や、下手な手書きのテキストも同様に)。結局、私たちはそれを識別できるからね… もう少しトレーニングが必要かもしれないけど、結果はもっと一般的になるだろうね。

「トークナイザーを殺せ」っていうのはすごく大胆な提案だけど、基本に根ざしてるんだよね。テキストをトークン化するのはハックみたいなもので、実際うまくいってるけど、最先端の技術は言語を定量化するための近似から始まっていて、いろんな面で間違ってる。ピクセルが情報のより強力な表現だっていうのは理解しがたいけど、トークナイザー以外の何かを考え出さなきゃいけないんだ。

視覚がある人として読むとき、テキストを画像として全部消費してるから、進化のテストを通過する感じがするよね。視覚が素晴らしい入力方法だってことに、あまり驚かなくてもいいのかも。実際、もっと考えると、私は「テキスト」を画像としても、音としても消費してるんだよね。これが提案してるようにレンダリングやOCRの代わりにTTSを使って、単語の発音をMP3サンプルのようにエンコードしたら、レンダリングされたピクセルバージョンよりもバイト数が少なくなるのかな…解像度やサンプルレートによるだろうけど。

バイトラテントトランスフォーマーがあったけど、トークナイザーを終わらせるためのもので、結局どこにも行かなかったみたい。 https://ai.meta.com/research/publications/byte-latent-transf...

最近のこのトピックに関する議論で最も興味深い点の一つは、機械に言語を表現する際に、私たちがロスのある抽象に依存していることを強調しているところだね。トークン化はその一つの抽象だけど、唯一のものではない。生のピクセルや音声信号を使うのは、別の種類の近似だよね。こういう実験がワクワクするのは、明日みんなが言語モデルに画像を渡すことになるわけではなくて、研究者たちが現在のアーキテクチャの設計仮定を試しているからなんだ。複数のモダリティを整列させることを学ぶアプローチは、より良い潜在構造やトレーニング手法を明らかにするかもしれないし、それが効率的なテキストエンコーダーに戻ってくる可能性もある。だけど、単語にきれいに分割されないスクリプトや言語にも豊かな資源があるから、代替エンコーディングがモデルがそれらをうまく扱うのに役立つかもしれない。

もちろん、PowerPointがLLMにとって最高の入力だよ。いつかはそうなると思う。

うん、このアプローチで素晴らしい結果を見たことがあるよ。

スライドが全てだね。モデルがこれをネイティブにサポートするようになったら、スライドAIやGamma、プロダクトマネージャーのキャリアにとって大きな脅威になるよ。

実際、ChatGPTにMicrosoft Paintでコミュニケーションしたいな。タイピングするよりずっと効率的だよ。

おそらく、LLMについて最も知識がないソフトウェアエンジニアの一人だと思うので、もしこれがすごくナイーブな質問だったらごめんね。単語をトークンとして使う研究って誰かやったことある?(もし理解が合ってればだけど)2-3文字の代わりに。こういうアプローチには制限があるのは分かるけど、モデル全体が小さくなるかもしれないよね?

数百万のトークンを持つ辞書が必要になるから、モデルはかなり大きくなるよ。それに、辞書に載ってない頻度の低い単語は、モデルにとって完全に未知の存在になっちゃう。

他のコメントと同じように、辞書がそんなに大きくなる理由は、語幹を持つ単語のすべての変化形が異なるトークンになるからだよね(cat, cats, sit, sittingとか)。それに、辞書にない単語や組み合わせの単語、例えば「cat bed」みたいなのは扱えなくなる。

最新のDeepSeekの革新についての分析がすごく興味深い。ロゴグラフィックな文字の情報密度と結びつけたくなるな。DeepSeekのエンジニアたちはみんなネイティブで流暢だろうし。

ピクセルじゃなくて、パーセルだよ。ピクセルは画像の点だけど、「パーセル」は知覚情報の単位なんだ。特定の瞬間に関連付けられた音を持つピクセルかもしれない。人間の場合、パーセルには他の感覚も含まれていて、自分の考えで注釈を付けることもできる(つまり、パーセルにはトークンや埋め込みも含まれる)。もちろん、LLMのようなニューラルネットはパーセルを単独で処理することはなく、常に隣接するパーセルのグループ(いわゆるコンテキスト)として処理し、最初はその中の一つのパーセルに焦点を当てるんだ。

ちょっと関連する話だけど、Lex Flagelたちの古い論文があって、DNAベースのテキストを画像に変換して、CNNをその画像でトレーニングするっていう内容なんだ。彼らは、通常テキストベースのDNAアライメントから得る集団遺伝学の測定値を再予測することに成功したんだ。 https://academic.oup.com/mbe/article/36/2/220/5229930