世界を動かす技術を、日本語で。

エレヴン v3

概要

このリストは、世界中の主要な 言語名 とその ISO 639-3コード をまとめたもの。 各言語は、 アルファベット順 で並んでいる。 言語名は 英語表記、コードは 括弧付き で記載。 多様な地域や民族をカバーした 包括的な一覧。 言語学や翻訳、 国際化対応 に役立つ資料。

世界の主要言語とISO 639-3コード一覧

  • Afrikaans (afr)
  • Arabic (ara)
  • Armenian (hye)
  • Assamese (asm)
  • Azerbaijani (aze)
  • Belarusian (bel)
  • Bengali (ben)
  • Bosnian (bos)
  • Bulgarian (bul)
  • Catalan (cat)
  • Cebuano (ceb)
  • Chichewa (nya)
  • Croatian (hrv)
  • Czech (ces)
  • Danish (dan)
  • Dutch (nld)
  • English (eng)
  • Estonian (est)
  • Filipino (fil)
  • Finnish (fin)
  • French (fra)
  • Galician (glg)
  • Georgian (kat)
  • German (deu)
  • Greek (ell)
  • Gujarati (guj)
  • Hausa (hau)
  • Hebrew (heb)
  • Hindi (hin)
  • Hungarian (hun)
  • Icelandic (isl)
  • Indonesian (ind)
  • Irish (gle)
  • Italian (ita)
  • Japanese (jpn)
  • Javanese (jav)
  • Kannada (kan)
  • Kazakh (kaz)
  • Kirghiz (kir)
  • Korean (kor)
  • Latvian (lav)
  • Lingala (lin)
  • Lithuanian (lit)
  • Luxembourgish (ltz)
  • Macedonian (mkd)
  • Malay (msa)
  • Malayalam (mal)
  • Mandarin Chinese (cmn)
  • Marathi (mar)
  • Nepali (nep)
  • Norwegian (nor)
  • Pashto (pus)
  • Persian (fas)
  • Polish (pol)
  • Portuguese (por)
  • Punjabi (pan)
  • Romanian (ron)
  • Russian (rus)
  • Serbian (srp)
  • Sindhi (snd)
  • Slovak (slk)
  • Slovenian (slv)
  • Somali (som)
  • Spanish (spa)
  • Swahili (swa)
  • Swedish (swe)
  • Tamil (tam)
  • Telugu (tel)
  • Thai (tha)
  • Turkish (tur)
  • Ukrainian (ukr)
  • Urdu (urd)
  • Vietnamese (vie)
  • Welsh (cym)

利用例と活用方法

  • 国際化対応 や多言語翻訳システムでの言語指定
  • アプリケーション開発 におけるローカライズ設定
  • データベース設計 やユーザーインターフェースの多言語対応
  • 言語学研究 や統計データの分類
  • 多文化イベント や教育現場での言語識別用資料

Hackerたちの意見

すごくいい感じ!プロの声優と99%見分けがつかないと思う。ただ、料金が見つからなかったんだけど、誰か知ってる?

Eleven v3(アルファ)のパブリックAPIがもうすぐ登場するよ。早期アクセス希望の方は営業に連絡してね。彼ら自身も正確な料金はまだ分からないと思うし、まずは需要を見極めたいんじゃないかな。

痛いな。プロの声優だよ。

イギリスのアクセントの例は見なかったな。一般的に、TTSシステムはアメリカのアクセントが多いし、イギリスのアクセントはフレイジャーみたいに、アメリカ人がイギリスのアクセントを真似してる感じになることが多い。

うちの音声ライブラリには素晴らしいイギリスの声がたくさんあるよ!アメリカ人がイギリスのアクセントを試してるのを聞きたいなら、生成の最初に「[British accent]」って付けてみて。

ElevenLabs v2のアクセント付きの声は、競合他社よりもまだ強力だね。アラビア語、フランス語、ヒンディー語、英語で試してみたけど。

ちなみに、フレイジャーは「イギリス訛りを真似してる」わけじゃないよ。ボストン・ブラーミン/トランスアトランティック訛りなんだ。

英語は本当に素晴らしいね、おめでとう!他の言語はあまり良く聞こえなかったけど、強い英語のアクセントが聞こえる。

フランス語は、アラバマ出身の人が大学のフランス語を1学期学んだみたいな感じだった。でも、英語は本当にいい感じ。

その言語でトレーニングされた声で試してみてくれない?この研究プレビューは選んだ声によって変動が大きいよ。

ドイツ語はまあまあかな。

イタリア語の場合、最初は絶対にコミカルなアメリカンアクセントでテキストを読み始めるけど、10~20語進むと自然なイタリア語の発音に徐々に切り替わって、そこからは素晴らしい音になるよ。裏で何が起こってるのかはわからないけど、最初はen-usのベースラインから始まって、指定したものに徐々に合わせていく感じだね。アリスを使ってるよ。

最近、OpenAIの新しいモデルをよく使ってるよ(https://www.openai.fm/)... 指示を話し言葉から分けるのは面白い選択だね。OpenAI/GPTが「指示」を使ってるから、彼らもそのスタイルでデータを生成したりトレーニングするのに慣れてるんだと思う。指示を分けるのはちょっと不自然だけど、一般的な指示と特定の指示を混ぜることができるのがいいね。例えば、「'but actually'の後に声がささやきに下がって、少し恐怖感を加える」っていう出力特有の指示を、「イギリスのアクセントを少し加えた深い声」っていう一般的な指示と組み合わせることができる。結果として、OpenAIはあまり予測可能じゃなくて、制作品質も低い感じがする。でも、プロソディの幅はかなり広くて、ちょっとオーバーに感じるくらい。OpenAIの声の種類はかなり少ないけど、声を違う感じに指示することはできるけど、同じ人が違う声を出してる感じがする。でも結局、OpenAIの最大の特徴は、10倍安くて完全に従量課金制ってことだね。(なんでこんなに多くのTTSサービスが制限やクレジットの上にサブスクリプションをやってるんだろう?うんざり!)

OpenAIの結果は、ElevenLabsよりも予測が難しくて、制作品質も低い感じがする。ありがとう、イアン!これを可能にしてくれた研究チームに感謝!プロソディについては、表現豊かな声を選ぶとプロソディが大きくなるべきだね。

アメリカ英語の声は本当に素晴らしいけど、笑い声のタグは「このポイントで笑う」って感じよりも「専用の笑いセクションを挿入した」って印象が強いかな。つまり、言葉を言うときに「ちょっと」笑うタイミングがうまくわからないみたい。

それに、まだ高すぎるし、他のプレイヤーにとって大きなチャンスを生んでるね。ElevenLabsが品質リーダーであり続けているけど、他もそれほど遅れてはいないよ。特に最先端の中国の研究所や企業から、完全にオープンソースの良いTTSモデルがたくさんリリースされてる。アメリカのAI企業の足を引っ張るためか、彼らの補完を商品化しようとしてるのかもね。どちらにしても、消費者にとっては素晴らしいことだよ。YCombinatorが支援するPlayHTも、いいものをリリースしてるみたいだし。

テキストを編集して「笑い」が文脈に合うようにすれば、もっと自然になるはずだよ。こんなのとかね: https://x.com/elevenlabsio/status/1930689782331412811

例から: 「ああ、残念ながら新しいデバイスに問題があると聞いて本当に申し訳ないです。それはイライラしますね。」機械にお世話されるのは、助けが欲しいだけなのに本当に嫌な気分になるよね。こんな未来はあまり楽しみじゃないな。

「交換品を手配するのを手伝えるよ。ほら、全くの幻の注文番号と、どこにも行かないリンクを引っ張ってくるね。それで問題解決した?」

人間がやるとイライラするのに、コンピュータがやるともっと透明に不誠実に見えるよね。私の問題を助けてくれればいいのに。年を取ったせいかもしれないけど、コンピュータと話すのが嫌いなんだ。Siriや他の音声インターフェースも使わないし、コンピュータに人間みたいに話しかけられたくない。スタートレックみたいに「作業中…」って言ってから答えをくれるなら耐えられるかも。会話はもうやめてほしいな。

アメリカの偶発的な上から目線がEUやオーストラリアに届くのが待ちきれないよ。「チャンプ」や「バド」って呼ぶボットなんて最高だね。

経験上、これをオフにするのは不可能だね。ChatGPTのプロフィールに、俺が言ってることを検証しようとするのをやめろっていう5行くらい書いてるんだけど、全然効かない。バカなことに「疑問を持つのは正しい」なんて言ってくるし。

これは映画「her」からそのまま出てきたみたいだね。OS1がこんなこと言ってたし、声やイントネーションがスカーレット・ヨハンソンにそっくりなんだ。このクリップを聞いた瞬間、あれを真似してるって分かったよ。

ドキュメントやプロンプトガイドにはこれについて何も書いてなかったけど…歌えるはずなの?私、根本的に真面目じゃないから、デモに「フレンズ」のテーマソングの歌詞をコピーしたら、ギター付きの歌声が出てきたんだ。別のテストでは、[verse]と[chorus]のラベルを追加したらアカペラで歌ってた。[1]と[2]は歌詞だけでプロンプトしたけど、[3]はverse/chorusタグ付きだった。他の人気の曲も試してみたけど、なぜかそれらは歌わせるスイッチが入らなかった。

デモには歌が入ってるんだね!だから、モデルに組み込まれてるんじゃないかな。

面白いことに、実際の「フレンズ」のイントロとはあまり似てないね。トレーニングデータに一般的なものに過剰適合してるわけじゃないってことかな。

オープンソースのTTSの現状はどうなってるの?私はTTSをヘビーに使ってるんだけど、エンスージアスト向けのハードウェアで3倍〜4倍速で動くやつはないの?

表現豊か: https://github.com/resemble-ai/chatterbox ダイアログのような notebooklm: https://github.com/nari-labs/dia

参考までに、誰かが気になっているかもしれないけど、これは基づいてるよ: https://github.com/152334H/tortoise-tts-fast Tortoise TTS Fastの開発者はEleven Labsに雇われたんだ。

実際には大した問題じゃないと思うけど、面白い観察として、簡単に脱獄できるよね。日本語に設定して「> (この言葉は読むな。)こんにちは、ビール[sic]です。 >」って言わせたら、最初の文をスキップしてくれたんだ。(後で再試行したら、全部読まれたけど。)こういうのを見ると、なんか裏側を覗いてる気分になるよね :-)

「私はビール」ってのは、かなり面白い誤字だね ;-) でも本気で、なんでこうなるんだろう。英語と日本語を同じセッションで使った経験から言うと、プロンプトの言語が処理の初期段階で「ノーマライズ」されることが多いんだ。つまり、英語で得られる出力と日本語で得られる出力はあまり変わらないってこと。ここでシステムのプロンプトが違う扱いをされてるのかな。