ChatGPTに質問して回答を得る場合、ChatGPTは英語による情報をたくさん持っている、ということで、英語で質問するのが良いのでは?という話がありますね。
それは1つの考え方ですが、ChatGPTが持っている英語情報にしても日本語情報にしても「情報の偏り(かたより)」があることは理解したうえで、英語で質問するか日本語で質問するかを考えていくのが良いと思います。
ここでは、ChatGPTがどのような情報の偏りを持っていて、だから英語の質問が良い、日本語の質問が良い、という使い分けの仕方から、使い分けしなくてもすむ質問の工夫を具体事例を交えて解説しています。
では「ChatGPTが持つ情報の偏り」から順を追ってみていきましょう。
あわせて読みたい)
【ChatGPT】プロンプトの書き方の基本!初心者がまず覚えることと注意点
Contents
ChatGPTが持つ「情報の偏り」を押さえておく
ChatGPTに質問するとき「英語が良いか、日本語が良いか」を考える上では、そもそも「言語によってChatGPTの持つ情報の量や質にバラツキがある」という点を押さえておくのが良いですね。
ChatGPTは大量のテキストデータから「言語の使い方」や「言語により表現された情報」を持っていて、それらにより文章作成を行います。
英語なら「英語の大量のテキストデータ」からそれらを学び英語で答える。日本語も同様で「日本語の大量のテキストデータ」から学び日本語で答える。
この「言語ごとに大量の文章を学び、その中に含まれる情報を元にその言語で回答する」という仕組み(プログラム)を「言語モデル」と表現するようですが、ChatGPTはこの回答する仕組みを色々な言語で持ってます。
このようにChatGPTは、いろいろな言語の言語モデル(その言語で記述された大量の文章から言語と知識を得て、その言語で回答できる仕組み)を持ち「多言語の言語モデル」とも言われますが、各言語を学んだ元となる「その言語で記述された大量の文章」の中身により、その言語による知識の量や質も変わることになります。
ChatGPTはアメリカにあるOpenAIという企業が開発してますが、アメリカの企業であれば「大量の文章情報」はまず英語が最初に来るだろうし、その大量の文章情報をどこから持ってきたものかと言えば、簡単にしかも大量に手に入る「ネット上の情報が多い」と考えられそうです。
ネット上には様々な言語で記述された文章情報がありますが、その中でも「英語で記述された情報」が他の言語に比べて桁違いに多い。
ということから、ChatGPTは「他の言語に比べて圧倒的に多い英語の文章」で学習していることが考えられ、だからChatGPTは他の言語よりも英語は流暢に使えるし、英語の情報の幅や深さも他の言語より大きいと考えられます。
参考までに、
ネット上の言語別の情報の割合を見ると、「英語が約56%」に対し「日本語はたったの約4%」。
ネット上の情報は、英語による情報量に対して日本語の情報量は16分の1程度しかないようですね。
以下は2023年3月時点の「ネット上にある言語別の割合」です。
(上位20位までをまとめたもの)
順番 | 言語 | ネット上の情報の「言語別の割合」 |
1 | 英語 | 55.6% |
2 | ロシア語 | 5.0% |
3 | スペイン語 | 4.9% |
4 | ドイツ語 | 4.3% |
5 | フランス語 | 4.2% |
6 | 日本語 | 3.6% |
7 | トルコ語 | 2.4% |
8 | ポルトガル語 | 2.3% |
9 | イタリア語 | 1.9% |
10 | ペルシャ語 | 1.8% |
11 | オランダ語, フラマン語 | 1.5% |
12 | 中国語 | 1.4% |
13 | ポーランド語 | 1.4% |
14 | ベトナム語 | 1.3% |
15 | アラビア語 | 0.7% |
16 | インドネシア語 | 0.7% |
17 | チェコ語 | 0.7% |
18 | 韓国語 | 0.7% |
19 | ウクライナ語 | 0.6% |
20 | ギリシャ語 | 0.5% |
英語が圧倒的に多く50%以上を占める。
二位がロシア語の5%ですが、英語に比べて約10分の1程度しかない。
どれだけ英語の情報が多いか分かりますね。
日本語は3.6%。
英語に対して16分の1ぐらいの情報量。
これら「言語別の情報量の割合」が即「ChatGPTの持つ言語別の情報量」にはなりませんが、ChatGPTの言語ごとの学習量をイメージする1つの目安になりそうです。
ちなみに日本語の次はトルコ語で、トルコ語はポルトガル語やイタリア語よりも多い、というのが何か不思議な感じもしますが、トルコは中東とヨーロッパの接点に位置していて、この地域に住む人々がトルコ語を話す(つまりトルコ語圏は結構広い)というのと、インターネットを積極的に使っている、ということが理由として挙げられそう。
あくまでネット上にある言語別に見た情報量の割合ですが、英語の情報は手に入りやすいし、良いものを作るにはなるべく多くのデータ(文章情報)を集めて学習するのが一番。
たとえば、
「日本語の学習データ(文章情報)が10個集まった、他の言語の情報量も10個にあわせてどの言語も同程度のデータで学習させて公平にしよう!」
なんてするわけもなく、
言語ごとにベストなデータを集めて学習させるのが「開発における普通の考え方」になると思います。
となると、ネット上にある言語別の情報の割合までいかなくても、英語の文章による学習量は圧倒的に多い(英語で記述された知識量が圧倒的に多い)ということが言えそうですね。
イメージで表現すると以下のような感じになるでしょうか。
こうしたことから、
ChatGPTには英語で質問した方が良いのでは?ということになるんですね。
では「何でもかんでも英語で質問」&「英語で回答を得た方が良い」かといえば、それは「質問の内容による」ということになります。
たとえば「ある人物A」の経歴が知りたい、という場合。
その人物Aが、
- アメリカ(というか英語圏)では非常に良く知られている
- でも、日本ではあまり知られてない
としたら、「ChatGPTは英語による人物Aの説明を多く持つ」と考えられます。
この場合には、日本語で聞くより英語で聞いた方が「より多くの情報(+精度の高い情報)」が得られそうですよね。
逆に、
・アメリカ(英語圏)ではあまり知らてなく、
・日本では非常に良く知られている「人物B」
この場合では、
その人物Bについての情報は日本語で記述されたものが多い、と考えられることから、日本語で聞く方が英語で聞く場合に比べて多くの情報(+精度の高い情報)が得られそうです。
なんでも答えてくれそうなChatGPTですが、
英語や日本語など言語によって持っている知識量に「偏り(かたより)」がある、ということは意識しておく必要がありますね。
ChatGPTの言語による回答作成の流れ
ChatGPTが「質問に使う言語でどのように回答を作成するか」も知っておくと「英語で聞くか日本語で聞くか」の判断も付きやすくなると思います。
具体的に、日本語でChatGPTに質問する場合の流れを見てみると...
※)以下はあくまでイメージ
- ①:日本語で質問してみる
- ②:【ChatGPT】言語が何かを判別
- ③:【ChatGPT】日本語と分かれば、日本語の言語モデルを使って回答を生成。
- ④:【ChatGPT】質問が日本語の場合、日本語で回答を表示する
日本語で聞いても英語で答えが返ってきてしまう場合もありますが(笑)、質問から回答の表示までの基本の流れはこんなイメージ。(と思われる)
関連)
【ChatGPT】日本語の質問にも英語で回答が返ってくるのはなぜ?原因と対処法
先ほどの例に出てきた「人物A」(英語圏でよく知られ、日本ではあまり知られてない人物)のことを英語で質問する場合と日本語で質問する場合は、以下のようになることが想像できそうです。
【英語で質問する場合】
英語で質問するとChatGPTは「英語の言語モデル」を使って回答を作成します。
人物Aは英語の言語モデルには多くの情報があり、その情報を元に回答を作成することから、より詳しかったり的確な情報が得られそう。
【日本語で質問する場合】
日本語で人物Aについて質問すると、ChatGPTは「日本語の言語モデル」を使って回答を作成します。
日本語の言語モデルには(英語モデルに比べて)人物Aの情報があまりないので、回答は得られるにしても、実はあまり正確でなかったり詳細な情報でなかったりするかもしれません。
ちなみに以下の場合、
- 日本語の言語モデルには情報が全くない
- 英語の言語モデルには情報がある
この場合、日本語で質問すると、ChatGPTは以下のような流れで回答を作成するようです。
- ①:日本語で質問
- ②:日本語だ、と判別
- ③:ChatGPTは日本語の言語モデルを使って回答しようとしたところ情報がないので、英語の言語モデルを使って情報ゲット。
- ④:そのゲットした情報を元に日本語の言語モデルを使って回答
質問に使われた言語に対応する言語モデルに情報がない場合、
英語の言語モデルが使われるようですね。
では以下の場合はどうなるか。
- 日本語の言語モデルには情報がない
- 英語の言語モデルにも情報がない
日本語にも英語にも情報がない場合には、以下のように回答を作成するようです。
- 質問の内容から「どの言語モデルを使えば回答が作れるか」を判別して回答する、
たとえば、フランスの「とある地方だけで有名な人物Cのこと教えて」みたいなローカル情報を知りたいということで「日本語」でChatGPTに聞いた場合、以下のような感じ。
- ChatGPTに「フランスのA地方の人物Cについて教えて」と日本語で聞いてみる
↓↓↓↓↓↓ - 【ChatGPT】
日本語で聞かれたから、日本語の言語モデルを使ってみるかな
↓↓↓↓↓↓ - 【ChatGPT】
あれ?情報がないぞよ。では頼りになる英語の言語モデルで回答作ろう...
↓↓↓↓↓↓ - 【ChatGPT】
あらら、こちらにも情報がない。困ったな、回答作れないじゃん。
↓↓↓↓↓↓ - 【ChatGPT】
質問内容からすると、フランスのことを聞いてそうだからフランスの言語モデルを使ってみるか
↓↓↓↓↓↓ - 【ChatGPT】
おぉ、情報あるじゃん。これで回答を作ろう
↓↓↓↓↓↓ - 【ChatGPT】
おっと、質問は日本語で来てるから、日本語の言語モデルを使って日本語で答えなくっちゃね。
ChatGPTは複数の言語モデルを持つAI。
(多言語対応の仕組みを持つプログラム)
日本語なら日本語の文章情報から得た知識で答えようとするし、その中に情報がなければ英語の言語モデルやその他の言語モデルから情報を引き出し、最終的に日本語で答えてくれる、ということになりますね。
・質問の言語によって「使われる言語モデル」が変わる
(日本語で質問すれば、ChatGPTは日本語の言語モデルを使って回答する)
・「使われる言語モデル」によって、質問に対する情報量は異なる
・質問に対して、情報をより多く持っていそうな言語モデルを使ってくれると「より精度の高い回答」が期待できる
質問する時、英語が良いか日本語が良いかの判別法
ここまで見たように、ChatGPTが一番幅広く深い情報を持ってそうなのが「英語の文章情報」。ただ全てにおいて英語の情報が詳しいわけではない、といった情報の偏り(かたより)もありますね。
日本語で質問する場合、日本語の言語モデルを使って回答作成することから、日本語の文章情報が多いであろうという時には、普通に日本語で聞くのが良さそうです。
では、どちらの言語の情報が多そうかを考える時、
何を判別基準にすればよいかも見ておきます。
日本語、英語、どちらの情報が多そうか
たとえば「日本という国」「日本人」「日本語」など「日本に強く関連している質問」「日本の事情に深く関連している質問」は日本語でするのが良い、ということになるし、日本というより「海外に強く関連している質問」は英語の質問の方が、ChatGPTの回答も詳しかったり、より適切な回答が期待できそうです。
- 日本や日本人、日本語に強く関連する内容の例:
- 日本の伝統や文化に関すること
- 日本の政治や経済に関すること
- 日本で活躍している人(有名人、芸能人など)
- 日本で流行している物や事柄
- 日本人だからという傾向が出る物事(対人関係など)
- 海外に強く関連する内容の例:
- グローバルなトピック(国際的に話題になるもの:気候変動など)
- 海外の方が盛んな専門分野:AIとかロケット技術など
- 海外で活躍している人(有名人、芸能人など)
- 海外で流行している物や事柄
- グローバルスタンダードな傾向を知りたい物事
こうしてみると、ChatGPTに質問するときに、
その質問の先頭に「日本の」とか「日本における」などを付けた場合、その質問に違和感がなければ日本語で質問する、というのが、1つの判別法になるかもしれません。
質問の先頭に「日本の」とか「日本における」などを付けて、その質問に違和感がないかをチェックする
たとえば、
「バレンタインデーに何を送ればいいかな?」
という質問では、
「(日本において)バレンタインデーに何を送ればいいかな?」
と先頭に「日本において」を付けてみて、
違和感のない質問になってるかな?とチェックしてみる。
質問の文章に違和感がなければ「日本の中ではどうか?」という趣旨の質問と考えて、日本語で聞けばいいかな、という感じです。
この質問を普通に日本語でChatGPTに聞くと、日本語の文章情報がたくさん詰まった日本語の言語モデルで回答することになるので「日本事情を踏まえた回答」が期待できそう。
ちなみにこの質問例の「バレンタインデー」は、日本では女性から男性にチョコを送る(更に送るチョコには本命、義理チョコ、友チョコみたいな種類があるし)というものだと思いますが、海外ではそうしたものはないので、英語で聞くと適切な回答が得られないかもしれません。
英語か日本語か分からない場合
日本語で質問するか英語にするか、どちらが適切か分からない、という場合もあると思います。
そんな場合は「ChatGPTに聞いてみる」というのもありますね。
「~」という質問は、
英語、日本語、どちらで聞いたら良い?
試しに先ほどの質問例「バレンタインデーに何を送ればいいかな?」について、英語、日本語、どちらで聞いた方が良いかChatGPTに聞いてみると...
「日本独自の習慣や文化に関する質問なので、日本語で聞く方が適切だよ」と答えてくれました。
日本語で続ける場合
この後は「では質問の答えは?」などのプロンプトで続ければ、そのまま質問の回答が得られます。
改めて質問しなおさなくても、こうすれば手間も省けますね。
英語が良いと言われたら
では「英語での質問が良い」と言われる場合はどうなるか。
ちょっとニッチな質問例ですが、
「アインシュタインの私生活はどんな感じだったか知りたい」という質問では「英語で聞くのが適切」ということのようですね。
その理由は、アインシュタインは「世界的に知られているので英語の情報源が豊富だから」というものです。
では質問を英語に翻訳してもらい、
その翻訳した英文に対して回答してもらいましょう。
- ①;「では質問を英語に訳して」というプロンプトを送り、ChatGPTに質問を訳してもらう。
- ②:質問が英訳されるので「Answer」(答えて)とういプロンプトを送る
するとChatGPTからバラバラバラ~という感じで英語で答えが返ってきますね。
英語が達者ならこのまま読めば良いですが、
ここはやはり日本語でしょう、ということで日本語に翻訳してもらいます。
「訳して」というプロンプトを送ると、英語の回答を日本語訳にしてくれますね。
日本語、英語を考えずに質問したい
質問するとき、この質問は英語がいいかな?日本語がいいかな?と考えたり、ChatGPTにどっちがいい?なんて聞くもの結構面倒。
そうした時は、以下のようなプロンプトを使っても良いですね。
「~」について教えて欲しい。
英語の言語モデルからの情報も追加して。
このプロンプトは日本語なので、
ChatGPTは日本語の言語モデルを使って回答を作成しようとします。
でもプロンプトに「英語の言語モデルからの情報も追加して」を加えているので、ChatGPTの回答作成の振る舞いは以下のように期待できます。
- 1)まず日本語の言語モデルで回答に必要な情報を整理する
- 2)続いて、英語の言語モデルでも質問に対する情報をチェックして、1)にない情報があれば追加する
たとえば、アインシュタインはバイオリン演奏を趣味としていたことが有名ですが、どれほどバイオリンが上手だったかをChatGPTに尋ねてみます。
アインシュタインはどれほどバイオリンが上手だったか教えて。
英語の言語モデルからの情報も追加して。
以下は実際にChatGPTにこのプロンプトを送った例ですが、
英語の言語モデルからの追加情報はどれか分かるように先頭に★印をつけるような指示もプロンプトに含めてます。
この例では最後に★印が付いているので、
この部分が「英語の言語モデルから追加された情報」になりますね。
ちなみに英語の言語モデルからの情報は英文で表示されることも結構あるようです。
その場合には「なんで日本語で表示してくれないかな~」なんて思うかもしれませんが(笑)、気にせず「翻訳して」といったプロンプトを送るなど、大人の対応をしていきましょう。
(ChatGPTはまだ生まれたばかりですので)
英語と日本語で質問する場合のメリットとデメリット
ここまで見た内容から、ChatGPTへの質問で英語を使う場合と日本語を使う場合のメリット、デメリットを整理してみます。
【日本語で質問する場合】
- 【メリット】
日本語なので、より的確な質問ができる - 【デメリット】
質問の内容によっては、回答に含まれる情報が「実は少ない」とか「適切ではない」(ChatGPTが情報を十分に持ってないので)、という場合もある
日本語で質問する場合、日本人なら(当たり前ですが)日本語は分かっているので、自分でも良く分かる内容で質問が出来るのが最大のメリット。
デメリットとして、ChatGPTが持つ情報量は英語に比べて日本語は少ないので、(本当は回答を比べてみないと分かりませんが)実は回答の中の情報量が少なかったり、適切な回答ではなかったりする場合もありますね。
関連して、海外に多くある情報(AIなどの情報とか何かの専門領域、日本ではあまり知られてなくても海外では有名な人など)では、回答の中身が実は薄い、ということも考えられます。
そうしたデメリットを補うには
「英語で質問をして、情報量の多い英語の言語モデルから情報を引き出す」ということが考えられますが、英語で質問する場合のメリット・デメリットもまとめて見ると...
【英語で質問する場合】
- 【メリット】
- ChatGPTは英語の情報量を多く持っていると考えられるため、より多くの情報を含んだ回答が得られる可能性がある。
- 【デメリット】
- 質問する人が英語が不得手の場合、翻訳された質問が意図通りになっているかが分からず、期待する回答が得られない場合もある。
- 質問も回答も英語なので、翻訳する手間がかかる
- 日本に関連する質問では、的確な回答を得られる可能性が低い。
確かにChatGPTは英語の情報をたくさん持っているので、質問内容によっては英語で聞く方が中身が濃かったり、より適切な回答が得られる可能性が高くなります。
ただ質問も回答も英語なので、質問を翻訳する、回答も翻訳する、といった手間がかかるし、英語に翻訳した質問が意図通りの英訳になっているか良くわからない場合には、的確な情報が引き出せる可能性も低くなっちゃいますよね。
また、質問内容が日本に強く関連するもの(人、場所、イベント、人間関係など)だった場合には、英語で聞くと逆に日本事情を考慮しない回答だったり、知りたい情報が得られない可能性もありそうです。
特に厳密な回答が必要なく、何となく分かれば良いぐらいなら日本語で普通に聞けばいいし、より幅広い情報などが必要であれば、上の方で見たように、
「質問は日本語、でも英語の情報も追加してもらうようにプロンプトに含める」
というのがお手軽になりそうです
翻訳する場合のツールと注意点
最後にChatGPTとのやり取りで、英語、日本語の翻訳で使うツールとその注意点を少々。
質問を英語に翻訳したり、回答を日本語訳にする、という場合、以下の3種類ぐらいの選択肢がありますね。
ChatGPTを使っている中での翻訳なら、ChatGPTに翻訳してもらうのが一番手間なく簡単そう。(グーグル翻訳もDeepLもコピペしたりしないといけないので、その分面倒)
ただ、ChatGPTは(2023年4月時点では)2021年9月までの情報しか持ってないので、それ以降に起きた出来事や表現(専門用語など)が文章に含まれている場合、適切な翻訳とならない可能性が高くなりますね。
そうした場合には「グーグル翻訳」や「DeepL」を使うことになりそうです。
グーグル翻訳とDeepL、どちらを使うのが良いかと言えば、AIを扱う人の間ではDeepLの方が翻訳精度は高いのでは?と言われているようですが、どちらも常に改良が重ねられているので、翻訳結果の「好みの問題」になるのでは?という感じです。
(私は影響されやすいので最近DeepLの方をよく使ってます笑)
参考)
・DeepL Google翻訳 比較(株ヒューマンサイエンス)
・DeepL翻訳とGoogle翻訳の違い【実際に使って検証】(DIGITORインフォ)
ちなみに、DeepLを解説しているサイトでは「DeepLは入力された翻訳対象を一時的に保存するので注意」みたいな説明がついてる場合も多いですが、それはChatGPTやグーグル翻訳も同じこと。
無料で提供されているサービスを使う場合、なぜこんな便利なものを無料で提供しているのかといったその理由になる部分は常に念頭に置いておくのが良いですね。
※)無料サービスでは、機能の改善・向上のために何らかのデータが収集されているかも、と考え、プレイベート情報、機密情報を含む場合には無料のサービスは使わないほうが良いです。または翻訳する場合、プライベート情報などは何かに置き換えるなどとしていく。気になる場合には、必ずそれぞれのサービスの利用規約とかプライバシーポリシーでデータの取り扱がどうなっているか、チェックしましょう。(ネットの情報はあてにせず、必ずそのサービスのHPで最新情報を確認することもポイント)
今回のポイント
英語、日本語のどちらで質問するかでは、以下の点を押さえる!
- ChatGPTが持つ情報には言語によって偏り(かたより)がある
(日本語の情報に比べて、英語の情報が非常に多い) - 日本語、英語、どちらの情報が多そうかを考えてみる
(質問の先頭に「日本の」とか「日本における」などを付けて確認してみる) - どちらで質問するのが良いか分からない場合には、ChatGPTに聞いてみるのも良い
- プロンプトに「英語の言語モデルからの情報も追加して」を含めるのもあり
ChatGPTは多言語の言語モデル(文章情報を解析した結果を持ち、それらにより言語で受け答えが出来る仕組み・プログラム)であり、言語ごとに持っている情報量や情報の質も変わります。
英語の情報を最も多く持っているようですが(それも多言語に比べれば桁違いに多い)、だからと言って、すべて英語で聞けばより良い回答が得られるかと言えば「それはちょいと違う」。場合によって使い分けするのが良いということになりますね。
またブログに対してのAI・ChatGPTの活用法やブログの稼ぎ方を知りたい、ネットビジネスを始めてみたい、という場合には、以下のメルマガにも登録してみてくださいね。