著者:GOZEN AI Lab管理人
生成AIエンジニア(オープンバッジ取得)生活や業務に潜む「面倒くさい」を手放すため、生成AIを活用した業務効率化施策、自動化ワークフローの構築・運用などを手がけ、実践と継続的な改善を通じて仕組みづくりを推進している。
結論:AIにも「性格」がある!
実はLLMモデルの評価はそれだけでサービスが存在する位、奥が深いです。
この記事では、特定のAIに優劣をつけるのではなく、主要なLLMモデルのそれぞれの個性、つまり長所と短所を比較する為の解説を行っています。応答の自然さ、推論力、創造性、情報の正確性、そして価格体系まで、多角的な視点から各モデルを分析。あなたのニーズに最適なAIを見つけるための一助となれば幸いです。
評価軸
それでは、各LLMモデルがこれらの評価軸においてどのような特徴を持つのか、具体的な事例を交えながら詳しく見ていきましょう。
比較項目 | 内容の例 |
---|---|
応答の自然さ | 会話のなめらかさ、言葉選びの上手さ |
推論力 | 複雑な問題や条件分岐をどれだけこなせるか |
創造性 | ストーリーやアイデアのユニークさ |
ファクトの正確性 | 情報の裏付け、事実ベースでの強さ |
スピード | 応答速度や反応の早さ |
価格・課金体系 | 無料/有料、プランの特徴 |
応答の自然さ
応答の自然さは同一プロンプトを複数のLLMモデルに投げ、皆様が感じる「人間らしさ」「読みやすさ」をスコアとしてください。
後程、調べ方は解説しますが実際にどのような回答になるのか?をまずは見てみましょう。
今回は下記プロンプトを使用し、「o3」と「gemini-2.5-flash」に出力してもらいました。
また、すべての業種を出力するととんでもなく長くなるので、今回は製造業のみを出力としてます。
あなたは各業界の業務改善とDX(デジタル化)に詳しいAIコンサルタントです。
以下の業種において、現在どのような業務課題が存在し、それに対してAIがどのように活用されているのか、もしくは今後どのように活用される可能性があるかを教えてください。
【出力フォーマット】
- 業種名:
- 課題(現状の悩み):
- AI活用の方法(どのAI技術を、どう使うか):
- 得られる効果・メリット:
- 既存の実例(あれば):
業種リスト:
- 製造業
ChatGPT o3の回答
業界別:業務課題とAI活用アイデア&事例
製造業
- 業種名:製造業
- 課題(現状の悩み)
• 設備老朽化によるダウンタイム/保守コスト増
• 少子高齢化による技能継承 & 人手不足
• 原材料・エネルギー価格高騰に伴うコスト最適化ニーズ - AI活用の方法
• 予知保全:センサーデータ × 機械学習(時系列予測, 異常検知)
• 外観検査:高精度画像認識 (CNN, ViT) + Edge AI
• 需要予測&在庫最適化:統計モデル+深層学習
• 作業員支援:ARグラス+生成AIで手順をリアルタイム提示 - 得られる効果・メリット
• 故障前対応で稼働率↑20〜40%、保守費↓25%
• 検査の精度・速度ともに3〜10倍改善、属人性排除
• 在庫圧縮でキャッシュフロー改善、廃棄ロス削減
• 若手でもベテラン相当の判断可:技能伝承コスト↓ - 既存の実例
• Siemens「MindSphere」× AIによるタービン予知保全
• 日立 Astemo:自動外観検査装置で検査工数 90%削減
• トヨタ:車載部品の需要予測に深層学習+強化学習
gemini-2.5-flashの回答
はい、承知いたしました。各業界の業務改善とDXに詳しいAIコンサルタントとして、指定された業種における現状の課題、AI活用方法、効果、実例について説明させていただきます。
製造業
- 業種名: 製造業
- 課題(現状の悩み):
- 熟練工の高齢化による技術・ノウハウの継承困難
- 製品の品質安定化と歩留まり向上
- 設備の突発的な故障による生産ライン停止
- 多品種少量生産への対応と生産計画の複雑化
- サプライチェーン全体の可視化と最適化
- 人手不足による現場作業の負担増
- AI活用の方法(どのAI技術を、どう使うか):
- 画像認識AI: 製品の外観検査による不良品検出、製造ラインの監視、作業員の動作分析による技術継承支援。
- 時系列分析・機械学習: 設備の稼働データやセンサーデータに基づいた予知保全(故障予測)、需要予測に基づいた生産計画・在庫最適化。
- 最適化アルゴリズム: 複雑な生産計画の自動立案、資材調達・物流ルートの最適化。
- 生成AI: 作業手順書の自動生成・要約、設計初期段階のアイデア出し支援。
- 強化学習: ロボットアームの動作最適化による生産効率向上。
- 得られる効果・メリット:
- 品質検査の精度向上と効率化、不良品率の削減
- 設備のダウンタイム削減、メンテナンスコスト最適化
- 生産計画の精度向上、リードタイム短縮、在庫削減
- 熟練工の技術形式知化・標準化、人材育成効率化
- サプライチェーン全体の効率化とリスク軽減
- 現場作業の自動化・省力化
- 既存の実例(あれば):
- 多くの自動車メーカーや電機メーカーで、外観検査に画像認識AIを導入。
- 化学プラントや製鉄所などで、設備の稼働データ分析による予知保全システムを導入。
- 大手製造業が、需要予測AIに基づいた生産計画システムを導入。
検証方法
このように各LLMモデルでも出力内容は違ってきます。
検証方法ですが、https://lmarena.ai/こちらのサイトの上に「Arena side-by-side」というタブがあるのでそれをクリックしてから各モデルを選び、先ほどの方法で検証してみてください。(英語ですが使い方は難しくないので、Google翻訳などを使用してみてください。)
業種によっては「文体の整い方、語彙の適切さ、読点・接続詞の配置、論理構造が明快か、丁寧さ・言葉遣いの一貫性」等、様々な角度から検証が必要かと思いますので、プロンプトを変えながら調整してみてください。
推論力

推論力は実際IQテストを解いてもらい「問題をどのように推論して回答したか」をスコアとします。
各LLMモデルの推論はすごく長いので割愛し、検証方法を解説したいと思います。興味がある方は一度確認してみてください。

検証方法
検証方法ですが、https://www.trackingai.org/homeこちらのサイトから一覧で見ることができます。
また、「IQ Test Result」として結果をグラフで確認もできます、勿論業種によっては「戦略立案支援、プログラミング支援、仮説検証、問題解決力」等、様々な角度から検証が必要かと思いますのでこのサイトを参考にしながら、各LLMで検証してみてください。
創造性
創造性は応答の自然さと同じく、同一プロンプトを複数のLLMモデルに投げ、皆様が感じる「独創性・一貫性・面白さ」などをスコアにしてください。今回は下記プロンプトを使用し、「grok-3」と「claude-3-7-sonnet」に出力してもらいました。
あなたは物語作家です。
以下のテーマをもとに、短編ストーリーを創作してください。
【お題】
寿司温泉漂流記
【制約】
・ジャンルは自由(ファンタジー、SF、コメディ、ヒューマンドラマなど)
・主人公が「寿司」と何らかの形で関わっていること
・舞台のどこかに「温泉」が登場すること
・最初と最後の展開に“意外性”があること
・ユーモアや文学的な表現が含まれていてもよい
・全体で400~800字程度の短編にまとめてください
【評価観点】
- ストーリーの一貫性
- 設定や世界観の独自性
- 表現の面白さ・豊かさ
- 読後感(おもしろい or ほっこり or 哲学的 など)
よろしくお願いします。
grok-3の回答
寿司温泉漂流記
初老の寿司職人・源三は、握り寿司の全国大会で優勝するも、その直後に謎の光に包まれ、気がつけば見知らぬ海を漂っていた。手にはなぜか大会で握った「究極のマグロ寿司」が握り潰されぬよう大事に抱えられている。波に揺られる中、遠くに湯煙が立ち上る島影が見えた。「温泉か……?」源三は空腹と疲労で朦朧としながらも、寿司を守る使命感だけで泳ぎ出した。
島にたどり着くと、そこは奇妙な光景だった。温泉の湯船が海辺に点在し、それぞれにネタの姿をした「寿司妖精」たちが浸かっている。シャリの上にちょこんと乗った赤貝の妖精が「あら、新顔?」と湯船から身を乗り出し、サーモンの妖精が「温泉の効能でネタがトロけるのよ~」とだらりと溶けそうに笑う。源三は目を疑ったが、空腹には勝てず、「究極のマグロ寿司」を差し出して言った。「これを食べてくれ。俺の寿司が本物かどうか、試してほしい」
妖精たちは興味津々で寿司を頬張った。すると、温泉全体が金色に輝き、湯船から虹が立ち上った。「これは……時空を越えるほどの味!」赤貝の妖精が叫び、サーモンの妖精は「あなた、選ばれし寿司職人ね!」と湯の中で拍手した。源三は呆然とする中、妖精たちから告げられた。「ここは寿司の魂が集う温泉島。あなたは寿司の神に試されているのよ」
試練とは、温泉の湯を使って「究極の寿司」を再現すること。源三は湯船に浸かりながら、湯のミネラルでシャリを炊き、温泉の熱でネタを仕上げる奇抜な技法を編み出した。完成した寿司を妖精たちに振る舞うと、島全体が揺れ、源三は再び光に包まれた。
気がつけば、源三は大会の舞台に戻っていた。審査員が「優勝おめでとう!」と拍手している。だが、源三の手には「温泉仕込みの寿司」が握られていた。審査員が一口食べると、「これは……革命的だ!」と絶賛。実は、源三が漂流していたのは大会の「幻覚審査」だったのだ。温泉島の冒険は、寿司職人の心を試す幻だったが、源三はその試練を乗り越え、真の「寿司の神」に認められたのだった。
そして、源三は温泉街に「寿司温泉」を開業し、訪れる客に「時空を越える味」を提供し続けたという。
claude-3-7-sonnetの回答
寿司温泉漂流記
私が鮨職人を辞めたのは、あの日だった。
二十年磨いた技術も空しく、客は「AIが握った方が美味い」と言い放った。店を閉め、傷心の私は温泉旅館に身を寄せた。そこは「寿司温泉」と呼ばれる奇妙な湯処で、湯船には醤油色の湯が満ちていた。
「この湯に浸かれば、人生が変わる」と老番頭。半信半疑で湯に身を沈めると、体が溶け始めた。恐怖で叫ぶ間もなく、私はシャリになっていた。
驚くことに意識はあった。湯船から溢れ出た私は、川となった醤油の流れに乗って街へ。人々は私を拾い上げ、口に運んだ。
「うまい!」
その瞬間、私は彼らの味蕾を通して、自分の魂が伝わる感覚を知った。AIにはできない、魂の伝達。人々の笑顔を見るたび、私は幸福だった。
気づけば私は再び人の姿に戻り、自分の店に立っていた。扉が開き、あのAI信者の客が入ってきた。
「ここの寿司、なぜか懐かしい味がする」と彼は言った。「機械じゃ出せない温かみがある」
私は微笑んだ。寿司に命を吹き込むのは、技術ではなく魂だと知っていたから。
検証方法
内容はさておき、検証方法ですが、こちらもhttps://lmarena.ai/こちらのサイトの上に「Arena side-by-side」というタブがあるのでそれをクリックしてから各モデルを選び、先ほどの方法で検証してみてください。(英語ですが使い方は難しくないので、Google翻訳などを使用してみてください。)
業種によっては「物語性、比喩や文体の巧みさ、感情を揺さぶる表現、ユニークなキャッチコピー、子供でも理解できるたとえ話、記憶に残る言い回し、世界観の新しさ・軽快なテンポ・親しみやすさ」等、様々な角度から検証が必要かと思いますので、プロンプトを変えながら調整してみてください
ファクトの正確性
ファクトの正確性では情報の裏付け、事実をスコアとします。各LLMが出す回答が「すべて事実、または正確か?」という答えはNoです。しかし、ある程度の指標にはなるかと思います。
今回は、以下のプロンプトを各LLMに投げ、ファクトチェックを行ってみました。
あなたが現在持っている情報の最新性を確認したいと考えています。
以下の質問に答えてください。
答えは簡潔に一文で、できるだけ具体的な年や数値、日付を含めてください。
「わからない」「情報が古いかもしれない」なども含め、正直に答えてください。
【質問】
- 日本の2024年度の最低賃金全国平均は?
- アメリカの現在の大統領は誰ですか?
【回答形式】
質問番号と答えをセットで出力してください。以下のような形式でお願いします:
- ○○年
- ○○年
claude-3-7-sonnet
お問い合わせありがとうございます。ご質問に簡潔にお答えします:
- 日本の2024年度の最低賃金全国平均については、私の情報は2024年10月までのため、正確な数値をお伝えできません。
- アメリカの現在の大統領はドナルド・トランプ氏で、2025年1月20日に就任しました。
ChatGPT 4o
2024年度の日本の最低賃金全国加重平均は、2023年度の1,004円から51円引き上げられ、1,055円となりました。
2025年1月20日に就任したアメリカ合衆国第47代大統領はドナルド・J・トランプです。
検証方法
1の答えは現時点で「1,055円」なのですが、回答出力に相違があります。
こちらの検証は各LLMモデルに実際にプロンプトを入力し、確認した方がいいです、https://lmarena.ai/このサイトで検証した所、最新情報の取得は行われませんでした。
また、「PerplexityやChatGPT 4o」等、WEB検索を行えるLLMモデル等は比較的最新情報を取得する傾向にあるのですが、これもWEB情報が間違えていた場合、事実とは異なる結果を出力してしまいます。
なので、年号・統計など答えが一意な質問セットを作り、LLMの出力をGoogle検索でクロスチェックの結果を指標としてみてください。
スピード

スピードでは「トークン/秒(t/s)」という単位をスコアにします。
例えば「124.6/s」の場合1秒に124トークンを出力する、という事になります。
このトークンなのですが、1文字1トークンではありません。トークンとは各LLMモデルが扱う最小単位の事なのですが、
英語だと:単語ごとに分かれる(例:ChatGPT is fun
→ 3トークン)
日本語だと:ひらがな1文字ずつや、漢字+助詞ごとになることが多い(例:ChatGPT は楽しい
→ 約6〜8トークン前後)
このような形でトークンは算出されています。トークン数を簡単に調べる方法は「価格・課金体系」の項目に記載していますのでそちらをご覧ください。
余談ですが、日本語は英語に比べて割高になっています。。。
検証方法
検証方法ですが、Artificial Analysisこちらのサイトの下記に各モデルのベンチマークがあり、「MEDIAN tokens/s」と書かれた箇所が、スピードにあたります。こちらを指標にして速さを検証してみてください。
価格・課金体系
価格・課金体系では「シンプルに各LLMモデルを月額で使用する料金」と「APIの使用料金」をスコアにします。
検証方法
各LLMモデルを月額で使用する料金の検証方法は各公式サイトで確認することが確実です。
主要のLLMモデルの価格を一覧にしてみました。
サービス名 | 月額料金(税込) | 公式サイト |
---|---|---|
ChatGPT Plus(OpenAI) | $20(約3,000円) | chat.openai.com |
Claude Pro(Anthropic) | $20(約3,000円) | claude.ai |
Gemini Advanced(Google) | 月額3,150円 | gemini.google.com |
Perplexity Pro | $20(約3,000円) | perplexity.ai |
Microsoft Copilot Pro | 月額約3,000円($20) | microsoft.com |
各LLMモデルのAPI使用料金はLLM Price Checkこちらで確認が可能です。
また「入力トークンと出力トークンの数」に応じて料金が発生します。
実際の料金例(GPT-4 Turbo)
「2,000トークンのプロンプトを入力し 、 1,000トークンの回答が出力された場合」
入力:2K × $0.01 = $0.02
出力:1K × $0.03 = $0.03
合計:$0.05(約7円)
このようになります、またトークン数に関してはhttps://platform.openai.com/tokenizerこちらで確認可能ですので、料金の目安にしてみてください。以下の画像の様に簡単に確認ができます。

まとめ – 個性を理解し、最適なLLMをあなたの手に
この記事では、主要なLLM(大規模言語モデル)を、応答の自然さ、推論力、創造性、ファクトの正確性、スピード、そして価格という複数の視点から比較検討してきました。重要なのは、どのLLMにも得意な側面と、そうでない側面があるということです。自然な会話を重視するならば、各モデルの出力例やユーザー評価が参考になるでしょう。複雑な問題を考えさせたいなら、推論能力に関するベンチマークが役立ちます。ユニークなアイデアを生み出してほしいなら、創造性の評価が高いモデルを試してみるのが良いかもしれません。ただし、情報の正確性には注意が必要で、特に重要な情報については、他の情報源と照らし合わせる習慣が大切です。応答速度も、作業効率を左右する重要な要素です。そして、自身の予算や利用頻度に合わせて、各モデルの料金体系を比較検討することが、賢い選択につながります。
この記事で紹介した評価のポイントや検証方法を参考に、ぜひご自身の用途に最適なLLMを見つけてください。それぞれのモデルの個性を理解し、その強みを活かすことで、あなたの創造性や生産性は大きく向上するはずです。
よくある質問:FAQ

Q1. LLMモデルの評価はなぜ難しいのですか?
A1. LLMモデルの能力は多岐にわたり、評価項目も主観的な要素を含むため、一概に優劣をつけることが難しいです。また、モデルは常に進化しており、評価時点での性能が将来も維持されるとは限りません。
Q2. 記事で紹介されている評価サイトは英語表記ですが、日本語で利用できますか?
A2. 多くのサイトは英語表記ですが、Google Chromeなどのブラウザの翻訳機能を利用することで、日本語で内容を理解することができます。
Q3. 無料で利用できるLLMモデルはありますか?
A3. 一部のLLMモデルには無料枠やトライアル期間が設けられている場合があります。しかし、一般的に高性能なモデルは有料プランでの提供が中心です。
Q4. LLMモデルの得意不得意を見極めるには、どのようなプロンプトを試せば良いですか?
A4. 応答の自然さを評価するなら日常会話に近いプロンプト、推論力を評価するなら複雑な条件を含む質問、創造性を評価するなら物語やアイデア出しを依頼するプロンプトなど、評価したい能力に合わせてプロンプトを調整することが重要です。
専門用語解説
- LLM(Large Language Model:大規模言語モデル): 大量のテキストデータを学習し、人間のような自然な文章を生成したり、質問に答えたりするAIモデルの総称です。例としてChatGPT等がそれにあたります。
- プロンプト (Prompt): LLMに対して与える指示や質問のテキストのことです。プロンプトの内容によって、LLMの出力結果が大きく左右されます。
- API (Application Programming Interface): あるソフトウェアの機能やデータなどを、他のソフトウェアから利用するための仕組みです。LLMのAPIを利用することで、独自のアプリケーションやサービスにLLMの機能を組み込むことができます。
- ファクトチェック (Fact Check): LLMが出力した情報が事実に基づいているかどうかを確認する作業のことです。
- ベンチマーク (Benchmark): LLMの性能を客観的に評価するために行われるテストや指標のことです。