ChatGPTの新たな画像生成は何がすごい?

先日、OpenAIから新たな画像生成「4o Image Generation」が公開され、未だに話題が尽きない人気の画像生成AIとして覇権を取り戻しつつります。

新たな画像生成AIの特徴を見ていきましょう。

OpenAIの「4o Image Generation」の主な特徴

概要

  • GPT-4oに組み込まれた最新の画像生成機能
  • 美しいだけでなく実用的な画像生成を目指している

主な機能

  • テキストレンダリング: 画像内のテキストを正確に表示
  • マルチターン生成: 会話を通じて画像を改良可能
  • 指示に忠実: 詳細な指示に従い、10-20の異なるオブジェクトを処理可能
  • コンテキスト学習: ユーザーがアップロードした画像を分析・学習
  • 世界知識の活用: テキストと画像の知識を連携

応用例

  • 図表、インフォグラフィック、視覚的な説明の作成
  • 正確なテキストと記号を含む詳細なシーン
  • 様々なスタイルの写真のようなリアルな画像
  • 教育コンテンツや視覚情報の生成

制限事項

  • 長い画像のクロッピング問題
  • 幻覚(情報の捏造)
  • 多数の概念を同時に扱う際の問題
  • 正確なグラフ作成の課題
  • 多言語テキスト表示の問題
  • 編集精度の限界
  • 小さなテキストや密集情報の処理困難

提供状況

  • Plus、Pro、Team、(無料ユーザーは提供延期)
  • Enterprise、Edu向けは近日提供予定
  • 開発者向けAPIは数週間以内に提供予定

参考:https://openai.com/index/introducing-4o-image-generation

この画像生成のアップデートはChatGPTに留まらずSoraにも展開されています。

つまり何が、すごいすごいと言われているのか?

画像のクオリティはもちろんのことですが、テキスト含めたオブジェクトの配置ができるようになったことで、とても実用的になったというのが特徴的です。

SoraのExploreを見てみましょう。

と言いたいところですが、著作権・肖像権の問題があるので、是非ご自身でチェックしていただきたいと思います。

今回は、技術紹介の一環として実際に作成してみた画像をご覧ください。

すでにご覧いただいているアイキャッチ画像は、Soraを利用して試しに生成をしてみました。

アイキャッチ画像、折り紙で作られた猫のキャラクター、キャッチコピー「新しい画像生成は何がすごい?」

たったこれだけで、ブログに使えそうなアイキャッチ画像が完成しました。この程度のものであれば、素人でもCanvaを使って作ることはできますが、日本語1行でここまで出来るならこれで良いかとなりますよね。

猫を一部抜粋して、バナー広告風にも仕上げることが簡単にできます。

しかし、この使い方は序章にすぎず、何回なテーマの内容の図解を作成したりと、使い方は無限大にあると思います。

最後に、ネット上に公開されていたプロンプトを試した結果をシェアして終了としたいと思います。

https://chatgpt.com/share/67ea3478-07a8-8006-ae9c-5163e0ddb74c

画像生成の課題

個人で使う分には、自己責任で済む話なのですが、企業で使う場合は慎重にならなければなりません。画像生成AIの進化と著作権法などの法律が完全に追いついておらず、安全に利用するにはどのようにガイドラインを制定すべきか悩ましいところです。

弊社でも、技術進化にあわせてガイドラインの更新を継続して行っていきますが、画像生成については煩雑な管理を要することとなるため、ここをいかにシンプルかつ明確な管理体制を構築できるかどうかを日々検討しております。

この新機能を実用化するためのガイドライン策定、施行も私達の仕事です!