斯くして、2023年10月14日
ChatGPT + DALL-E3でだいぶ遊んでる。
ChatGPTの方は日常的に使うようになっていたものの、画像生成の方は何やら面倒だったりマシンパワーが必要だったりで手がつけられずにいた。それがChatGPTに実装されてしまって使い放題となれば(制限はある:結構引っかかる)使いまくるしかない。
Twitterで回ってきてびっくりしたのだけれど、ドット絵でっていうとドット絵を描いてくれる。キュビズムでって言うとキュビズムになり、印象派でって言うと印象派ぽく描いてくれる。「水彩画家が印象派を取り入れて〜」みたいな、変なニュアンスも汲み取ってくれるあたりがさすがChatGPTだと思う。ドット絵でファンタジーを描くとかなり懐古趣味をくすぐられることに気がついた。
さらに色々試してみて、「気に入ったものがあったらそれに方向性を与えて進化させるワードを与えると良い」ということも分かった。これは「ドット絵のドットを細かくしていき、精緻にして」と頼んでいったものだ。この辺はChatと同じで望む成果を生み出すには連鎖的にコミュニケーションをしていくのが良いようだ。
ただ一度結果として出力された画像は、かなり強固に後に出力される画像へイメージが引き継がれるようだ、ということも分かった。簡単に言うと、コードを書いてもらって「その処理を削除して」ということは割とできたが、「前の画像のこの要素を削除して」というのはかなり無視される。このため、基本的に画像へは追加的に要素、ニュアンスを追加していくのが良いようだ。
この辺はChatGPT自身が考える(出力している)のか、ChatGPTが考えた文章をDALL-E3に渡しているのか、の違いが現れているのだと思う。要するにDALL-E3はだいぶ言うことをきかない。
で、全く言うことを聞かなすぎて気がついたことだけれど、やはりどうも日本語の解釈が弱い。内部実装はあまり分かっていないけれど、ChatGPTの判断で日本語をそのままDALL-E3に渡していることがある気がする。「卓球」と言ったのに、ひたすら「サッカー」が出てくることが多かった。どうやら英語で渡してもらわなきゃならない、あるいはちゃんと伝わるように伝えてもらわなきゃならないのだと思う。たぶん、いま、ChatGPTは橋渡しに過ぎない。
その他感じたことも、まとめるとこうだ。
- 合格点だと思った画像に追加して要素や概念やニュアンスを伝えていくと絵のクオリティが上げやすい。
- 指示に失敗したと思ったら、「それはナシで」というのは基本的に聞いてくれないので、過去の指示を修正してやり直した方が早い。
- 英語の解釈を渡してもらった方が圧倒的に意図を汲んでくれる画像を生成してくれる。
- 細かく要素を指示するよりは、空気感や世界観を伝えた方が行間を汲み取ってくれることが多い。
- ファンタジー的なイラスト、アニメ調は強い、写実的な画像は今ひとつだと感じる。
- 「横長の画像」、「縦長の画像」と指定するとある程度は出力してくれる。
- ある程度納得の行く完成度が出力されたあとで、もう少し粘ってもそのカンバセーション内ではそれ以上のものはなかなか出ない。
- 「この画像を出力するプロンプトを教えて」でDALL-E3に渡しているのであろうプロンプトを教えてくれる。これをそのまま渡せるのと、同じプロンプトを渡しても微妙に変化をつけてくれる「揺らぎ」があるので、6の時のような「あともうちょっとなんだけどなぁ」というときはこの方法で完成度を高めたりできる。
というようなことに気がついた。たぶん画像生成系AIをすでに使い倒しておられる方々の中では、どれも常識扱いのものなのかもしれない。
それでできたのがこんなテンプレだ。
## ルール
あなたが出力する画像は、左上が1、右上が2、左下が3、右下が4として、二回目以降、次から私は好みの番号だけを指定します。あなたは指定された番号に基づき、私の好みと思われる指定された番号の画像のニュアンスを含み、新たな画像を4枚出力してください。出力する4枚は好みを分かりやすくするため、モデル、タッチなどをそれぞれ適度に差をつけてください。またDALL-E3には、常に英語で丁寧で細かな指示を送ってください。初回出力だけ私から指示をします。
## 初回出力指示
これで初回出力指示に方向性を与えて、あとは数字を指定していくだけでクオリティをそれなりに高めることができるようになった。これで良いのが、自分で下手に方向性を導入しなくても、ある程度ChatGPT + DALL-E3のインスピレーションに委ねることができるので、自分ではイメージできない描写がどんどん出てくる。ただこの方法だと割とすぐに制限に引っかかる。制限というのはChatGPT4の制限と、DALL-E3の制限が別途にあるようだ。
例えばこんな感じで使ってた。
「扉絵の〜」とか「ライトノベルに出てくる〜」というような言葉は割と使える。「漫画の〜」とかを入れてしまうと、変なコマ割りをしてしまうこともあったので。そういうキーワードがどこかにあるんだろうな。できた画像はこんな感じだ。
悪くない。ちなみにこの子が引くことで切れないのは、西洋のノコギリとのハーフで、西洋のノコギリは押して切るのだ、だからこの子は「押しノコ」なのだ、という設定を考えてあるんだけれど、誰にも突っ込まれなかった。
女の子もなんかある程度やってたら、かわいいものが出てくるようになった。「魔法使い」が強い。そのワードを入れた女の子というだけで割と可愛くなる。が、「勇者」はあまり発展しない。この辺りは学習データの方向性なのかもしれない。「ハイクオリティなアニメ調の〜」と入れると、いわゆる「萌え系の〜」に近くなる。
かわいい。許す。
変わったところでは商品開発に使えるんじゃないだろうかと思って試すことにした。
新しいジンの商品名と瓶のパッケージをデザインします。新しいジンはボタニカルが特徴的で、桜の葉を用いています。瓶の形からデザインしてください。常にDALL-E3には英語で丁寧に細かな指示を出してください。
では、そのTV CMを作りたいと思います。絵コンテとしてこのジンにおける、もっとも象徴的な一コマをラフ画で描いてください。常にDALL-E3には英語で丁寧に細かな指示を出してください。
では、右下の絵コンテでCMの撮影を進めることにします。先程のジンのパッケージのいずれかと、右下の絵コンテを組み合わせて、このシーンを実写化してください。俳優、服装、時間帯、すべてあなたの判断で最適なものを当てはめてください。常にDALL-E3には英語で丁寧に細かな指示を出してください。
いや……、できてんじゃん、もう……。結構、「前のを使え」とかはガン無視され気味だけど、それを除いたとしてもかなりのクオリティでイメージを形にできちゃっている。この俳優もフィットしてるし、何ならその着てる服、全然見かけない組み合わせだけれど、違和感なく和服を取り入れたファッション、微妙にほしいもん。
いやー凄いな、たぶんこの辺は得意分野なんだろう。
色々試してみて、これが今の到達点だろうか。画像の下にあるのがプロンプトで、これをそのままChatGPT + DALL-E3に打ち込めば、ある程度再現性高く、同質の画像を生成してくれる。もっと色んなことを試していきたい。
Anime-style illustration (wide): The same powerful female sorceress, now standing in the shallows of a nighttime sea, bathed in moonlight. As she releases an overwhelming spell, the energy effect is grandiose, filling the entire image. The sea reacts with waves and intense winds, causing her ethereal, highly translucent clothes to billow. The sky is dominated by a bright moon, casting silvery reflections on the water.
例えばこのサイトのファビコンをやっと作ることができた。「おもいでテスタメントで想起される個人ブログのアイコンを作ってくれ」で砂時計が出てきたのには素直に驚いた。そうやって遅かれ早かれ、人類は「ジャッジをしていく」のが仕事になりそうな気がしている。悪いことじゃない、とは思っている。
気に入った画像はNotionに残していくことにした。
アークナイツ
偉い。勲章取得は絶望的と思われた生息演算を全部クリアした。めちゃくちゃ時間がかかった。モンハンコラボ、危機契約と同時にやっていいもんじゃない。ただ慣れれば慣れるほどすげぇ楽しかったな。マップのクラフト要素があって、「俺TUEEEEE」マップが作れるようになってたし、それにしても敵の強さが絶妙。とは言っても、END2、3まではクリアできなかった。これは恒常であってもいいのにな。
そして危機契約 #12 クリア。今回は頑張ろうと思ってたけど難しすぎた。等級18をかろうじて達成。まぁ生息演算もやってたしね。これで危機契約は最後だっていうけど、このあとは何になるんだろうな。さらばだ、危機契約。
マジック・ザ・ギャザリング・アリーナ
アニメ・映画
見終わった。メガネってか髪の描写が凄い。