06 دی 1402
0 دیدگاه

رقابت نسخه‌های جدید هوش مصنوعی تولید کننده تصویر بر اساس متن

فهرست مطالب

چند روز پیش، ما یک هدیه اولیه کریسمس از تیم Midjourney با انتشار ناگهانی مدل پایه V6 داشتیم که نوید درک سریع و تولید متن بهتر از مدل قبلی آن را می‌داد. یک هفته قبل از آن نیز شرکت متا یک مولد تصویر جدید هوش مصنوعی را معرفی کرد که به اعتقاد من بهترین مدل رایگان در حال حاضر است.

زمان آن رسیده است که بین محبوب‌ترین تولیدکننده‌های تصویر هوش مصنوعی بازار مقایسه‌ای انجام دهیم : Midjourney ، DALL-E ، Firefly ، Stable Diffusion و Meta .

به نظر شما کدامیک در صدر قرار می گیرد؟

مقایسه خروجی تولیدکنندگان تصویر هوش مصنوعی

این بزرگترین مقایسه‌ای است که تا به حال انجام داده‌ایم و بدون هیچ اغراق و تعصبی در مورد هر یک به تفکیک، توضیحات لازم را ارائه نموده‌ایم. همچنین تصاویری که بیشتر مورد پسند ما بوده در این پست قرار داده‌ شده است.

با رونمایی دو تصویرساز هوش مصنوعی Meta و Midjourney V6، رقابت برای بهترین تولیدکننده تصویر هوش مصنوعی شدیدتر می‌شود. بنابراین، بیایید ببینیم که چگونه نسخه‌های جدید هوش مصنوعی Midjourney، Meta، DALL-E 3، Stable Diffusion XL، و Adobe Firefly 2 برای رقابت بعد از این در مقابل یکدیگر قرار می‌گیرند.

دراین مقایسه سعی بر این است که توانایی تصویرسازی آخرین نسخه 5 هوش مصنوعی برتر حال حاضر را در ارائه بهترین تصویر در مقابل متن درخواستی مورد بررسی قرار دهیم. در ادامه با ما همراه باشید . . .

پرتره واقع گرایانه Realistic (Portraits)

 

پرتره نزدیک از یک ماهیگیر هوازده، چین و چروک دور چشم، اسپری نمک روی ریش، بافت های فوق واقعی، نورپردازی سینمایی

 

Midjourney
Meta
DALL-E 3
Stable Diffusion
Adobe Firefly

در بین پنج مولد تصویر، تنها Midjourney و Meta موفق به ایجاد تصاویری شدند که تست را با موفقیت پشت سر بگذارند. پرتره Firefly بیش از حد مومی است و ریش ماهیگیر مصنوعی به نظر می‌رسد. Stable Diffusion اصلا واقع‌گرایانه به نظر نمی‌رسد، بلکه بیشتر شبیه یک نقاشی رنگ روغن است. DALL-E 3 می توانست بهتر باشد، اما روی چین و چروک‌ها بیش از حد تاکید می‌کند.

به جزئیات تصویر Midjourney نگاه کنید. وقتی بزرگنمایی کنید، می‌توانید تک تک تارهای مو، خطوط سنی، حتی انعکاس نور در چشمان او را ببینید. همچنین دارای نور و عمق میدان ثابت است. Meta در رده دوم قرار دارد، اما تصویر همچنان جلوه نرمی دارد که در این مرحله یک علامت تجاری برای تولیدکنندگان تصویر هوش مصنوعی محسوب می‌شود.

منظره واقع‌گرایانه (Realistic Landscape)

 

خط ساحلی ناهموار فرسایش یافته توسط امواج بی امان، صخره های سر به فلک کشیده که به شکل طاق های دراماتیک و خلیج های پنهان حجاری شده اند، پرندگان دریایی در بالا اوج می گیرند، مه در امتداد افق می چرخد ، واقع گرایی

 

Midjourney
Firefly
DALL-E 3
Meta
Stable Diffusion

بار دیگر، Midjourney برنده این دور است. V6 در مورد تصاویر واقعی واقعاً یک تغییر دهنده بازی بوده است. تصاویر خروجی Midjourney هنوز کمی سبک و واضح هستند، اما اکنون می‌توانند به عنوان یک تصویر واقعی ارائه شوند. با این حال، اگر فقط به دنبال یک تصویر استوک منظره هستید، Firefly ممکن است گزینه بهتری برای شما باشد.

 

در مورد سه مورد دیگر: Stable Diffusion و Meta در واقع بسیار مناسب هستند، اما وقتی بر روی صخره‌ها بزرگ‌نمایی شود، مانند توده‌ای از خاک رس صاف به نظر می‌رسند. DALL-E 3 تصمیم گرفت نقاشی دیجیتال بسازد، چیزی که مد نظر ما نبود.

ورزشی واقع‌گرایانه (Realistic Sports)

 

لحظه دریافت آخرین امتیاز جهت برد نهایی قهرمانی جهان توسط یک بازیکن پیکل بال

 

Midjourney
Dall-E
Meta
Stable Diffusion
FireFly

بسیار خوب. اینجا چیزهای زیادی برای بازکردن وجود دارد.

 

Midjourney برنده واضح این دور است. این ورزش را کاملاً در حال رشد سریع و انرژی جنبشی را در پشت آن قرار می‌دهد. Dall-E می توانست خوب باشد اما از تکرار یک عنصر رنج می برد.

 

حرکت به سمت سه تصویر پایین، به نظر می‌رسد Adobe Firefly در بین آنها بهترین است، اما این یک عکس واقعی نیست، هیچ دست و پاچه‌ای وجود ندارد و بازیکن فقط سه انگشت دارد. در مورد Stable Diffusion، بازیکن از تجهیزات مناسب استفاده نمی‌کند، پای او در حالتی است که انگار تور را شکسته است و صورتش در حال ذوب شدن است. به معنای واقعی کلمه.

 

بدون گزافه‌گویی تصویر متا بیشتر شبیه یک طنز خنده دار است.

فشن (Fashion)

 

یک مرد شیک پوش، با استایل نارنجی و سبز، گیاهان، عکاسی پست مدرن، بازی با سایه، فیگور زیبا، مد هنر نو

 

Midjourney
Meta
Dall-E
Stable Diffusion
FireFly

Midjourney بیشتر شبیه عکاسی مد واقعی است، پس لایق مقام اول است. تنها مشکل این است که سایه‌ها قسمت‌هایی از لباس را مبهم می‌کند، که در وهله اول باید تمرکز بیشتر بر روی این قسمتها باشد. Meta بهترین حالت را ایجاد کرد، اما اگر می‌توانستیم کل لباس را ببینیم، بهتر نیز می‌شد.

 

DALL-E 3 خیلی خوب است ولی سایه سوژه خیلی آزاردهنده است. Stable Diffusion عکاسی خوبی دارد، اما یک مشکل رندر، ناقص بودن نوک انگشت‌ها می‌باشد. Adobe Firefly بسیار واقع گرایانه است، اما از دستورالعمل‌ و ظرافت‌های آن پیروی نکرد. اگر برای مدهای غیررسمی بود، پذیرفتنی بود.

معماری و طراحی داخلی (Architecture & Interior Design)

 

یک اتاق خواب واقعی، طراحی داخلی، ساعت طلایی، پر سر و صدا، شهری، جوی

 

Midjourney
Meta
Dall-E
Adobe Firefly
Stable Diffusion

از نظر واقع گرایی، فقط Midjourney و Meta موفق به قبولی در این آزمون طراحی داخلی شدند. من واقعاً Meta را در این مرحله ترجیح می‌دهم زیرا شبیه یک اتاق خوابگاه واقعی است. مطمئنا، هنوز هم برخی از اشتباهات وجود دارد، اما از دور قابل توجه نیست. خروجی Midjourney نیز خوب است، اما تفاوت‌های ظریف آن احساس می‌شود، زیرا این یک طراحی کاربردی اتاق خواب نیست.

طراحی کاراکتر (Character Design)

 

طراحی شخصیت، انسانی جنگجو، تصویرسازی جنگلی، الهام گرفته از فانتزی زیاد

 

Dall-E
Stable Diffusion
FireFly
Midjourney
Meta

اثر هنری DALL-E 3 در این دور بسیار چشمگیر است. اگر به دنبال یک شخصیت غیر متحرک برای طراحی بازی هستید، این یک الگوی شگفت‌انگیز است. Stable Diffusion زمانی منطقی‌تر می‌شود که یک کاراکتر برای خود یا یک قهرمان بازی طوفان فکری طراحی کند.

 

Midjourney می‌توانست خوب باشد، اما تصمیم برای نمایش ندادن چهره سوژه برای طراحی شخصیت‌ها هیچ معنایی ندارد. Firefly برای سلیقه من کمی بیش از حد معمولی است و به نظر، یک NPC از یکی از بازی‌های قدیمی Adobe Flash است. Meta نیز یک کاراکتر عالی طراحی کرده است، اما استدلال من می‌گوید که این یک بازی جنگی نیست.‌

رندرهای سه‌بعدی محصول (3D Product Renders)

 

عکاسی تجاری، شیشه عطر، پس زمینه آبی پاستلی، رویایی، نورپردازی ملایم، در مرکز تعدادی گل

 

Midjourney
Meta
DALL-E 3
Adobe Firefly
Stable Diffusion

من واقعاً تحت تأثیر قرار گرفتم چون همه اینها خوب بودند. با این حال، Midjourney V6 با یک ورودی زیبای دیگر همچنان در لیگ منحصر به فرد خود قرار دارد. تصویر رویایی و همانند عکس آتلیه‌ای است و کنتراست‌های بسیار خوبی دارد. متا نیز یک بار دیگر در رده دوم قرار دارد.

هنر دیجیتال (Digital Art)

 

صحنه هنری پیکسلی، سوپرمارکتی ساکت و خالی در شب، جوی، 16 بیتی

 

DALL-E 3
Midjourney
Meta
Adobe Firefly
Stable Diffusion

این نظر شخصی من است، اما من تصویر Midjourney و DALL-E را بیشتر ترجیح می‌دهم، زیرا کاملاً حال و هوای “اتمسفر” مورد نظر من را شبیه‌سازی کرده‌اند. همچنین این اولین بار است که Midjourney برای من در رتبه دوم قرار می‌گیرد، بیشتر به این دلیل که وقتی بزرگنمایی می‌کنید، توهم «هنر پیکسلی» از بین می‌رود.

Stable Diffusion در واقع ورود بسیار خوبی داشت، اما محصولات موجود در قفسه‌ها با نگاه دقیق‌تر به درستی ارائه نشده‌اند. Firefly دو مورد اول را درست ایجاد نکرد زیرا غرفه‌های میوه را در داخل یک خواربارفروشی ایجاد کرد که نشان می‌دهد فاقد تفاوت‌های ظریف است. تصویر Meta تا حد زیادی در بدترین حالت قرار می‌گیرد ، زیرا در درک متنی و هم در تقلید از هنر پیکسل ناموفق ظاهر شد.

لوگو (LOGO)

 

لوگویی برای آرایشگاه، توسط Paul Rand، پس زمینه تمیز، مینیمالیست

 

Midjourney
DALL-E 3
Meta
Adobe Firefly
Stable Diffusion

 

این نه یک حالت نزدیک، بلکه یک برد واقعی برای Midjourney است. هر کسی می‌توانست انتظار یک لوگوی عمومی را داشته باشد، اما Midjourney با گرفتن یک میله آرایشگر و تبدیل رنگ‌ها به چیزی شبیه ضربه‌های قلمو، کار جدیدی را انجام داد، کاری بسیار ساده و در عین حال بسیار موثر و منحصر به فرد. جدای از اینکه درخواستی طولانی را ارائه ندادیم، این احتمالاً بهترین حالت برای نمایش تفاوت‌های ظریف بهبود یافته هوش مصنوعی تصویرساز Midjourney است.

DALL-E 3 نیز در اینجا شایسته تمجید است زیرا توانست یک لوگو با طراحی خوب و هر چند معمولی را ایجاد کند. موضوع مهم و جالب اینجا بود که وقتی فقط یک لوگو درخواست کردم، دو لوگوی متفاوت ایجاد کرد.

تولید متن (Text Generation)

 

یک صفحه کٌمیک در مورد تونی استارک که با پریشانی می گوید “Captain is dead“.

 

Midjourney
DALL-E 3
Adobe Firefly
Meta
Stable Diffusion

جای تعجب نیست که DALL-E 3 در این مرحله در میان دو تصویر برتر ما قرار دارد، اما برای اولین بار از زمانی که شروع به مقایسه تولیدکنندگان تصویر هوش مصنوعی کرده‌ایم، آن را برای تولید متن بهترین نمی‌دانم. اما بیایید ابتدا با Stable Diffusion ، Meta و Firefly شروع کنیم که همه آنها حتی سعی نکردند متنی خوانا ایجاد کنند. فاجعه زمانی رخ داد که فکر نمی کنم Firefly بداند اصلا تونی استارک چه کسی است!

وقتی Midjourney V6 منتشر شد، شرکت میزبان، بر بهبود تولید متن خود تأکید داشته و این موضوع به خوبی در خروجی تصاویر آن نمایان است. به درست بودن متن نگاه کنید که حتی نیازی به ویرایش ندارد. در واقع Midjourney در حال حاضر بهترین هوش مصنوعی تولید تصویر محسوب می‌شود.

حالا بیایید به سراغ DALL-E 3 برویم، ممکن است به خوبی Midjourney V6 نباشد اما تقریباً نزدیک به آن است. باگی که این وسط وجود دارد این است که تونی استارک فریاد می زند “کاپیتان مرده است” در حالی که کاپیتان آمریکا پشت سر او در تصویر وجود دارد!

انتزاعی با جزئیات بالا (High Context)

 

زنی میانسال آسیایی‌تبار، موهای تیره‌ با رگه‌های نقره‌ای، شکسته و تراشیده شده به نظر می‌رسد و به‌ طور پیچیده در دریایی از چینی‌های شکسته جاسازی شده است. ظروف چینی با طرح‌های رنگ‌آمیزی در ترکیبی هماهنگ از آبی براق و مات، سبز، نارنجی و قرمز می‌درخشد و رقص او را در کنار هم به صورت سورئال و حرکت و سکون به تصویر می‌کشد. رنگ پوست او، رنگ روشنی مانند چینی است و کیفیتی تقریباً عرفانی به فرم او می بخشد.

 

DALL-E
Stable Diffusion
Meta
Adobe Firefly
Midjourney

این مرحله بسیار چشمگیر بود. اگر ما فقط در مورد درک مطلب صحبت می‌کنیم، پس همه این تصاویر این آزمون را پشت سر گذاشته‌اند. بنابراین، ما باید در نظر بگیریم که کدام یک آن را به بهترین شکل ارائه داده است.

من این متن درخواستی را از صفحه اعلامیه خود هوش مصنوعی DALL-E 3 گرفتم، یه همین خاطر شکی نیست که خروجی آن باید به بهترین شکل ممکن باشد. بعد از تصویر خروجی DALL-E 3 رتبه بندی بقیه از 1 تا 4 دشوار است.

Stable Diffusion و Midjourney بهترین خروجی ها را داشتند، اما ترک‌های شکستگی آن به نظر من شبیه “چینی شکسته” نیست، بیشتر شبیه پوسته‌های یک دیوار رنگ شده قدیمی در حال فرو ریختن است. Firefly تقریباً عالی بود، اما «نقوش رنگ پاشیدن» را در نظر نگرفته است. در همین حال، Meta تمام جنبه‌های متن درخواستی را به درستی انجام داد، اما به نظر من یک تصویر زیرمجموعه ایجاد کرد.

 

با این همه باید ببینیم که هرکدام در چه چیزی قوی تر هستند؟

در جدول زیر به طور کلی و خلاصه به برجسته ترین مزایا و معایب این پنج هوش مصنوعی اشاره شده است.

هوش مصنوعیمزایامعایب
Midjourneyیک پیشرفت شگفت انگیز بعد از نسخه V5.2 است و هر مشکلی که در نسخه قبلی وجود داشت برطرف کرده است. به نظر من هم برای هنر واقعی و دیجیتال و هم برای تولید متن بهترین است. همچنین بهترین هوش مصنوعی در تقلید از سبک‌های هنری خاص می باشد، کاری که دیگر تولیدکنندگان تصویر هوش مصنوعی به دلیل سیاست‌ها و دستورالعمل‌ها نمی‌توانند انجام دهند.ممکن است در حال حاضر بهترین باشد، اما هنوز در تولید متون طولانی مشکل دارد. منحنی یادگیری برای دستورات نیز با انتشار V6 بسیار بهبود یافته است.
DALL-E 3بهترین برای درک سریع و جایگزین عالی برای Midjourney برای تولید متون است. همچنین بهترین در ایجاد هنر پیکسلی.

می‌تواند از برخی کارها در تولید تصاویر واقعی، به‌ ویژه تصاویری با چهره افراد استفاده کند.

Metaایجاد تصاویر واقعی را به خوبی انجام می‌دهد، به خصوص عکس‌های پرتره و منظره.
متا در حال حاضر بهترین تولیدکننده تصویر هوش مصنوعی رایگان در بازار است.

هنوز نمی‌تواند تولید متن را به طور قابل اعتمادی انجام دهد. در تمام تست‌ها، ثابت شده است که با هنر پیکسلی بسیار مشکل دارد.
Adobe FireflyFirefly برای هنرمندان دیجیتال که از مجموعه Adobe برای ویرایش تصاویر استفاده می‌کنند، بهترین گزینه است.

مانند بسیاری از مولدها، Firefly نیز هنوز نمی‌تواند متن تولید کند. همچنین با ایجاد آثار هنری بر اساس چهره شخصیت‌های موجود مخالف است.
Stable Diffusion XLیکی از تولیدکنندگان تصویر هوش مصنوعی خوب محسوب می شود که می‌تواند درخواست های طولانی را به صورت رایگان انجام دهد.

نمی‌تواند پرتره‌های واقعی را بدون تأکید بیش از حد بر ویژگی‌های خاص ایجاد کند.

با انتشار Midjourney V6 ، ساختن پرونده برای تولیدکننده‌های تصویر هوش مصنوعی دیگر سخت‌تر و سخت‌تر می‌شود. مدل پایه در حال حاضر در لیگ مخصوص به خود قرار دارد، و زمانی که آنها به طور رسمی آن را منتشر کنند بهتر می شود، به خصوص که آنها از نظرات کاربران برای بهبود مدل خود کمک می‌گیرند.

ما حتی به سراغ ویژگی‌های سفارشی‌سازی قوی آن، مانند ارتقاء مقیاس بهبودیافته، تغییرات، و سایر پارامترهای سریع نرفته‌ایم. این خیلی شگفت انگیز است.

با این حال، اگر فقط یک کاربر معمولی هستید، Meta سرویس دهنده خوبی است زیرا رایگان است. و اگر به دنبال مدلی با درک شگفت انگیز هستید، DALL-E ( با ChatGPT ) همچنان بهترین مدل در بازار است.

Midjourney V6 یک نقطه عطف واقعی برای هنر هوش مصنوعی است. تنها سوالی که مطرح می‌شود این است که آینده همه آنها به کجا ختم خواهد شد!

منبع: goldpenguin.org

منتظر ثبت نظرات و دیدگاه های ارزشمند شما عزیزان هستیم.

برای مشاهده سایر مقالات بر روی این لینک کلیک نمائید.

سهراب اکبری

سهراب اکبری

مدیر سایت عکسرنگ. با تجربه حدودا ده ساله در زمینه طراحی گرافیک و نقاشی دیجیتال و علاقه‌مند به یادگیری بیشتر و آموزش در زمینه نرم افزارهای فتوشاپ، ایلوستریتور و ایندیزاین

  • چنانچه دیدگاهی توهین آمیز باشد و متوجه اشخاص مدیر، نویسندگان و سایر کاربران باشد تایید نخواهد شد.
  • چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
آموزش ایلوستریتور