رقابت نسخههای جدید هوش مصنوعی تولید کننده تصویر بر اساس متن
فهرست مطالب
چند روز پیش، ما یک هدیه اولیه کریسمس از تیم Midjourney با انتشار ناگهانی مدل پایه V6 داشتیم که نوید درک سریع و تولید متن بهتر از مدل قبلی آن را میداد. یک هفته قبل از آن نیز شرکت متا یک مولد تصویر جدید هوش مصنوعی را معرفی کرد که به اعتقاد من بهترین مدل رایگان در حال حاضر است.
زمان آن رسیده است که بین محبوبترین تولیدکنندههای تصویر هوش مصنوعی بازار مقایسهای انجام دهیم : Midjourney ، DALL-E ، Firefly ، Stable Diffusion و Meta .
به نظر شما کدامیک در صدر قرار می گیرد؟
مقایسه خروجی تولیدکنندگان تصویر هوش مصنوعی
این بزرگترین مقایسهای است که تا به حال انجام دادهایم و بدون هیچ اغراق و تعصبی در مورد هر یک به تفکیک، توضیحات لازم را ارائه نمودهایم. همچنین تصاویری که بیشتر مورد پسند ما بوده در این پست قرار داده شده است.
با رونمایی دو تصویرساز هوش مصنوعی Meta و Midjourney V6، رقابت برای بهترین تولیدکننده تصویر هوش مصنوعی شدیدتر میشود. بنابراین، بیایید ببینیم که چگونه نسخههای جدید هوش مصنوعی Midjourney، Meta، DALL-E 3، Stable Diffusion XL، و Adobe Firefly 2 برای رقابت بعد از این در مقابل یکدیگر قرار میگیرند.
دراین مقایسه سعی بر این است که توانایی تصویرسازی آخرین نسخه 5 هوش مصنوعی برتر حال حاضر را در ارائه بهترین تصویر در مقابل متن درخواستی مورد بررسی قرار دهیم. در ادامه با ما همراه باشید . . .
پرتره واقع گرایانه Realistic (Portraits)
پرتره نزدیک از یک ماهیگیر هوازده، چین و چروک دور چشم، اسپری نمک روی ریش، بافت های فوق واقعی، نورپردازی سینمایی
در بین پنج مولد تصویر، تنها Midjourney و Meta موفق به ایجاد تصاویری شدند که تست را با موفقیت پشت سر بگذارند. پرتره Firefly بیش از حد مومی است و ریش ماهیگیر مصنوعی به نظر میرسد. Stable Diffusion اصلا واقعگرایانه به نظر نمیرسد، بلکه بیشتر شبیه یک نقاشی رنگ روغن است. DALL-E 3 می توانست بهتر باشد، اما روی چین و چروکها بیش از حد تاکید میکند.
به جزئیات تصویر Midjourney نگاه کنید. وقتی بزرگنمایی کنید، میتوانید تک تک تارهای مو، خطوط سنی، حتی انعکاس نور در چشمان او را ببینید. همچنین دارای نور و عمق میدان ثابت است. Meta در رده دوم قرار دارد، اما تصویر همچنان جلوه نرمی دارد که در این مرحله یک علامت تجاری برای تولیدکنندگان تصویر هوش مصنوعی محسوب میشود.
منظره واقعگرایانه (Realistic Landscape)
خط ساحلی ناهموار فرسایش یافته توسط امواج بی امان، صخره های سر به فلک کشیده که به شکل طاق های دراماتیک و خلیج های پنهان حجاری شده اند، پرندگان دریایی در بالا اوج می گیرند، مه در امتداد افق می چرخد ، واقع گرایی
بار دیگر، Midjourney برنده این دور است. V6 در مورد تصاویر واقعی واقعاً یک تغییر دهنده بازی بوده است. تصاویر خروجی Midjourney هنوز کمی سبک و واضح هستند، اما اکنون میتوانند به عنوان یک تصویر واقعی ارائه شوند. با این حال، اگر فقط به دنبال یک تصویر استوک منظره هستید، Firefly ممکن است گزینه بهتری برای شما باشد.
در مورد سه مورد دیگر: Stable Diffusion و Meta در واقع بسیار مناسب هستند، اما وقتی بر روی صخرهها بزرگنمایی شود، مانند تودهای از خاک رس صاف به نظر میرسند. DALL-E 3 تصمیم گرفت نقاشی دیجیتال بسازد، چیزی که مد نظر ما نبود.
ورزشی واقعگرایانه (Realistic Sports)
لحظه دریافت آخرین امتیاز جهت برد نهایی قهرمانی جهان توسط یک بازیکن پیکل بال
بسیار خوب. اینجا چیزهای زیادی برای بازکردن وجود دارد.
Midjourney برنده واضح این دور است. این ورزش را کاملاً در حال رشد سریع و انرژی جنبشی را در پشت آن قرار میدهد. Dall-E می توانست خوب باشد اما از تکرار یک عنصر رنج می برد.
حرکت به سمت سه تصویر پایین، به نظر میرسد Adobe Firefly در بین آنها بهترین است، اما این یک عکس واقعی نیست، هیچ دست و پاچهای وجود ندارد و بازیکن فقط سه انگشت دارد. در مورد Stable Diffusion، بازیکن از تجهیزات مناسب استفاده نمیکند، پای او در حالتی است که انگار تور را شکسته است و صورتش در حال ذوب شدن است. به معنای واقعی کلمه.
بدون گزافهگویی تصویر متا بیشتر شبیه یک طنز خنده دار است.
فشن (Fashion)
یک مرد شیک پوش، با استایل نارنجی و سبز، گیاهان، عکاسی پست مدرن، بازی با سایه، فیگور زیبا، مد هنر نو
Midjourney بیشتر شبیه عکاسی مد واقعی است، پس لایق مقام اول است. تنها مشکل این است که سایهها قسمتهایی از لباس را مبهم میکند، که در وهله اول باید تمرکز بیشتر بر روی این قسمتها باشد. Meta بهترین حالت را ایجاد کرد، اما اگر میتوانستیم کل لباس را ببینیم، بهتر نیز میشد.
DALL-E 3 خیلی خوب است ولی سایه سوژه خیلی آزاردهنده است. Stable Diffusion عکاسی خوبی دارد، اما یک مشکل رندر، ناقص بودن نوک انگشتها میباشد. Adobe Firefly بسیار واقع گرایانه است، اما از دستورالعمل و ظرافتهای آن پیروی نکرد. اگر برای مدهای غیررسمی بود، پذیرفتنی بود.
معماری و طراحی داخلی (Architecture & Interior Design)
یک اتاق خواب واقعی، طراحی داخلی، ساعت طلایی، پر سر و صدا، شهری، جوی
از نظر واقع گرایی، فقط Midjourney و Meta موفق به قبولی در این آزمون طراحی داخلی شدند. من واقعاً Meta را در این مرحله ترجیح میدهم زیرا شبیه یک اتاق خوابگاه واقعی است. مطمئنا، هنوز هم برخی از اشتباهات وجود دارد، اما از دور قابل توجه نیست. خروجی Midjourney نیز خوب است، اما تفاوتهای ظریف آن احساس میشود، زیرا این یک طراحی کاربردی اتاق خواب نیست.
طراحی کاراکتر (Character Design)
طراحی شخصیت، انسانی جنگجو، تصویرسازی جنگلی، الهام گرفته از فانتزی زیاد
اثر هنری DALL-E 3 در این دور بسیار چشمگیر است. اگر به دنبال یک شخصیت غیر متحرک برای طراحی بازی هستید، این یک الگوی شگفتانگیز است. Stable Diffusion زمانی منطقیتر میشود که یک کاراکتر برای خود یا یک قهرمان بازی طوفان فکری طراحی کند.
Midjourney میتوانست خوب باشد، اما تصمیم برای نمایش ندادن چهره سوژه برای طراحی شخصیتها هیچ معنایی ندارد. Firefly برای سلیقه من کمی بیش از حد معمولی است و به نظر، یک NPC از یکی از بازیهای قدیمی Adobe Flash است. Meta نیز یک کاراکتر عالی طراحی کرده است، اما استدلال من میگوید که این یک بازی جنگی نیست.
رندرهای سهبعدی محصول (3D Product Renders)
عکاسی تجاری، شیشه عطر، پس زمینه آبی پاستلی، رویایی، نورپردازی ملایم، در مرکز تعدادی گل
من واقعاً تحت تأثیر قرار گرفتم چون همه اینها خوب بودند. با این حال، Midjourney V6 با یک ورودی زیبای دیگر همچنان در لیگ منحصر به فرد خود قرار دارد. تصویر رویایی و همانند عکس آتلیهای است و کنتراستهای بسیار خوبی دارد. متا نیز یک بار دیگر در رده دوم قرار دارد.
هنر دیجیتال (Digital Art)
صحنه هنری پیکسلی، سوپرمارکتی ساکت و خالی در شب، جوی، 16 بیتی
این نظر شخصی من است، اما من تصویر Midjourney و DALL-E را بیشتر ترجیح میدهم، زیرا کاملاً حال و هوای “اتمسفر” مورد نظر من را شبیهسازی کردهاند. همچنین این اولین بار است که Midjourney برای من در رتبه دوم قرار میگیرد، بیشتر به این دلیل که وقتی بزرگنمایی میکنید، توهم «هنر پیکسلی» از بین میرود.
Stable Diffusion در واقع ورود بسیار خوبی داشت، اما محصولات موجود در قفسهها با نگاه دقیقتر به درستی ارائه نشدهاند. Firefly دو مورد اول را درست ایجاد نکرد زیرا غرفههای میوه را در داخل یک خواربارفروشی ایجاد کرد که نشان میدهد فاقد تفاوتهای ظریف است. تصویر Meta تا حد زیادی در بدترین حالت قرار میگیرد ، زیرا در درک متنی و هم در تقلید از هنر پیکسل ناموفق ظاهر شد.
لوگو (LOGO)
لوگویی برای آرایشگاه، توسط Paul Rand، پس زمینه تمیز، مینیمالیست
این نه یک حالت نزدیک، بلکه یک برد واقعی برای Midjourney است. هر کسی میتوانست انتظار یک لوگوی عمومی را داشته باشد، اما Midjourney با گرفتن یک میله آرایشگر و تبدیل رنگها به چیزی شبیه ضربههای قلمو، کار جدیدی را انجام داد، کاری بسیار ساده و در عین حال بسیار موثر و منحصر به فرد. جدای از اینکه درخواستی طولانی را ارائه ندادیم، این احتمالاً بهترین حالت برای نمایش تفاوتهای ظریف بهبود یافته هوش مصنوعی تصویرساز Midjourney است.
DALL-E 3 نیز در اینجا شایسته تمجید است زیرا توانست یک لوگو با طراحی خوب و هر چند معمولی را ایجاد کند. موضوع مهم و جالب اینجا بود که وقتی فقط یک لوگو درخواست کردم، دو لوگوی متفاوت ایجاد کرد.
تولید متن (Text Generation)
یک صفحه کٌمیک در مورد تونی استارک که با پریشانی می گوید “Captain is dead“.
جای تعجب نیست که DALL-E 3 در این مرحله در میان دو تصویر برتر ما قرار دارد، اما برای اولین بار از زمانی که شروع به مقایسه تولیدکنندگان تصویر هوش مصنوعی کردهایم، آن را برای تولید متن بهترین نمیدانم. اما بیایید ابتدا با Stable Diffusion ، Meta و Firefly شروع کنیم که همه آنها حتی سعی نکردند متنی خوانا ایجاد کنند. فاجعه زمانی رخ داد که فکر نمی کنم Firefly بداند اصلا تونی استارک چه کسی است!
وقتی Midjourney V6 منتشر شد، شرکت میزبان، بر بهبود تولید متن خود تأکید داشته و این موضوع به خوبی در خروجی تصاویر آن نمایان است. به درست بودن متن نگاه کنید که حتی نیازی به ویرایش ندارد. در واقع Midjourney در حال حاضر بهترین هوش مصنوعی تولید تصویر محسوب میشود.
حالا بیایید به سراغ DALL-E 3 برویم، ممکن است به خوبی Midjourney V6 نباشد اما تقریباً نزدیک به آن است. باگی که این وسط وجود دارد این است که تونی استارک فریاد می زند “کاپیتان مرده است” در حالی که کاپیتان آمریکا پشت سر او در تصویر وجود دارد!
انتزاعی با جزئیات بالا (High Context)
زنی میانسال آسیاییتبار، موهای تیره با رگههای نقرهای، شکسته و تراشیده شده به نظر میرسد و به طور پیچیده در دریایی از چینیهای شکسته جاسازی شده است. ظروف چینی با طرحهای رنگآمیزی در ترکیبی هماهنگ از آبی براق و مات، سبز، نارنجی و قرمز میدرخشد و رقص او را در کنار هم به صورت سورئال و حرکت و سکون به تصویر میکشد. رنگ پوست او، رنگ روشنی مانند چینی است و کیفیتی تقریباً عرفانی به فرم او می بخشد.
این مرحله بسیار چشمگیر بود. اگر ما فقط در مورد درک مطلب صحبت میکنیم، پس همه این تصاویر این آزمون را پشت سر گذاشتهاند. بنابراین، ما باید در نظر بگیریم که کدام یک آن را به بهترین شکل ارائه داده است.
من این متن درخواستی را از صفحه اعلامیه خود هوش مصنوعی DALL-E 3 گرفتم، یه همین خاطر شکی نیست که خروجی آن باید به بهترین شکل ممکن باشد. بعد از تصویر خروجی DALL-E 3 رتبه بندی بقیه از 1 تا 4 دشوار است.
Stable Diffusion و Midjourney بهترین خروجی ها را داشتند، اما ترکهای شکستگی آن به نظر من شبیه “چینی شکسته” نیست، بیشتر شبیه پوستههای یک دیوار رنگ شده قدیمی در حال فرو ریختن است. Firefly تقریباً عالی بود، اما «نقوش رنگ پاشیدن» را در نظر نگرفته است. در همین حال، Meta تمام جنبههای متن درخواستی را به درستی انجام داد، اما به نظر من یک تصویر زیرمجموعه ایجاد کرد.
با این همه باید ببینیم که هرکدام در چه چیزی قوی تر هستند؟
در جدول زیر به طور کلی و خلاصه به برجسته ترین مزایا و معایب این پنج هوش مصنوعی اشاره شده است.
هوش مصنوعی | مزایا | معایب |
---|---|---|
Midjourney | یک پیشرفت شگفت انگیز بعد از نسخه V5.2 است و هر مشکلی که در نسخه قبلی وجود داشت برطرف کرده است. به نظر من هم برای هنر واقعی و دیجیتال و هم برای تولید متن بهترین است. همچنین بهترین هوش مصنوعی در تقلید از سبکهای هنری خاص می باشد، کاری که دیگر تولیدکنندگان تصویر هوش مصنوعی به دلیل سیاستها و دستورالعملها نمیتوانند انجام دهند. | ممکن است در حال حاضر بهترین باشد، اما هنوز در تولید متون طولانی مشکل دارد. منحنی یادگیری برای دستورات نیز با انتشار V6 بسیار بهبود یافته است. |
DALL-E 3 | بهترین برای درک سریع و جایگزین عالی برای Midjourney برای تولید متون است. همچنین بهترین در ایجاد هنر پیکسلی. | میتواند از برخی کارها در تولید تصاویر واقعی، به ویژه تصاویری با چهره افراد استفاده کند. |
Meta | ایجاد تصاویر واقعی را به خوبی انجام میدهد، به خصوص عکسهای پرتره و منظره. متا در حال حاضر بهترین تولیدکننده تصویر هوش مصنوعی رایگان در بازار است. | هنوز نمیتواند تولید متن را به طور قابل اعتمادی انجام دهد. در تمام تستها، ثابت شده است که با هنر پیکسلی بسیار مشکل دارد. |
Adobe Firefly | Firefly برای هنرمندان دیجیتال که از مجموعه Adobe برای ویرایش تصاویر استفاده میکنند، بهترین گزینه است. | مانند بسیاری از مولدها، Firefly نیز هنوز نمیتواند متن تولید کند. همچنین با ایجاد آثار هنری بر اساس چهره شخصیتهای موجود مخالف است. |
Stable Diffusion XL | یکی از تولیدکنندگان تصویر هوش مصنوعی خوب محسوب می شود که میتواند درخواست های طولانی را به صورت رایگان انجام دهد. | نمیتواند پرترههای واقعی را بدون تأکید بیش از حد بر ویژگیهای خاص ایجاد کند. |
با انتشار Midjourney V6 ، ساختن پرونده برای تولیدکنندههای تصویر هوش مصنوعی دیگر سختتر و سختتر میشود. مدل پایه در حال حاضر در لیگ مخصوص به خود قرار دارد، و زمانی که آنها به طور رسمی آن را منتشر کنند بهتر می شود، به خصوص که آنها از نظرات کاربران برای بهبود مدل خود کمک میگیرند.
ما حتی به سراغ ویژگیهای سفارشیسازی قوی آن، مانند ارتقاء مقیاس بهبودیافته، تغییرات، و سایر پارامترهای سریع نرفتهایم. این خیلی شگفت انگیز است.
با این حال، اگر فقط یک کاربر معمولی هستید، Meta سرویس دهنده خوبی است زیرا رایگان است. و اگر به دنبال مدلی با درک شگفت انگیز هستید، DALL-E ( با ChatGPT ) همچنان بهترین مدل در بازار است.
Midjourney V6 یک نقطه عطف واقعی برای هنر هوش مصنوعی است. تنها سوالی که مطرح میشود این است که آینده همه آنها به کجا ختم خواهد شد!
منبع: goldpenguin.org
منتظر ثبت نظرات و دیدگاه های ارزشمند شما عزیزان هستیم.
برای مشاهده سایر مقالات بر روی این لینک کلیک نمائید.
نظرات