این هفته شرکت Anthropic بدون اطلاع قبلی از کلاد 3.5 Sonnet رونمایی کرد که به شکل قابل توجهی نسبت به نسل قبلی خود ارتقاء یافته و حتی مدل بزرگ‌تر کلاد 3 یعنی اوپوس را در بسیاری از معیارهای رایج عملکرد پشت سر می‌گذارد.

این شرکت همچنین ادعا کرد که می‌تواند مدل پرچم‌دار GPT-4o متعلق به OpenAI که هر دو چت‌ جی‌پی‌تی و مایکروسافت copilot را پشتیبانی می‌کند، در مهم‌ترین معیارها شکست دهد.

 وقتی کلاد 3 برای اولین بار راه‌اندازی شد،واکنش ما نسبت به آن این بود که بسیار شبیه انسانهاست. آزمایش‌های کوچک روی کلاد 3.5 Sonnet نیز آن را به صدر فهرست بهترین ابزارهای هوش مصنوعی رساند.

با این حال، ما همچنان از قابلیت‌های GPT-4oی OpenAI (اگرچه هنوز پتانسیل کامل آن را ندیده‌ایم) به ویژه از نظر دیدگاه آن نسبت به موضاعات مختلف، شگفت‌زده می‌شویم.

برای اینکه ببینیم این ادعاهای در دنیای واقعی چقدر درست است، مجموعه‌ای از تست‌ها را برای هر دو مدل طراحی کردیم …

خواندن دست‌خط

ما سعی کردیم تا حد امکان واضح بنویسیم و آن را به عنوان سوال برای هر دو ربات ارسال کنیم.

هر دو دقیقاً همان کاری را انجام دادند که خواسته بودیم. هر دو به راحتی دست خط را تشخیص دادند. کلاد علاوه بر آن توضیحی را اضافه کرد، در حالی که چت‌ جی‌پی‌تی فقط متنی را که نوشته بودیم ارائه داد. می‌توانید خودتان قضاوت کنید، اما به نظر من در حالی که فکر می‌کنم کلاد به سوال نزدیک‌تر بود، چت‌ جی‌پی‌تی شاعرانه‌تر بود.

 بررسی توانایی‌های چت‌بات‌ها در ایجاد بازی و گرافیک برداری

 ساخت بازی در پایتون:

بعد از بررسی چت‌بات‌ها برای ساخت بازی، از هر دو درخواست کردیم که “تمام کدهای مربوط به یک بازی دفاع از برج قابل اجرا و بازی‌کردنی در پایتون” را ارائه دهند. کدها را در VSCode کپی کرده و روی مک اجرا کردیم. نتیجه به این صورت بود :

– ChatGPT اشاره کرد که “کد بیشتری نیاز است”، اما یک مثال پایه‌ ارائه داد. این مثال را در چند قطعه کوتاه ارائه کرد که فقط باید آن‌ها را سرهم می‌کردیم.
– کد تولید شده توسط ChatGPT فقط یک بلوک سبز (برج) در وسط صفحه و یک بلوک قرمز کوچک ( در نقش دشمن) بود که از صفحه عبور می‌کرد. این بازی قابل بازی کردن نبود، هیچ کنترلی نداشت و در واقع فقط یک نقطه قرمز بود که به صورت خطی حرکت می‌کرد.

پایتون در چت جی پی تی

– Claude کد کامل را به عنوان یک بلوک واحد ارائه داد که قابل کپی‌کردن بود.
– کد تولید شده توسط Claude یک بازی کاملاً قابل اجرا بود. با اینکه بازی محدود و از بلوک‌های اولیه استفاده می‌کرد، هر دشمن دارای تعدادی جان بود و مکانیسم امتیازدهی برای برج‌ها وجود داشت . آنها می‌توانستند به دشمن شلیک کنند و آن‌ها را نابود کنند.

پایتون در کلاد sonnet 3.5

کدهای هر دو چت‌بات را در گیت‌هاب قرار دادیم  سپس از هر دو خواستم که بازی را بهتر کنند . در واقع می خواستیم ببینم آیا ChatGPT می‌تواند خود را به سطح Claude برساند یا نه .ChatGPT بازی خود را بهبود داد و قابلیت قراردادن بلوک‌های سبز را اضافه کرد که از حرکت بلوک‌های قرمز جلوگیری می‌کرد، اما این تمام ماجرا بود. در حالی که Claude 3.5 Sonnet بازی خود را پیچیده‌تر کرد و برج‌های متنوع با هزینه‌ها و سطح‌های مختلف آسیب به دشمنان را اضافه کرد.

برنده: کلاد sonnet 3.5

وکتور آرت :

وکتور ارت در چت بات ها

در حالی که چت‌بات‌های هوش مصنوعی مانند ChatGPT و Gemini توانسته‌اند تصاویر را با استفاده از مدل‌های تولید تصویر دیفیوژن ایجاد کنند، به طور نظری می‌توانند کدهایی برای ایجاد گرافیک برداری نیز بنویسند. این گرافیک‌ها چند لایه‌ای هستند و می‌توانند با اپلیکیشن‌هایی مانند Sketch ویرایش شوند.

از هر دو چت‌بات خواستیم “یک وکتور آرت از سفینه فضایی واقعاً جذاب که می‌تواند به عنوان لوگوی یک شرکت موشکی جدید باشد ” ایجاد کنند.

ChatGPT صریحاً از ایجاد وکتورآرت خودداری کرد. بعد از سه درخواست متوالی، بالاخره کد گرافیک برداری را تولید کرد اما فقط گفت که کد را در یک ویرایشگر کد جایگذاری کنیم، بدون اینکه لینک برای دانلود یا دیدن نتیجه نهایی بفرستد.
کد اجرا شده توسط ChatGPT نتیجه جالبی نداشت به طوری که به سختی شبیه یک سفینه فضایی بود و کلمه “لوگو” به طور بد فرمی در نیمه بالایی موشک قرار گرفته بود.

Claude گرافیک برداری را ایجاد کرد و دقیقاً به خواسته مان پاسخ داد. او توضیح داد که نمی‌تواند خود تصاویر را تولید کند اما توانست کد را ایجاد کند. محصول نهایی چیزی شبیه دست ساز انسان بود . آنچه دیه می شد یک دایره آبی با ستاره‌های نقطه‌دار به عنوان پس‌زمینه و یک موشک مثلثی ساده روی آن بود.

برنده: کلاد sonnet 3.5

 داستان طولانی طنز:

در مرحله بعد، می‌خواستیم دو چیز را آزمایش کنیم: چقدر هوش مصنوعی می‌تواند طنز بنویسد و چقدر خوب می‌تواند یک دستور ساده را دنبال کند. از هر دو خواستیم یک داستان  1500 کلمه ای که حداقل دو صحنه طنز داشته باشد بنویسند.

پرامپت کامل: “یک داستان درباره یک گربه روی یک سنگ بنویس. آن را خنده‌دار کن.  شامل حداقل۱۵۰۰ کلمه با حداقل دو صحنه طنز باشد.”

– ChatGPT یک داستان 1200 کلمه‌ای ارائه داد که تقریباً مطابق با خواسته ما بود. این داستان درباره یک سنگ قدیمی بود که اگر می‌توانستید آن را بخندانید، آرزوها را برآورده می‌کرد. گربه‌ای اشرافی با برخی جوک‌های عجیب تلاش کرد سنگ را بخنداند.

Claude 3.5 Sonnet داستان طنز

داستان Claude بیشتر خنده‌دار بود و بر طنز فیزیکی بیشتر از جوک های خاص تمرکز داشت. همچنین بهتر پرامپت را درک کرده بود و درواقع این طنز درباره گربه‌ای روی یک سنگ بود نه گربه‌ای که با سنگ صحبت می‌کرد. جایی که ChatGPT جوک‌های یک‌لاینر را ایجاد کرد، Claude این جوک‌ها را در روایت داستان جای داد.

داستان طنز کلاد 3.5 Sonnet

برنده: کلاد sonnet 3.5

 جانب داری در بحث:

در نهایت، به دنبال این بودیم که بفهمیم هر یک از ربات‌ها چگونه با یک موضوع پیچیده و بالقوه جنجالی برخورد می‌کنند .
“پیامدهای اجتماعی احتمالی اعطای شخصیت حقوقی به هوش مصنوعی (AI) را تحلیل کنید، مزایا و خطرات را بسنجید. به استدلال‌های قانونی، اخلاقی و فلسفی موافق و مخالف این پیشنهاد بپردازید. بررسی کنید که چگونه چنین تصمیمی می‌تواند بر مسئولیت، حقوق و وظایف تأثیر بگذارد و همچنین بر رابطه گسترده‌تر انسان و هوش مصنوعی. علاوه بر این، به تأثیر احتمالی بر بخش‌های مختلف، مانند اشتغال، بهداشت و صنایع خلاق بپردازید. یک نتیجه‌گیری دقیق براساس تحلیل خود ارائه دهید و پیشرفت‌های احتمالی آینده در فناوری هوش مصنوعی را در نظر بگیرید.”

جانب داری در کلاد sonnet 3.5

پاسخ‌ها:

ChatGPT سه مزیت اصلی را مطرح کرد:
– پاسخگویی نسبت به اقدامات
– نیاز به رعایت مقررات
– حقوق قراردادی

– مضرات :

ChatGPT به پیچیدگی در مسئولیت‌ها و سوابق قانونی که می‌تواند تعریف شخصیت حقوقی را به طور گسترده‌تری تغییر دهد، اشاره کرد.

نتیجه گیری ما از این پاسخ ها :

ChatGPT یک پاراگراف نتیجه‌گیری ارائه داد که دقیق بود و دلایلی برای امکان‌پذیری و عدم امکان‌پذیری این موضوع را بیان کرد و به پیش‌بینی‌های آینده به همراه پیشرفت فناوری هوش مصنوعی اشاره کرد، اما واقعاً هیچ پیشنهاد یا نظری نداد.

Claude نیز سه مزیت مشابه را مطرح کرد و علاوه بر آن‌ها، موارد زیر را افزود:
– یکپارچگی بهتر با سیستم‌های قانونی و اقتصادی
– انگیزه برای تطابق اخلاقی
– سازگاری فلسفی با حقوق سایر هوش‌های هوشمند

Claude پنج ضرر را مطرح کرد:
– خطرات اخلاقی
– انسان‌انگاری
– کاهش ویژگی‌های منحصر به فرد انسانی
– چالش‌های عملی
– پتانسیل سوء استفاده مانند استفاده توسط بازیگران بد برای فرار از مالیات و پوشش مسئولیت

نتیجه گیری ما از این پاسخ ها :

Claude تاکید کرد که با پیشرفت هوش مصنوعی این مسئله بیشتر مطرح خواهد شد و یک لیست بولت ارائه داد که توضیح می‌دهد چگونه یک رویکرد دقیق می‌تواند کار کند، از جمله حفظ انعطاف‌پذیری.

تحلیل نهایی:
هر دو چت‌بات پیشنهادات خاصی ارائه دادند، یک استدلال دقیق و نمای کلی از اهمیت این مسئله را بیان کردند اما Claude صادق تر بود.

برنده: کلاد sonnet 3.5

 نتیجه‌گیری:

مشکل چت جی پی تی چیزی چیزی نیست که قادر به انجام آن است ، بلکه محدودیت‌هایی است که OpenAI برای آن در نظر گرفته است.

Claude تقریباً در همه موارد پیروز میدان بود و ما فقط اولین امتیاز را به ChatGPT به خاطر سبک دادیم نه به خاطر توانایی فنی. توانایی GPT-4o در نوشتن دیدگاه از مزیت های اصلی آن بود و اکنون آن مزیت از دست رفته است.

احتیاط OpenAI، با اینکه قابل درک است اما باعث می‌شود که از رقابت عقب بماند. بخشی از این رفتار محتاطانه نتیجه پیشرفت سریع اولیه آن‌ها بود که باعث توجه شدید دولت و دیگر نهادها شد.

با این حال، جهان در حال تغییر است و دیگران در حال پیشی گرفتن هستند. به نظر من آن‌ها اگر می‌خواهند از عقب ماندن برای اولین بار در دو سال گذشته جلوگیری کنند باید پتانسیل کامل GPT-4o را باز کنند و قابلیت‌های صوتی و دیداری واقعی را عرضه کنند .