گوگل با جمینی مجموعه پرچم‌دار مدل‌های هوش مصنوعی مولد، برنامه‌ها و سرویس‌هایش، قصد ایجاد امواج بزرگی دارد.

برای اینکه از آخرین اخبار جمینی مطلع شوید، این راهنمای مفید را گردآوری کرده‌ایم که با انتشار مدل‌های جدید جمینی، ویژگی‌ها و اخبار مربوط به برنامه‌های گوگل برای جمینی، آن را به‌روز رسانی کنیم.

جمینی چیست؟

جمینی خانواده مدل‌های هوش مصنوعی مولد نسل بعدی گوگل است که توسط آزمایشگاه‌های تحقیقاتی هوش مصنوعی گوگل، DeepMind و Google Research توسعه یافته است. این مدل در چهار نسخه ارائه می‌شود:

  • جمینی اولترا، قدرتمندترین مدل جمینی.

  • جمینی پرو، جایگزین سبک‌تری برای اولترا.

  • جمیینی فلش، نسخه‌ی سریع‌تر پرو.

  • جمینی نانو مدل‌ های کوچک‌تری هستند .نانوی ۱ و نانوی ۲ با قابلیت اجرا به صورت آفلاین روی دستگاه‌های تلفن همراه طراحی شده‌اند.

تمام مدل‌های جمینی برای چندرسانه‌ای بودن به صورت طبیعی آموزش دیده‌اند .به عبارت دیگر، قادر به کار با و تجزیه و تحلیل فراتر از متن هستند. گوگل می‌گوید که آن‌ها روی مجموعه‌ی متنوعی از داده‌های صوتی، تصویری و ویدیویی عمومی، اختصاصی و دارای مجوز، مجموعه بزرگی از پایگاه‌های کد و متون به زبان‌های مختلف از پیش آموزش دیده‌اند و تنظیم دقیق شده‌اند.

این موضوع جمینی را از مدل‌هایی مانند LaMDA متعلق به خود گوگل که منحصراً روی داده‌های متنی آموزش دیده است، متمایز می‌کند. LaMDA نمی‌تواند چیزی فراتر از متن (مانند مقاله، پیش‌نویس ایمیل) را درک یا تولید کند، اما این در مورد مدل‌های جمینی لزوماً صدق نمی کند.

تفاوت بین برنامه‌های جمینی و مدل‌های جمینی چیست؟

گوگل، یک بار دیگر ثابت کرد که در زمینه‌ی نام‌گذاری مهارت چندانی ندارد. آن‌ها از همان ابتدا به صراحت اعلام نکردند که جمینی مدل هوش مصنوعی مجزایی است و با «برنامه‌های جمینی» روی وب و موبایل (که قبلاً Bard نامیده می‌شد) تفاوت دارد.

برنامه‌های جمینی، در واقع سرویس گیرنده‌هایی هستند که به مدل‌های مختلف جمینی فعلاً شامل( جمینی اولترا و جمینی پرو) متصل می‌شوند . این برنامه‌ها یک رابط کاربری شبیه به چت‌بات را روی مدل‌های جمینی قرار می‌دهند. به عبارت دیگر، آن‌ها واسط‌ هایی برای هوش مصنوعی مولد گوگل هستند، مشابه با ChatGPT متعلق به OpenAI یا خانواده برنامه‌های کلود از Anthropic.

برنامه جمینی در وب از طریق این لینک  قابل دسترسی است. در اندروید، برنامه جمینی جایگزین برنامه دستیار گوگل (Google Assistant) می‌شود. روی سیستم‌عامل iOS، برنامه‌های گوگل و جستجوی گوگل به عنوان سرویس گیرنده‌های جمینی عمل می‌کنند.

برنامه‌های جمیینی می‌توانند علاوه بر متن و دستورات صوتی، تصاویر را هم دریافت کنند، این تصاویر می‌توانند شامل فایل‌هایی مانند PDF و به زودی ویدیو باشند، چه به طور مستقیم  یا از گوگل‌درایو آپلود شوند. همچنین این برنامه‌ها قادر به تولید تصاویر هستند. همان‌طور که انتظار می‌رود، مکالمات شما با برنامه‌های جمینی روی موبایل به برنامه جمینی تحت وب و برعکس منتقل می‌شوند، به شرطی که در هر دو دستگاه با یک حساب کاربری گوگل وارد شده باشید.

 در اندروید، اپلیکیشن جمینی جایگزین اپلیکیشن دستیار گوگل می‌شود. و در iOS، اپلیکیشن‌های Google و Google Search به عنوان کلاینت‌های جمینی در این پلتفرم عمل می‌کنند.

اپلیکیشن‌های جمینی می‌توانند تصاویر را به همراه دستورات صوتی و متنی، از جمله فایل‌هایی مانند PDF و به زودی ویدئوها، که یا آپلود شده یا از گوگل درایو وارد شده‌اند، پذیرفته و تصاویر تولید کنند. همان‌طور که انتظار می‌رود، گفتگوها با اپلیکیشن‌های جمینی در موبایل به جمینی در وب منتقل می‌شود و بالعکس، اگر با همان حساب گوگل در هر دو مکان وارد شده باشید.

اپلیکیشن‌های جمینی تنها روش بهره‌گیری از مدل‌های جمینی برای انجام وظایف نیستند. به تدریج، ویژگی‌های مبتنی بر جمینی به اپلیکیشن‌ها و خدمات اصلی گوگل مانند جیمیل و گوگل داکس راه پیدا می‌کنند.

برای بهره‌برداری از اکثر این ویژگی‌ها، به پلن پریمیوم هوش مصنوعی گوگل وان نیاز دارید. به طور فنی، این پلن بخشی از گوگل وان است که هزینه آن 20 دلار است و دسترسی به جمینی در اپلیکیشن‌های گوگل worlspace مانند docs، sheet، Slides و meet را فراهم می‌کند. همچنین، آنچه گوگل جمینی پیشرفته می‌نامد را فعال می‌کند که جمینی اولترا را به اپلیکیشن‌های جمینی می‌آورد به علاوه پشتیبانی از تجزیه و تحلیل و پاسخ به سوالات درباره فایل‌های آپلود شده.

 ویژگی‌های پیشرفته جمینی برای کاربران پیشرفته

کاربران جمینی پیشرفته مزایای اضافی دیگری نیز دریافت می‌کنند، مانند برنامه‌ریزی سفر در گوگل سرچ که برنامه‌های سفری سفارشی از دستورات تولید می‌کند. با در نظر گرفتن مواردی مانند زمان پرواز (از ایمیل‌های موجود در صندوق ورودی جیمیل کاربر)، ترجیحات غذایی و اطلاعات مربوط به جاذبه‌های محلی (از داده‌های گوگل سرچ و مپس)، همچنین فاصله بین این جاذبه‌ها، جمینی یک برنامه سفر تولید می‌کند که به طور خودکار به‌روزرسانی می‌شود تا هر گونه تغییر را منعکس کند.

در جیمیل، جمینی در یک پنل جانبی قرار دارد که می‌تواند ایمیل بنویسد و رشته‌های پیام را خلاصه کند. همین پنل را در داکس خواهید یافت که به شما در نوشتن و اصلاح محتوای خود و ایده پردازی کمک می‌کند. جمینی در Slides اسلایدها و تصاویر سفارشی تولید می‌کند. و جمینی در google sheets داده‌ها را پیگیری و سازمان‌دهی کرده و جداول و فرمول‌ها را ایجاد می‌کند.

گسترش جمینی در خدمات گوگل

تأثیر جمینی به درایو نیز گسترش می‌یابد، جایی که می‌تواند فایل‌ها را خلاصه کند و حقایق سریع در مورد یک پروژه ارائه دهد. در میت، جمینی زیرنویس‌ها را به زبان‌های اضافی ترجمه می‌کند. جمینی اخیراً به مرورگر کروم گوگل در قالب یک ابزار نوشتاری هوش مصنوعی اضافه شده است. می‌توانید از آن برای نوشتن محتوای جدید یا بازنویسی متن‌های موجود استفاده کنید؛ گوگل می‌گوید که توصیه‌های خود را با توجه به صفحه وبی که در آن هستید ارائه می‌دهد.

 کاربردهای دیگر جمینی

در سایر بخش‌ها، نشانه‌هایی از جمینی را در محصولات دیتابیس گوگل، ابزارهای امنیت ابری، پلتفرم‌های توسعه اپلیکیشن (شامل Firebase و Project IDX) و همچنین اپلیکیشن‌هایی مانند Google TV (که جمینی توضیحات برای فیلم‌ها و برنامه‌های تلویزیونی تولید می‌کند)، Google Photos (که جستجوی طبیعی زبان را مدیریت می‌کند) و دستیار یادداشت‌برداری NotebookLM می‌توانید پیدا کنید.

 ابزارهای کدنویسی و امنیتی

Code Assist (قبلاً Duet AI for Developers)، مجموعه ابزارهای کمک‌رسانی هوش مصنوعی گوگل برای تکمیل و تولید کد، محاسبات سنگین را به جمینی واگذار می‌کند. همچنین محصولات امنیتی گوگل که توسط جمینی پشتیبانی می‌شوند، مانند جمینی در Threat Intelligence، که می‌تواند بخش‌های بزرگی از کدهای بالقوه مخرب را تجزیه و تحلیل کند و به کاربران اجازه می‌دهد تا با استفاده از زبان طبیعی، تهدیدات جاری یا نشانه‌های نقض را جستجو کنند.

 چت‌بات‌های سفارشی گوگل جمینی

در Google I/O 2024 اعلام شد که کاربران جمینی پیشرفته قادر خواهند بود در آینده Gems، چت‌بات‌ های سفارشی قدرت‌گرفته از مدل‌های جمینی، را ایجاد کنند. Gems می‌توانند از توضیحات زبان طبیعی تولید شوند.

در نهایت، این هوش مصنوعی قادر خواهند بود تا از مجموعه گسترده‌ای از ادغام‌ها با خدمات گوگل، شامل Google Calendar، Tasks، Keep و YouTube Music استفاده کنند تا وظایف مختلفی را انجام دهند.

چت‌های صوتی Gemini Live

تجربه جدیدی به نام Gemini Live که به طور انحصاری برای مشترکان پیشرفته جمینی است، به زودی در اپلیکیشن‌ های جمینی روی موبایل ارائه می‌شود و به کاربران اجازه می‌دهد تا چت‌های صوتی “عمیق” با جمینی داشته باشند.

با فعال‌سازی Gemini Live، کاربران می‌توانند جمینی را هنگام صحبت متوقف کرده و سوالات واضح‌تری بپرسند، و جمینی به الگوهای گفتاری آنها در زمان واقعی تطبیق می‌یابد. همچنین جمینی قادر خواهد بود با توجه به محیط کاربران، از طریق عکس‌ها یا ویدئوهای ضبط‌شده توسط دوربین‌های تلفن‌های هوشمندشان، واکنش نشان دهد.

Live همچنین به عنوان یک مربی مجازی عمل می‌کند و به کاربران کمک می‌کند تا برای رویدادها تمرین کنند، ایده پردازی کنند و غیره. برای مثال، Live می‌تواند پیشنهاد دهد که کدام مهارت‌ها را در مصاحبه شغلی یا کارآموزی برجسته کنند و می‌تواند مشاوره‌ای در زمینه سخنرانی عمومی ارائه دهد.

مدل های جمینی

 توانایی‌های مدل‌های گوگل جمینی

مدل‌های جمینی چندحالته هستند و می‌توانند طیف وسیعی از وظایف چندحالته را انجام دهند، از جمله رونویسی گفتار تا زیرنویس گذاری تصاویر و ویدئوها در زمان واقعی. بسیاری از این قابلیت‌ها به مرحله تولید رسیده‌اند و گوگل وعده داده است که در آینده نزدیک، امکانات بیشتری ارائه خواهد شد.

البته، اعتماد به این وعده‌ها کمی سخت است.

گوگل با عرضه اولیه Bard کمتر از انتظار عمل کرد. اخیراً نیز با انتشار ویدئویی که به نمایش توانایی‌های جمینی می‌پرداخت، کمی نارضایتی ایجاد کرد زیرا این ویدئو بیشتر تبلیغاتی بود تا واقعی. همچنین، ویژگی تولید تصویر که گوگل معرفی کرد، به طور ناخوشایندی نادرست بود.

همچنین، گوگل هیچ راه حلی برای برخی از مشکلات اساسی تکنولوژی هوش مصنوعی مولد امروزی مانند تعصبات رمزگذاری شده و تمایل به تولید اطلاعات نادرست (یا به اصطلاح “توهمات”) ارائه نکرده است. البته رقبای گوگل نیز همین مشکل را دارند، اما باید این موضوع را در نظر داشت هنگامی که از جمینی استفاده می‌کنید یا برای آن هزینه می‌پردازید.

فرض بر این است که گوگل در ادعاهای اخیر خود صادق است، در اینجا آنچه که می‌توانید با سطوح مختلف جمینی انجام دهید و آنچه که این مدل‌ها در نهایت قادر به انجام آن خواهند بود، آمده است:

 قابلیت‌های Gemini Ultra

گوگل می‌گوید که Gemini Ultra به لطف چندحالته بودن می‌تواند در کارهایی مانند تکالیف فیزیک، حل مسائل گام به گام در یک ورق کار و اشاره به اشتباهات احتمالی در پاسخ‌های پر شده کمک کند.

همچنین می‌تواند به وظایفی مانند شناسایی مقالات علمی مرتبط با یک مشکل کمک کند. برای مثال، مدل می‌تواند اطلاعات چندین مقاله را استخراج کرده و نموداری را با تولید فرمول‌های لازم برای بازسازی نمودار با داده‌های به‌روز شده، به‌روزرسانی کند.

Gemini Ultra به طور فنی از تولید تصویر پشتیبانی می‌کند. اما این قابلیت هنوز به نسخه محصولی مدل نرسیده است، شاید به این دلیل که مکانیزم آن پیچیده تر از نحوه تولید تصاویر توسط اپلیکیشن‌ هایی مانند ChatGPT است. به جای استفاده از یک مولد تصویر (مانند DALL-E 3 در مورد ChatGPT)، جمینی تصاویر را “به طور بومی” تولید می‌کند، بدون مرحله واسطه.

 دسترسی به Ultra

Ultra به عنوان یک API از طریق Vertex AI، پلتفرم توسعه هوش مصنوعی کاملاً مدیریت شده گوگل، و AI Studio، ابزار وب محور گوگل برای توسعه دهندگان اپلیکیشن و پلتفرم، در دسترس است. همچنین این نسخه، به اپلیکیشن‌های جمینی نیرو می‌بخشد، اما به صورت رایگان قابل دسترسی نیست. بار دیگر، دسترسی به Ultra از طریق هر اپلیکیشن جمینی نیازمند اشتراک در پلن AI Premium است.

 قابلیت‌های Gemini Pro

گوگل می‌گوید که Gemini Pro در مقایسه با LaMDA در زمینه‌های استدلال، برنامه‌ریزی و درک بهبود یافته است. نسخه جدیدتر، Gemini 1.5 Pro، حتی در برخی زمینه‌ها از Ultra نیز عملکرد بهتری دارد.

Gemini 1.5 Pro در مقایسه با نسخه قبلی خود، Gemini 1.0 Pro، در چندین زمینه بهبود یافته است، شاید به طور آشکار در میزان داده‌هایی که می‌تواند پردازش کند. Gemini 1.5 Pro می‌تواند تا 1.4 میلیون کلمه، دو ساعت ویدئو یا 22 ساعت صدا را دریافت کند و بر روی این داده‌ها استدلال کرده و به سوالات مربوط به آنها پاسخ دهد.

 ویژگی‌های جدید Gemini 1.5 Pro

Gemini 1.5 Pro در ماه ژوئن به طور عمومی در Vertex AI و AI Studio در دسترس قرار گرفت و همراه با یک ویژگی به نام اجرای کد عرضه شد، که هدف آن کاهش اشکالات در کدی است که مدل تولید می‌کند.(Gemini Flash از اجرای کد همچنین پشتیبانی می‌کند.)

قیمت‌گذاری مدل‌های گوگل جمینی

مدل‌های مختلف جمینی با هزینه‌های متفاوتی در دسترس هستند:

  • جمینی پرو ۱: 50 سنت به ازای هر 1 میلیون توکن ورودی، 1.50 دلار به ازای هر 1 میلیون توکن خروجی.
  • جمینی پرو ۱.۵: 3.05 دلار به ازای هر 1 میلیون توکن ورودی (تا 128,000 توکن)، 7 دلار (برای بیش از 128,000 توکن)؛ 10.50 دلار به ازای هر 1 میلیون توکن خروجی (تا 128,000 توکن)، 21 دلار (برای بیش از 128,000 توکن).
  • جمینی فلش ۱.۵: 35 سنت به ازای هر 1 میلیون توکن (تا 128,000 توکن)، 70 سنت (برای بیش از 128,000 توکن)؛ 1.05 دلار به ازای هر 1 میلیون توکن خروجی (تا 128,000 توکن)، 2.10 دلار (برای بیش از 128,000 توکن).

توکن‌ها واحدهای کوچکی از داده خام هستند. 1 میلیون توکن معادل حدود 700,000 کلمه است. توکن‌های ورودی به مدل داده می‌شوند و توکن‌های خروجی توسط مدل تولید می‌شوند.

 آیا جمینی به آیفون می‌آید؟

احتمال دارد. گزارش‌ها حاکی از آن است که اپل و گوگل در حال مذاکره برای استفاده از جمینی در چندین ویژگی هستند که در به‌روزرسانی آینده iOS در اواخر امسال گنجانده خواهد شد. هیچ چیز قطعی نیست، زیرا گفته می‌شود که اپل همچنین در حال مذاکره با OpenAI است و بر روی توسعه قابلیت‌های هوش مصنوعی مولد خود کار می‌کند.

پس از ارائه اصلی در کنفرانس WWDC 2024،معاون ارشد اپل تأیید کرد که برنامه‌هایی برای همکاری با مدل‌های شخص ثالث اضافی از جمله جمینی وجود دارد، اما جزئیات بیشتری را فاش نکرد.

بیشتر بخوانید…

هوش مصنوعی جمینی (Gemini AI) به پیام رسان گوگل راه پیدا کرد.