گوگل با جمینی مجموعه پرچمدار مدلهای هوش مصنوعی مولد، برنامهها و سرویسهایش، قصد ایجاد امواج بزرگی دارد.
برای اینکه از آخرین اخبار جمینی مطلع شوید، این راهنمای مفید را گردآوری کردهایم که با انتشار مدلهای جدید جمینی، ویژگیها و اخبار مربوط به برنامههای گوگل برای جمینی، آن را بهروز رسانی کنیم.
جمینی چیست؟
جمینی خانواده مدلهای هوش مصنوعی مولد نسل بعدی گوگل است که توسط آزمایشگاههای تحقیقاتی هوش مصنوعی گوگل، DeepMind و Google Research توسعه یافته است. این مدل در چهار نسخه ارائه میشود:
-
جمینی اولترا، قدرتمندترین مدل جمینی.
-
جمینی پرو، جایگزین سبکتری برای اولترا.
-
جمیینی فلش، نسخهی سریعتر پرو.
-
جمینی نانو مدل های کوچکتری هستند .نانوی ۱ و نانوی ۲ با قابلیت اجرا به صورت آفلاین روی دستگاههای تلفن همراه طراحی شدهاند.
تمام مدلهای جمینی برای چندرسانهای بودن به صورت طبیعی آموزش دیدهاند .به عبارت دیگر، قادر به کار با و تجزیه و تحلیل فراتر از متن هستند. گوگل میگوید که آنها روی مجموعهی متنوعی از دادههای صوتی، تصویری و ویدیویی عمومی، اختصاصی و دارای مجوز، مجموعه بزرگی از پایگاههای کد و متون به زبانهای مختلف از پیش آموزش دیدهاند و تنظیم دقیق شدهاند.
این موضوع جمینی را از مدلهایی مانند LaMDA متعلق به خود گوگل که منحصراً روی دادههای متنی آموزش دیده است، متمایز میکند. LaMDA نمیتواند چیزی فراتر از متن (مانند مقاله، پیشنویس ایمیل) را درک یا تولید کند، اما این در مورد مدلهای جمینی لزوماً صدق نمی کند.
تفاوت بین برنامههای جمینی و مدلهای جمینی چیست؟
گوگل، یک بار دیگر ثابت کرد که در زمینهی نامگذاری مهارت چندانی ندارد. آنها از همان ابتدا به صراحت اعلام نکردند که جمینی مدل هوش مصنوعی مجزایی است و با «برنامههای جمینی» روی وب و موبایل (که قبلاً Bard نامیده میشد) تفاوت دارد.
برنامههای جمینی، در واقع سرویس گیرندههایی هستند که به مدلهای مختلف جمینی فعلاً شامل( جمینی اولترا و جمینی پرو) متصل میشوند . این برنامهها یک رابط کاربری شبیه به چتبات را روی مدلهای جمینی قرار میدهند. به عبارت دیگر، آنها واسط هایی برای هوش مصنوعی مولد گوگل هستند، مشابه با ChatGPT متعلق به OpenAI یا خانواده برنامههای کلود از Anthropic.
برنامه جمینی در وب از طریق این لینک قابل دسترسی است. در اندروید، برنامه جمینی جایگزین برنامه دستیار گوگل (Google Assistant) میشود. روی سیستمعامل iOS، برنامههای گوگل و جستجوی گوگل به عنوان سرویس گیرندههای جمینی عمل میکنند.
برنامههای جمیینی میتوانند علاوه بر متن و دستورات صوتی، تصاویر را هم دریافت کنند، این تصاویر میتوانند شامل فایلهایی مانند PDF و به زودی ویدیو باشند، چه به طور مستقیم یا از گوگلدرایو آپلود شوند. همچنین این برنامهها قادر به تولید تصاویر هستند. همانطور که انتظار میرود، مکالمات شما با برنامههای جمینی روی موبایل به برنامه جمینی تحت وب و برعکس منتقل میشوند، به شرطی که در هر دو دستگاه با یک حساب کاربری گوگل وارد شده باشید.
در اندروید، اپلیکیشن جمینی جایگزین اپلیکیشن دستیار گوگل میشود. و در iOS، اپلیکیشنهای Google و Google Search به عنوان کلاینتهای جمینی در این پلتفرم عمل میکنند.
اپلیکیشنهای جمینی میتوانند تصاویر را به همراه دستورات صوتی و متنی، از جمله فایلهایی مانند PDF و به زودی ویدئوها، که یا آپلود شده یا از گوگل درایو وارد شدهاند، پذیرفته و تصاویر تولید کنند. همانطور که انتظار میرود، گفتگوها با اپلیکیشنهای جمینی در موبایل به جمینی در وب منتقل میشود و بالعکس، اگر با همان حساب گوگل در هر دو مکان وارد شده باشید.
اپلیکیشنهای جمینی تنها روش بهرهگیری از مدلهای جمینی برای انجام وظایف نیستند. به تدریج، ویژگیهای مبتنی بر جمینی به اپلیکیشنها و خدمات اصلی گوگل مانند جیمیل و گوگل داکس راه پیدا میکنند.
برای بهرهبرداری از اکثر این ویژگیها، به پلن پریمیوم هوش مصنوعی گوگل وان نیاز دارید. به طور فنی، این پلن بخشی از گوگل وان است که هزینه آن 20 دلار است و دسترسی به جمینی در اپلیکیشنهای گوگل worlspace مانند docs، sheet، Slides و meet را فراهم میکند. همچنین، آنچه گوگل جمینی پیشرفته مینامد را فعال میکند که جمینی اولترا را به اپلیکیشنهای جمینی میآورد به علاوه پشتیبانی از تجزیه و تحلیل و پاسخ به سوالات درباره فایلهای آپلود شده.
ویژگیهای پیشرفته جمینی برای کاربران پیشرفته
کاربران جمینی پیشرفته مزایای اضافی دیگری نیز دریافت میکنند، مانند برنامهریزی سفر در گوگل سرچ که برنامههای سفری سفارشی از دستورات تولید میکند. با در نظر گرفتن مواردی مانند زمان پرواز (از ایمیلهای موجود در صندوق ورودی جیمیل کاربر)، ترجیحات غذایی و اطلاعات مربوط به جاذبههای محلی (از دادههای گوگل سرچ و مپس)، همچنین فاصله بین این جاذبهها، جمینی یک برنامه سفر تولید میکند که به طور خودکار بهروزرسانی میشود تا هر گونه تغییر را منعکس کند.
در جیمیل، جمینی در یک پنل جانبی قرار دارد که میتواند ایمیل بنویسد و رشتههای پیام را خلاصه کند. همین پنل را در داکس خواهید یافت که به شما در نوشتن و اصلاح محتوای خود و ایده پردازی کمک میکند. جمینی در Slides اسلایدها و تصاویر سفارشی تولید میکند. و جمینی در google sheets دادهها را پیگیری و سازماندهی کرده و جداول و فرمولها را ایجاد میکند.
گسترش جمینی در خدمات گوگل
تأثیر جمینی به درایو نیز گسترش مییابد، جایی که میتواند فایلها را خلاصه کند و حقایق سریع در مورد یک پروژه ارائه دهد. در میت، جمینی زیرنویسها را به زبانهای اضافی ترجمه میکند. جمینی اخیراً به مرورگر کروم گوگل در قالب یک ابزار نوشتاری هوش مصنوعی اضافه شده است. میتوانید از آن برای نوشتن محتوای جدید یا بازنویسی متنهای موجود استفاده کنید؛ گوگل میگوید که توصیههای خود را با توجه به صفحه وبی که در آن هستید ارائه میدهد.
کاربردهای دیگر جمینی
در سایر بخشها، نشانههایی از جمینی را در محصولات دیتابیس گوگل، ابزارهای امنیت ابری، پلتفرمهای توسعه اپلیکیشن (شامل Firebase و Project IDX) و همچنین اپلیکیشنهایی مانند Google TV (که جمینی توضیحات برای فیلمها و برنامههای تلویزیونی تولید میکند)، Google Photos (که جستجوی طبیعی زبان را مدیریت میکند) و دستیار یادداشتبرداری NotebookLM میتوانید پیدا کنید.
ابزارهای کدنویسی و امنیتی
Code Assist (قبلاً Duet AI for Developers)، مجموعه ابزارهای کمکرسانی هوش مصنوعی گوگل برای تکمیل و تولید کد، محاسبات سنگین را به جمینی واگذار میکند. همچنین محصولات امنیتی گوگل که توسط جمینی پشتیبانی میشوند، مانند جمینی در Threat Intelligence، که میتواند بخشهای بزرگی از کدهای بالقوه مخرب را تجزیه و تحلیل کند و به کاربران اجازه میدهد تا با استفاده از زبان طبیعی، تهدیدات جاری یا نشانههای نقض را جستجو کنند.
چتباتهای سفارشی گوگل جمینی
در Google I/O 2024 اعلام شد که کاربران جمینی پیشرفته قادر خواهند بود در آینده Gems، چتبات های سفارشی قدرتگرفته از مدلهای جمینی، را ایجاد کنند. Gems میتوانند از توضیحات زبان طبیعی تولید شوند.
در نهایت، این هوش مصنوعی قادر خواهند بود تا از مجموعه گستردهای از ادغامها با خدمات گوگل، شامل Google Calendar، Tasks، Keep و YouTube Music استفاده کنند تا وظایف مختلفی را انجام دهند.
چتهای صوتی Gemini Live
تجربه جدیدی به نام Gemini Live که به طور انحصاری برای مشترکان پیشرفته جمینی است، به زودی در اپلیکیشن های جمینی روی موبایل ارائه میشود و به کاربران اجازه میدهد تا چتهای صوتی “عمیق” با جمینی داشته باشند.
با فعالسازی Gemini Live، کاربران میتوانند جمینی را هنگام صحبت متوقف کرده و سوالات واضحتری بپرسند، و جمینی به الگوهای گفتاری آنها در زمان واقعی تطبیق مییابد. همچنین جمینی قادر خواهد بود با توجه به محیط کاربران، از طریق عکسها یا ویدئوهای ضبطشده توسط دوربینهای تلفنهای هوشمندشان، واکنش نشان دهد.
Live همچنین به عنوان یک مربی مجازی عمل میکند و به کاربران کمک میکند تا برای رویدادها تمرین کنند، ایده پردازی کنند و غیره. برای مثال، Live میتواند پیشنهاد دهد که کدام مهارتها را در مصاحبه شغلی یا کارآموزی برجسته کنند و میتواند مشاورهای در زمینه سخنرانی عمومی ارائه دهد.
تواناییهای مدلهای گوگل جمینی
مدلهای جمینی چندحالته هستند و میتوانند طیف وسیعی از وظایف چندحالته را انجام دهند، از جمله رونویسی گفتار تا زیرنویس گذاری تصاویر و ویدئوها در زمان واقعی. بسیاری از این قابلیتها به مرحله تولید رسیدهاند و گوگل وعده داده است که در آینده نزدیک، امکانات بیشتری ارائه خواهد شد.
البته، اعتماد به این وعدهها کمی سخت است.
گوگل با عرضه اولیه Bard کمتر از انتظار عمل کرد. اخیراً نیز با انتشار ویدئویی که به نمایش تواناییهای جمینی میپرداخت، کمی نارضایتی ایجاد کرد زیرا این ویدئو بیشتر تبلیغاتی بود تا واقعی. همچنین، ویژگی تولید تصویر که گوگل معرفی کرد، به طور ناخوشایندی نادرست بود.
همچنین، گوگل هیچ راه حلی برای برخی از مشکلات اساسی تکنولوژی هوش مصنوعی مولد امروزی مانند تعصبات رمزگذاری شده و تمایل به تولید اطلاعات نادرست (یا به اصطلاح “توهمات”) ارائه نکرده است. البته رقبای گوگل نیز همین مشکل را دارند، اما باید این موضوع را در نظر داشت هنگامی که از جمینی استفاده میکنید یا برای آن هزینه میپردازید.
فرض بر این است که گوگل در ادعاهای اخیر خود صادق است، در اینجا آنچه که میتوانید با سطوح مختلف جمینی انجام دهید و آنچه که این مدلها در نهایت قادر به انجام آن خواهند بود، آمده است:
قابلیتهای Gemini Ultra
گوگل میگوید که Gemini Ultra به لطف چندحالته بودن میتواند در کارهایی مانند تکالیف فیزیک، حل مسائل گام به گام در یک ورق کار و اشاره به اشتباهات احتمالی در پاسخهای پر شده کمک کند.
همچنین میتواند به وظایفی مانند شناسایی مقالات علمی مرتبط با یک مشکل کمک کند. برای مثال، مدل میتواند اطلاعات چندین مقاله را استخراج کرده و نموداری را با تولید فرمولهای لازم برای بازسازی نمودار با دادههای بهروز شده، بهروزرسانی کند.
Gemini Ultra به طور فنی از تولید تصویر پشتیبانی میکند. اما این قابلیت هنوز به نسخه محصولی مدل نرسیده است، شاید به این دلیل که مکانیزم آن پیچیده تر از نحوه تولید تصاویر توسط اپلیکیشن هایی مانند ChatGPT است. به جای استفاده از یک مولد تصویر (مانند DALL-E 3 در مورد ChatGPT)، جمینی تصاویر را “به طور بومی” تولید میکند، بدون مرحله واسطه.
دسترسی به Ultra
Ultra به عنوان یک API از طریق Vertex AI، پلتفرم توسعه هوش مصنوعی کاملاً مدیریت شده گوگل، و AI Studio، ابزار وب محور گوگل برای توسعه دهندگان اپلیکیشن و پلتفرم، در دسترس است. همچنین این نسخه، به اپلیکیشنهای جمینی نیرو میبخشد، اما به صورت رایگان قابل دسترسی نیست. بار دیگر، دسترسی به Ultra از طریق هر اپلیکیشن جمینی نیازمند اشتراک در پلن AI Premium است.
قابلیتهای Gemini Pro
گوگل میگوید که Gemini Pro در مقایسه با LaMDA در زمینههای استدلال، برنامهریزی و درک بهبود یافته است. نسخه جدیدتر، Gemini 1.5 Pro، حتی در برخی زمینهها از Ultra نیز عملکرد بهتری دارد.
Gemini 1.5 Pro در مقایسه با نسخه قبلی خود، Gemini 1.0 Pro، در چندین زمینه بهبود یافته است، شاید به طور آشکار در میزان دادههایی که میتواند پردازش کند. Gemini 1.5 Pro میتواند تا 1.4 میلیون کلمه، دو ساعت ویدئو یا 22 ساعت صدا را دریافت کند و بر روی این دادهها استدلال کرده و به سوالات مربوط به آنها پاسخ دهد.
ویژگیهای جدید Gemini 1.5 Pro
Gemini 1.5 Pro در ماه ژوئن به طور عمومی در Vertex AI و AI Studio در دسترس قرار گرفت و همراه با یک ویژگی به نام اجرای کد عرضه شد، که هدف آن کاهش اشکالات در کدی است که مدل تولید میکند.(Gemini Flash از اجرای کد همچنین پشتیبانی میکند.)
قیمتگذاری مدلهای گوگل جمینی
مدلهای مختلف جمینی با هزینههای متفاوتی در دسترس هستند:
- جمینی پرو ۱: 50 سنت به ازای هر 1 میلیون توکن ورودی، 1.50 دلار به ازای هر 1 میلیون توکن خروجی.
- جمینی پرو ۱.۵: 3.05 دلار به ازای هر 1 میلیون توکن ورودی (تا 128,000 توکن)، 7 دلار (برای بیش از 128,000 توکن)؛ 10.50 دلار به ازای هر 1 میلیون توکن خروجی (تا 128,000 توکن)، 21 دلار (برای بیش از 128,000 توکن).
- جمینی فلش ۱.۵: 35 سنت به ازای هر 1 میلیون توکن (تا 128,000 توکن)، 70 سنت (برای بیش از 128,000 توکن)؛ 1.05 دلار به ازای هر 1 میلیون توکن خروجی (تا 128,000 توکن)، 2.10 دلار (برای بیش از 128,000 توکن).
توکنها واحدهای کوچکی از داده خام هستند. 1 میلیون توکن معادل حدود 700,000 کلمه است. توکنهای ورودی به مدل داده میشوند و توکنهای خروجی توسط مدل تولید میشوند.
آیا جمینی به آیفون میآید؟
احتمال دارد. گزارشها حاکی از آن است که اپل و گوگل در حال مذاکره برای استفاده از جمینی در چندین ویژگی هستند که در بهروزرسانی آینده iOS در اواخر امسال گنجانده خواهد شد. هیچ چیز قطعی نیست، زیرا گفته میشود که اپل همچنین در حال مذاکره با OpenAI است و بر روی توسعه قابلیتهای هوش مصنوعی مولد خود کار میکند.
پس از ارائه اصلی در کنفرانس WWDC 2024،معاون ارشد اپل تأیید کرد که برنامههایی برای همکاری با مدلهای شخص ثالث اضافی از جمله جمینی وجود دارد، اما جزئیات بیشتری را فاش نکرد.
بیشتر بخوانید…