پروژه آسترا جدیدترین دستاورد هوش مصنوعی از دیپ مایند، شاخه هوش مصنوعی گوگل، و متمرکز بر هوش مصنوعی عمومی (AGI) است. این پروژه در Google I/O 2024 معرفی شد و با نمایش یک دمو کوتاه و شگفت انگیز توانست تحسین زیادی از توسعه دهندگان دریافت کند. دمو شامل دو برداشت پیوسته بود، یکی بر روی گوشی Google Pixel و دیگری بر روی یک دستگاه عینک هوشمند آزمایشی، که نشان می داد توانایی های آسترا تنها نمونه های انتخابی نیستند و این پروتوتایپ می تواند طیف وسیعی از وظایف و سؤالات را به طور طبیعی پاسخ دهد.
پروژه آسترا چه کارهایی انجام می دهد؟
پروژه آسترا یک دستیار هوش مصنوعی چند منظوره است که به کاربران کمک می کند تا با گوشی ها و سایر دستگاه های خود به شکل بهتری تعامل کنند. آسترا با پشتیبانی از ورودی های چندرسانه ای شامل گفتار و ویدیو، از توانایی های دستیارهای هوش مصنوعی کنونی فراتر می رود. این پروژه می تواند فریم های ویدیو را به صورت مداوم رمزگذاری کرده و آن ها را با گفتار تلفیق کند تا خط سیر زمانی از رویدادها ایجاد کند. این قابلیت حافظه و جریان مکالمه طبیعی تری را ارائه می دهد و از آنجا که آسترا می تواند فضای واقعی اطراف خود را تشخیص دهد و به دستورات کاربر پاسخ دهد، تعامل با آن حس طبیعی تری به همراه دارد.
به عنوان مثال، تصور کنید که گوشی خود را به سمت کلیدهای گمشده خود گرفته و از آسترا می خواهید تا آن ها را پیدا کند. آسترا می تواند اطلاعات بصری و ذخیره شده را در زمان واقعی پردازش کند، که این موضوع می تواند نسل بعدی دستیارهای هوش مصنوعی را رقم بزند.
دستیابی به پردازش چندبعدی با هوش مصنوعی چندرسانهای
یکی از پیشرفت های چشمگیر آسترا توانایی پردازش ورودی های چندمنظوره به شکل همزمان است. برخلاف دستیارهای هوش مصنوعی فعلی که معمولاً به یک نوع ورودی محدود هستند، آسترا داده های بصری و صوتی را همزمان ترکیب کرده و آن ها را در قالب محیط اطراف کاربر معنا می کند. این ویژگی می تواند نیاز به توضیحات بیشتر را از بین ببرد، زیرا آسترا می داند به چه چیزی نگاه می کنید و آن را می بیند.
قابلیت های شناسایی و حافظه در پروژه آسترا
قابلیت های شناسایی بصری آسترا در ویدیوی دمو بسیار برجسته بودند. ویدیو با این شروع می شود که کاربر از آسترا می پرسد “چیزی که صدا ایجاد می کند به من نشان بده”، و در همین حین محیط کاری را با دوربین گوشی خود اسکن می کند. به محض مشاهده بلندگوی مانیتور، آسترا آن را شناسایی می کند. کاربر دوربین را به بلندگو نزدیک کرده و با نشان دادن قسمت مشخصی از آن می پرسد نام این بخش چیست. آسترا به درستی آن قسمت را به عنوان “تویتر” معرفی می کند، که وظیفه تولید صدای فرکانس بالا را بر عهده دارد.
در صحنه بعدی، کاربر از آسترا درباره محله ای که در آن قرار دارد سؤال می پرسد. آسترا با تحلیل سریع داده های محدود بصری، مکان را شناسایی می کند. در این بخش از دمو، آسترا نشان می دهد که حافظه بصری خوبی دارد؛ کاربر به دنبال عینک خود می گردد و آسترا به خاطر می آورد که آن ها را روی میز قرار داده بودند، حتی اشاره می کند که در کنار یک سیب قرمز هستند تا پیدا کردن آن ها راحت تر شود.
این ویژگی حافظه ای آسترا به نظر می رسد که فعلاً به صورت کوتاه مدت و مبتنی بر جلسه باشد. اما در آینده، با ادغام حافظه پایدار در دستیارهای هوش مصنوعی، این قابلیت ها می توانند تجربه های شخصی تری ایجاد کنند؛ به طوری که آسترا از پروژه های جاری شما، ترجیحات شخصی و شخصیت شما آگاه باشد.
توانایی های زبانی و خلاقانه آسترا
آسترا همچنین توانایی های زبانی و خلاقانه ای دارد. در بخشی از ویدیو، کاربر دوربین را به سمت لیوانی از مدادهای رنگی گرفته و از آسترا می خواهد که یک واج آرایی درباره آن ها بگوید. برخلاف بسیاری از دستیارهای هوش مصنوعی، جواب آسترا در نوع خود خلاقانه و مناسب بود.
در ادامه، کاربر با استفاده از دوربین عینک هوشمند به یک دیاگرام ترسیم شده روی تخته سفید نگاه می کند که نشان دهنده سیستم توزیع بار شبکه ای (NLD) است. کاربر از آسترا می پرسد که برای بهبود سرعت چه می توان به سیستم اضافه کرد. آسترا تنها با اتکا به ورودی بصری، پاسخ می دهد که افزودن حافظه پنهان (Cache) می تواند سرعت را بهبود بخشد.
دمو با لحظه ای طنزآمیز پایان می یابد؛ کاربر یک اسباب بازی ببر را در کنار یک سگ طلایی قرار می دهد و از آسترا درخواست می کند که نام یک گروه موسیقی مناسب برای آن ها پیشنهاد دهد. پاسخ “خطوط طلایی” (Golden Stripes) هم که توسط آسترا داده شد، نشان داد که قابلیت های زبانی آن بسیار خلاقانه و دقیق است.
پروژه آسترا نشان دهنده پیشرفت های بزرگی در حوزه هوش مصنوعی چندرسانه ای است و این پروتوتایپ نشان می دهد که آینده دستیارهای هوشمند می تواند به مراتب پیشرفته تر، شخصی تر و طبیعی تر از حال حاضر باشد.
بیشتر بخوانید: