شرکتهای فناوری برای تغذیه مدلهای هوش مصنوعی پر حافظه خود به روشهای بحث برانگیزی روی آوردهاند. آنها کتابها، وبسایتها، عکسها و پستهای شبکههای اجتماعی را حتی بدون اطلاع سازندگان اصلی، جمعآوری میکنند.شرکتهای هوش مصنوعی عموما در مورد منابع دادههای آموزشی خود پنهانکار هستند، اما تحقیقات انجامشده نشان میدهد که برخی از ثروتمندترین شرکتهای هوش مصنوعی جهان برای آموزش هوش مصنوعی از مواد موجود در هزاران ویدیوی یوتیوب استفاده کردهاند. این شرکتها علیرغم قوانین یوتیوب که برداشتن محتوا از پلتفرم بدون اجازه را ممنوع کرده است، دست به چنین اقدامی زدهاند.
تحقیقات ما نشان داد که زیرنویسهای ۱۷۳،۵۳۶ ویدیوی یوتیوب که از بیش از ۴۸،۰۰۰ کانال جمعآوری شده بود، توسط غولهای فناوری از جمله Anthropic، Nvidia، Apple و Salesforce مورد استفاده قرار گرفته است. این مجموعه داده که YouTube Subtitles نام دارد، شامل رونوشت ویدیوهای کانالهای آموزشی و یادگیری آنلاین مانند Khan Academy، MIT و هاروارد است.
علاوه بر این، ویدیوهای وال استریت ژورنال، NPR و BBC نیز برای آموزش هوش مصنوعی استفاده شده است. همچنین بخشهایی از برنامههای آخر شب با مجریانی نظیر استیون کلبر، جان الیور و جیمی کیمل برای این منظور به کار گرفته شدهاند.
همچنین در این مجموعه داده آموزشی، از ویدیوهای یوتیوبرهای مشهور از جمله MrBeast (با ۲۸۹ میلیون مشترک و استفاده از دو ویدیو)، مارکوس براونلی (با ۱۹ میلیون مشترک و استفاده از هفت ویدیو)، Jacksepticeye (با تقریبا ۳۱ میلیون مشترک و استفاده از ۳۷۷ ویدیو) و PewDiePie (با ۱۱۱ میلیون مشترک و استفاده از ۳۳۷ ویدیو) استفاده شده است.
دیوید پاکمن، مجری برنامه The David Pakman Show، میگوید: «هیچکس پیش من نیامد و نگفت که میخواهیم از این محتوا استفاده کنیم.» تقریبا ۱۶۰ ویدیو از او در مجموعه داده آموزشی YouTube Subtitles گنجانده شده است.
چهار نفر به صورت تمام وقت در شرکت پاکمن کار میکنند که علاوه بر تولید پادکست، ویدیوهای تیک تاک و محتوای دیگر برای سایر پلتفرمها، روزانه چندین ویدیو منتشر میکند. پاکمن میگوید اگر به شرکتهای هوش مصنوعی بابت استفاده از دادههایش پولی پرداخت شود، او نیز باید برای استفاده از محتوایش جبران خسارت شود. او اشاره میکند که برخی از شرکتهای رسانهای اخیراً قراردادهایی را برای دریافت حقالزحمه در قبال استفاده از آثارشان برای آموزش هوش مصنوعی منعقد کردهاند.
دیو ویسکوس، مدیرعامل Nebula، سرویس استریمی که بخشی از سهام آن متعلق به سازندگان محتوا است و برخی از آثار آنها برای آموزش هوش مصنوعی از یوتیوب کپی شده است، میگوید: «این دزدی است.»
ویسکوس میگوید استفاده از کار سازندگان محتوا بدون رضایت آنها «بیاحترامی» است، بهویژه از آن جهت که استودیوها ممکن است از «هوش مصنوعی تولیدکننده برای جایگزینی هنرمندان در این فرآیند» استفاده کنند.
نمایندگان EleutherAI، سازندگان این مجموعه داده، به درخواستها برای اظهارنظر از جمله ادعاهای استفاده از ویدیوها بدون اجازه، پاسخی ندادند. وبسایت این شرکت بیان میکند که هدف کلی آنها کاهش موانع توسعه هوش مصنوعی برای افراد خارج از دیوارهای طلایی غولهای فناوری است .
زیرنویسهای یوتیوب که شامل متن ساده زیرنویس ویدیوها است برای آموزش هوش مصنوعی برخی شرکتهای بزرگ فناوری مورد استفاده قرار گرفته است. این مجموعه داده که YouTube Subtitles نام دارد، توسط گروهی گردآوری و منتشر شده است.
شرکتهای بزرگی مانند اپل، Nvidia و Salesforce از این مجموعه داده برای آموزش هوش مصنوعی خود استفاده کردهاند. همچنین شرکتهایی مانند Bloomberg و Databricks و حتی Anthropic که روی ایمنی هوش مصنوعی تمرکز دارد، از این مجموعه داده بهره بردهاند.
سخنگوی شرکت Salesforce تأیید کرد که از این مجموعه داده برای ساخت یک مدل هوش مصنوعی برای اهداف آموزشی و پژوهشی استفاده کردهاند. این مدل بعدا برای استفاده عموم در سال ۲۰۲۲ منتشر شد.
برخی از محققان نگرانیهایی را در مورد استفاده از این مجموعه داده برای آموزش هوش مصنوعی مطرح کردهاند. این مجموعه داده شامل متنهای حاوی توهینهای نژادپرستانه و جنسیت زده است و میتواند به سوگیری هوش مصنوعی منجر شود. همچنین هزاران ویدیوی حذفشده از یوتیوب نیز در این مجموعه داده وجود دارد.
بسیاری از سازندگان محتوای ویدیویی که از آثار آنها در این مجموعه داده استفاده شده است، از این موضوع بیاطلاع بودهاند.
شرکت های بزرگی مانند اپل، Salesforce و Anthropic از مجموعه دادهی The Pile برای آموزش مدلهای هوش مصنوعی استفاده کرده اند . این مجموعه شامل کتابها، مقالات ویکیپدیا و موارد بسیار دیگری است. این مجموعه همچنین شامل زیرنویسهای یوتیوب است که از طریق API زیرنویس یوتیوب جمعآوری شده و از ۱۷۳،۵۳۶ ویدیوی یوتیوب در بیش از ۴۸،۰۰۰ کانال استخراج شده است.
برخی از صاحبان این محتوا از استفاده از دادههایشان برای آموزش هوش مصنوعی ابراز ناراحتی کردهاند. با این حال، به نظر نمیرسد این دادهها برای تولید محتوای رقابتی که به دست کاربران نهایی برسد، استفاده شده باشد. برای مثال، اپل میگوید مدل OpenELM آنها که از مجموعه دادهی The Pile استفاده کرده است، برای اهداف تحقیقاتی ساخته شده و در حال حاضر هوش مصنوعی و قابلیتهای یادگیری ماشین در دستگاههای اپل را برای مصرف کنندگان تأمین نمیکند.
این گزارش همچنین نشان میدهد که مجموعه دادهی The Pile شامل کانالهای بسیاری از برندهای رسانهای آنلاین و جریان اصلی، از جمله ویدیوهای نوشتهشده، تولید شده و منتشرشده توسط Ars Technica و کارکنان آن و همچنین سایر برندهای Condé Nast مانند Wired و The New Yorker میشود.
این گزارش نشان میدهد که جمعآوری دادهها چقدر گسترده است و توجه را به این نکته جلب میکند که صاحبان مالکیت فکری چقدر کنترل کمی بر نحوه استفاده از آثارشان در وب باز دارند.
بیشتر بخوانید :