شرکت‌های فناوری برای تغذیه مدل‌های هوش مصنوعی پر حافظه خود به روش‌های بحث برانگیزی روی آورده‌اند. آن‌ها کتاب‌ها، وب‌سایت‌ها، عکس‌ها و پست‌های شبکه‌های اجتماعی را حتی بدون اطلاع سازندگان اصلی، جمع‌آوری می‌کنند.شرکت‌های هوش مصنوعی عموما در مورد منابع داده‌های آموزشی خود پنهان‌کار هستند، اما تحقیقات انجام‌شده نشان می‌دهد که برخی از ثروتمندترین شرکت‌های هوش مصنوعی جهان برای آموزش هوش مصنوعی از مواد موجود در هزاران ویدیوی یوتیوب استفاده کرده‌اند. این شرکت‌ها علی‌رغم قوانین یوتیوب که برداشتن محتوا از پلتفرم بدون اجازه را ممنوع کرده است، دست به چنین اقدامی زده‌اند.

تحقیقات ما نشان داد که زیرنویس‌های ۱۷۳،۵۳۶ ویدیوی یوتیوب که از بیش از ۴۸،۰۰۰ کانال جمع‌آوری شده بود، توسط غول‌های فناوری از جمله Anthropic، Nvidia، Apple و Salesforce مورد استفاده قرار گرفته است. این مجموعه داده که YouTube Subtitles نام دارد، شامل رونوشت ویدیوهای کانال‌های آموزشی و یادگیری آنلاین مانند Khan Academy، MIT و هاروارد است.

علاوه بر این، ویدیوهای وال استریت ژورنال، NPR و BBC نیز برای آموزش هوش مصنوعی استفاده شده است. همچنین بخش‌هایی از برنامه‌های آخر شب با مجریانی نظیر استیون کلبر، جان الیور و جیمی کیمل برای این منظور به کار گرفته شده‌اند.

 همچنین در این مجموعه داده آموزشی، از ویدیوهای یوتیوبرهای مشهور از جمله MrBeast (با ۲۸۹ میلیون مشترک و استفاده از دو ویدیو)، مارکوس براونلی (با ۱۹ میلیون مشترک و استفاده از هفت ویدیو)، Jacksepticeye (با تقریبا ۳۱ میلیون مشترک و استفاده از ۳۷۷ ویدیو) و PewDiePie (با ۱۱۱ میلیون مشترک و استفاده از ۳۳۷ ویدیو) استفاده شده است.

دیوید پاکمن، مجری برنامه The David Pakman Show، می‌گوید: «هیچکس پیش من نیامد و نگفت که می‌خواهیم از این محتوا استفاده کنیم.» تقریبا ۱۶۰ ویدیو از او در مجموعه داده آموزشی YouTube Subtitles گنجانده شده است.

چهار نفر به صورت تمام وقت در شرکت پاکمن کار می‌کنند که علاوه بر تولید پادکست، ویدیوهای تیک‌ تاک و محتوای دیگر برای سایر پلتفرم‌ها، روزانه چندین ویدیو منتشر می‌کند. پاکمن می‌گوید اگر به شرکت‌های هوش مصنوعی بابت استفاده از داده‌هایش پولی پرداخت شود، او نیز باید برای استفاده از محتوایش جبران خسارت شود. او اشاره می‌کند که برخی از شرکت‌های رسانه‌ای اخیراً قراردادهایی را برای دریافت حق‌الزحمه در قبال استفاده از آثارشان برای آموزش هوش مصنوعی منعقد کرده‌اند.

دیو ویسکوس، مدیرعامل Nebula، سرویس استریمی که بخشی از سهام آن متعلق به سازندگان محتوا است و برخی از آثار آن‌ها برای آموزش هوش مصنوعی از یوتیوب کپی شده است، می‌گوید: «این دزدی است.»

ویسکوس می‌گوید استفاده از کار سازندگان محتوا بدون رضایت آن‌ها «بی‌احترامی» است، به‌ویژه از آن جهت که استودیوها ممکن است از «هوش مصنوعی تولیدکننده برای جایگزینی هنرمندان در این فرآیند» استفاده کنند.

نمایندگان EleutherAI، سازندگان این مجموعه داده، به درخواست‌ها برای اظهارنظر از جمله ادعاهای استفاده از ویدیوها بدون اجازه، پاسخی ندادند. وب‌سایت این شرکت بیان می‌کند که هدف کلی آن‌ها کاهش موانع توسعه هوش مصنوعی برای افراد خارج از دیوارهای طلایی غول‌های فناوری است .

زیرنویس‌های یوتیوب که شامل متن ساده زیرنویس ویدیوها است برای آموزش هوش مصنوعی برخی شرکت‌های بزرگ فناوری مورد استفاده قرار گرفته است. این مجموعه داده که YouTube Subtitles نام دارد، توسط گروهی گردآوری و منتشر شده است.

شرکت‌های بزرگی مانند اپل، Nvidia و Salesforce از این مجموعه داده برای آموزش هوش مصنوعی خود استفاده کرده‌اند. همچنین شرکت‌هایی مانند Bloomberg و Databricks و حتی Anthropic که روی ایمنی هوش مصنوعی تمرکز دارد، از این مجموعه داده بهره برده‌اند.

سخنگوی شرکت Salesforce تأیید کرد که از این مجموعه داده برای ساخت یک مدل هوش مصنوعی برای اهداف آموزشی و پژوهشی استفاده کرده‌اند. این مدل بعدا برای استفاده عموم در سال ۲۰۲۲ منتشر شد.

برخی از محققان نگرانی‌هایی را در مورد استفاده از این مجموعه داده برای آموزش هوش مصنوعی مطرح کرده‌اند. این مجموعه داده شامل متن‌های حاوی توهین‌های نژادپرستانه و جنسیت زده است و می‌تواند به سوگیری هوش مصنوعی منجر شود. همچنین هزاران ویدیوی حذف‌شده از یوتیوب نیز در این مجموعه داده وجود دارد.

بسیاری از سازندگان محتوای ویدیویی که از آثار آن‌ها در این مجموعه داده استفاده شده است، از این موضوع بی‌اطلاع بوده‌اند.

شرکت های بزرگی مانند اپل، Salesforce و Anthropic از مجموعه داده‌ی The Pile برای آموزش مدل‌های هوش مصنوعی استفاده کرده اند . این مجموعه شامل کتاب‌ها، مقالات ویکی‌پدیا و موارد بسیار دیگری است. این مجموعه همچنین شامل زیرنویس‌های یوتیوب است که از طریق API زیرنویس یوتیوب جمع‌آوری شده و از ۱۷۳،۵۳۶ ویدیوی یوتیوب در بیش از ۴۸،۰۰۰ کانال استخراج شده است.

برخی از صاحبان این محتوا از استفاده از داده‌هایشان برای آموزش هوش مصنوعی ابراز ناراحتی کرده‌اند. با این حال، به نظر نمی‌رسد این داده‌ها برای تولید محتوای رقابتی که به دست کاربران نهایی برسد، استفاده شده باشد. برای مثال، اپل می‌گوید مدل OpenELM آن‌ها که از مجموعه داده‌ی The Pile استفاده کرده است، برای اهداف تحقیقاتی ساخته شده و در حال حاضر هوش مصنوعی و قابلیت‌های یادگیری ماشین در دستگاه‌های اپل را برای مصرف کنندگان تأمین نمی‌کند.

این گزارش همچنین نشان می‌دهد که مجموعه داده‌ی The Pile شامل کانال‌های بسیاری از برندهای رسانه‌ای آنلاین و جریان اصلی، از جمله ویدیوهای نوشته‌شده، تولید شده و منتشرشده توسط Ars Technica و کارکنان آن و همچنین سایر برندهای Condé Nast مانند Wired و The New Yorker می‌شود.

این گزارش نشان می‌دهد که جمع‌آوری داده‌ها چقدر گسترده است و توجه را به این نکته جلب می‌کند که صاحبان مالکیت فکری چقدر کنترل کمی بر نحوه استفاده از آثارشان در وب باز دارند.

بیشتر بخوانید :