متا برای آموزش مدل‌های هوش مصنوعی و تحلیل داده‌های وب با چالش‌هایی مواجه است

ابزارهای مولد هوش مصنوعی برای آموزش خود به حجم عظیمی از داده نیاز دارند که اغلب از طریق فرایند وب‌خزیدن (scraping) از اینترنت جمع‌آوری می‌شود. شرکت متا نیز مانند سایر غول‌های فناوری، با توسعه ربات‌های جدید، به جمع‌آوری داده از وب پرداخته است.

به گزارش سرویس اخبار موبایل رسانه فناوری تکنا، این ربات‌ها با هدف بهبود مدل‌های هوش مصنوعی و محصولات مرتبط، به صورت گسترده در وب جستجو کرده و داده‌ها را جمع‌آوری می‌کنند. یکی از این ربات‌ها، Meta-ExternalAgent، به طور خاص برای آموزش مدل‌های هوش مصنوعی و بهبود فهرست‌بندی محتوا طراحی شده است. ربات دیگر، Meta-ExternalFetcher نیز به منظور پشتیبانی از دستیارهای هوش مصنوعی شرکت، لینک‌های مرتبط را جمع‌آوری می‌کند.

رقابت شدیدی بین شرکت‌های فناوری برای توسعه مدل‌های هوش مصنوعی قدرتمند وجود دارد. یکی از عوامل کلیدی در این رقابت، دسترسی به داده‌های آموزشی با کیفیت بالا است. به همین دلیل، بسیاری از شرکت‌ها از جمله گوگل، OpenAI و Anthropic، به جمع‌آوری داده از وب روی آورده‌اند.

با این حال، جمع‌آوری بی‌رویه داده‌ها از وب، چالش‌هایی را برای مالکان وب‌سایت‌ها ایجاد کرده است. بسیاری از وب‌سایت‌ها از روشی به نام robots.txt برای جلوگیری از خزیدن خودکار ربات‌ها استفاده می‌کنند. اما با افزایش تقاضا برای داده‌های آموزشی، این روش به تنهایی کافی نیست. تحقیقات نشان می‌دهد که برخی شرکت‌ها از جمله متا، OpenAI و Anthropic، به روش‌های مختلفی برای دور زدن محدودیت‌های robots.txt اقدام کرده‌اند. به عنوان مثال، ربات Meta-ExternalFetcher ممکن است قوانین robots.txt را نادیده بگیرد.

همچنین، ترکیب دو عملکرد جمع‌آوری داده‌های آموزشی و فهرست‌بندی محتوا در یک ربات واحد (Meta-ExternalAgent)، باعث شده است تا مسدود کردن این ربات برای مالکان وب‌سایت‌ها دشوارتر شود. مالکان وب‌سایت‌ها با چالش پیچیده‌ای مواجه هستند. از یک سو، آن‌ها نمی‌خواهند داده‌های وب‌سایتشان بدون اجازه برای آموزش مدل‌های هوش مصنوعی استفاده شود. از سوی دیگر، تمایل دارند که وب‌سایتشان توسط موتورهای جستجو و سایر خدمات آنلاین فهرست‌بندی شود تا بازدیدکنندگان بیشتری جذب کند.

متا اعلام کرده است که در تلاش است تا برای ناشران، امکان مشخص کردن ترجیحاتشان را آسان‌تر کند. همچنین، این شرکت از وجود چندین ربات خزنده وب خبر داده است تا با ارائه گزینه‌های بیشتر به ناشران، انعطاف‌پذیری بیشتری را فراهم کند.

جمع‌آوری داده از وب برای آموزش مدل‌های هوش مصنوعی، یک موضوع پیچیده با ابعاد حقوقی و اخلاقی است. از یک سو، این داده‌ها برای توسعه فناوری‌های هوش مصنوعی ضروری هستند. از سوی دیگر، جمع‌آوری بی‌رویه داده‌ها بدون اجازه مالکان وب‌سایت، می‌تواند به حریم خصوصی آن‌ها آسیب برساند. شرکت‌ها و قانون‌گذاران باید برای یافتن راه حل‌هایی تعادلی تلاش کنند تا از یک سو، توسعه فناوری‌های هوش مصنوعی را تسهیل کنند و از سوی دیگر، حقوق مالکان وب‌سایت‌ها را نیز رعایت کنند.

برای مشاهده تازه ترین خبرها به صفحه اخبار فناوری رسانه تکنا مراجعه کنید.

منبع خبر متا برای آموزش مدل‌های هوش مصنوعی و تحلیل داده‌های وب با چالش‌هایی مواجه است پایگاه خبری تکنا به آدرس تکنا میباشد.

تکنا

ابزارهای مولد هوش مصنوعی برای آموزش خود به حجم عظیمی از داده نیاز دارند که اغلب از طریق فرایند وب‌خزیدن (scraping) از اینترنت جمع‌آوری می‌شود. شرکت متا نیز مانند سایر غول‌های فناوری، با توسعه ربات‌های جدید، به جمع‌آوری داده از وب پرداخته است. به گزارش سرویس اخبار موبایل رسانه فناوری تکنا، این ربات‌ها با هدف
منبع خبر متا برای آموزش مدل‌های هوش مصنوعی و تحلیل داده‌های وب با چالش‌هایی مواجه است پایگاه خبری تکنا به آدرس تکنا میباشد.

Leave a Comment

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *