ابزارهای مولد هوش مصنوعی برای آموزش خود به حجم عظیمی از داده نیاز دارند که اغلب از طریق فرایند وبخزیدن (scraping) از اینترنت جمعآوری میشود. شرکت متا نیز مانند سایر غولهای فناوری، با توسعه رباتهای جدید، به جمعآوری داده از وب پرداخته است.
رقابت شدیدی بین شرکتهای فناوری برای توسعه مدلهای هوش مصنوعی قدرتمند وجود دارد. یکی از عوامل کلیدی در این رقابت، دسترسی به دادههای آموزشی با کیفیت بالا است. به همین دلیل، بسیاری از شرکتها از جمله گوگل، OpenAI و Anthropic، به جمعآوری داده از وب روی آوردهاند.
با این حال، جمعآوری بیرویه دادهها از وب، چالشهایی را برای مالکان وبسایتها ایجاد کرده است. بسیاری از وبسایتها از روشی به نام robots.txt برای جلوگیری از خزیدن خودکار رباتها استفاده میکنند. اما با افزایش تقاضا برای دادههای آموزشی، این روش به تنهایی کافی نیست. تحقیقات نشان میدهد که برخی شرکتها از جمله متا، OpenAI و Anthropic، به روشهای مختلفی برای دور زدن محدودیتهای robots.txt اقدام کردهاند. به عنوان مثال، ربات Meta-ExternalFetcher ممکن است قوانین robots.txt را نادیده بگیرد.
همچنین، ترکیب دو عملکرد جمعآوری دادههای آموزشی و فهرستبندی محتوا در یک ربات واحد (Meta-ExternalAgent)، باعث شده است تا مسدود کردن این ربات برای مالکان وبسایتها دشوارتر شود. مالکان وبسایتها با چالش پیچیدهای مواجه هستند. از یک سو، آنها نمیخواهند دادههای وبسایتشان بدون اجازه برای آموزش مدلهای هوش مصنوعی استفاده شود. از سوی دیگر، تمایل دارند که وبسایتشان توسط موتورهای جستجو و سایر خدمات آنلاین فهرستبندی شود تا بازدیدکنندگان بیشتری جذب کند.
متا اعلام کرده است که در تلاش است تا برای ناشران، امکان مشخص کردن ترجیحاتشان را آسانتر کند. همچنین، این شرکت از وجود چندین ربات خزنده وب خبر داده است تا با ارائه گزینههای بیشتر به ناشران، انعطافپذیری بیشتری را فراهم کند.
جمعآوری داده از وب برای آموزش مدلهای هوش مصنوعی، یک موضوع پیچیده با ابعاد حقوقی و اخلاقی است. از یک سو، این دادهها برای توسعه فناوریهای هوش مصنوعی ضروری هستند. از سوی دیگر، جمعآوری بیرویه دادهها بدون اجازه مالکان وبسایت، میتواند به حریم خصوصی آنها آسیب برساند. شرکتها و قانونگذاران باید برای یافتن راه حلهایی تعادلی تلاش کنند تا از یک سو، توسعه فناوریهای هوش مصنوعی را تسهیل کنند و از سوی دیگر، حقوق مالکان وبسایتها را نیز رعایت کنند.
منبع خبر متا برای آموزش مدلهای هوش مصنوعی و تحلیل دادههای وب با چالشهایی مواجه است پایگاه خبری تکنا به آدرس تکنا میباشد.
تکنا
ابزارهای مولد هوش مصنوعی برای آموزش خود به حجم عظیمی از داده نیاز دارند که اغلب از طریق فرایند وبخزیدن (scraping) از اینترنت جمعآوری میشود. شرکت متا نیز مانند سایر غولهای فناوری، با توسعه رباتهای جدید، به جمعآوری داده از وب پرداخته است. به گزارش سرویس اخبار موبایل رسانه فناوری تکنا، این رباتها با هدف
منبع خبر متا برای آموزش مدلهای هوش مصنوعی و تحلیل دادههای وب با چالشهایی مواجه است پایگاه خبری تکنا به آدرس تکنا میباشد.