Reddit لتحديث معيار الويب لمنع التجريد الآلي لموقع الويب بواسطة رويترز

(رويترز) – قالت منصة التواصل الاجتماعي ريديت يوم الثلاثاء إنها ستقوم بتحديث معيار الويب الذي تستخدمه المنصة لمنع الحذف الآلي للبيانات من موقعها على الإنترنت، بعد تقارير تفيد بأن الشركات الناشئة في مجال الذكاء الاصطناعي كانت تتجاوز القاعدة لجمع المحتوى لأنظمتها.
وتأتي هذه الخطوة في الوقت الذي اتُهمت فيه شركات الذكاء الاصطناعي بسرقة محتوى من الناشرين لإنشاء ملخصات تم إنشاؤها بواسطة الذكاء الاصطناعي دون منح الائتمان أو طلب الإذن.
قال موقع Reddit إنه سيقوم بتحديث بروتوكول استبعاد الروبوتات، أو “robots.txt”، وهو معيار مقبول على نطاق واسع يهدف إلى تحديد أجزاء الموقع المسموح بالزحف إليها.
وقالت الشركة أيضًا إنها ستحافظ على تحديد المعدل، وهي تقنية تستخدم للتحكم في عدد الطلبات الواردة من كيان معين، وستمنع الروبوتات وبرامج الزحف غير المعروفة من تجريف البيانات – جمع المعلومات الأولية وحفظها – على موقعها الإلكتروني.
في الآونة الأخيرة، أصبح ملف robots.txt أداة رئيسية يستخدمها الناشرون لمنع شركات التكنولوجيا من استخدام المحتوى الخاص بهم مجانًا لتدريب خوارزميات الذكاء الاصطناعي وإنشاء ملخصات استجابة لبعض استعلامات البحث.
في الأسبوع الماضي، قالت رسالة إلى الناشرين من شركة TollBit الناشئة في مجال ترخيص المحتوى، إن العديد من شركات الذكاء الاصطناعي كانت تتحايل على معيار الويب لانتزاع مواقع الناشرين.
يأتي ذلك في أعقاب تحقيق Wired الذي وجد أن شركة Perplexity الناشئة للبحث عن الذكاء الاصطناعي ربما تجاوزت الجهود المبذولة لمنع زاحف الويب الخاص بها عبر ملف robots.txt.
في وقت سابق من شهر يونيو، اتهم ناشر وسائل الإعلام التجارية فوربس شركة بيربليكسيتي بسرقة قصصها الاستقصائية لاستخدامها في أنظمة الذكاء الاصطناعي التوليدية دون منح الفضل.
قال Reddit يوم الثلاثاء إن الباحثين والمنظمات مثل Internet Archive سيستمرون في الوصول إلى محتواه للاستخدام غير التجاري.