ویکیپدیا برای توسعهدهندگان هوش مصنوعی مجموعه داده اختصاصی منتشر کرد
بنیاد ویکیمدیا که نهاد پشتیبان ویکیپدیا است، برای مقابله با رباتهای هوش مصنوعی که بهطور مداوم اطلاعات این پلتفرم را استخراج میکنند، مجموعهای از دادهها را منتشر کرده که بهطور خاص برای آموزش مدلهای هوش مصنوعی طراحی شدهاند.
ویکیمدیا اعلام کرده با همکاری پلتفرم Kaggle (که تحت مالکیت گوگل قرار دارد و میزبان دادههای مرتبط با یادگیری ماشینی است)، نسخه بتای یک مجموعه داده که شامل محتوای ساختاریافته ویکیپدیا به زبانهای انگلیسی و فرانسوی میشود را منتشر کرده است.
کمک مجموعه داده ویکیپدیا به توسعهدهندگان هوش مصنوعی

طبق اعلام ویکیمدیا، این مجموعه داده با در نظر گرفتن نیازهای توسعهدهندگان هوش مصنوعی طراحی شده و دسترسی به اطلاعات قابلخواندن توسط ماشین برای آموزش، تنظیم دقیق، ارزیابی، تطبیق و تحلیل مدلهای هوش مصنوعی را آسانتر میکند.
این دادهها با مجوز آزاد منتشر شدهاند و شامل خلاصههای پژوهشی، توضیحات کوتاه، لینک تصاویر، دادههای اینفوباکس و بخشبندی مقالات میشود، اما ارجاعات و فایلهای غیردستنویس مانند فایلهای صوتی در آنها وجود ندارد.
بنیاد ویکیمدیا در بیانیه خود میگوید این دادهها که در قالب فایلهای JSON ارائه شدهاند، میتوانند جایگزین بهتری برای استخراج مستقیم و تجزیه متن خام مقالات باشند. استخراج داده توسط رباتها درحالحاضر فشار زیادی بر سرورهای ویکیپدیا وارد کرده، چرا که این رباتهای هوش مصنوعی بهطور گستردهای از پهنای باند آن استفاده میکنند.
پیشازاین نیز ویکیمدیا با شرکتهایی مانند گوگل و Internet Archive قراردادهایی برای اشتراکگذاری محتوا امضا کرده بود، اما همکاری با Kaggle میتواند دادههای ویکیپدیا را برای شرکتهای کوچکتر و پژوهشگران مستقل نیز در دسترستر قرار دهد.
«برندا فلین»، مدیر همکاریهای Kaggle، درباره این همکاری گفت:
«از اینکه میزبان دادههای بنیاد ویکیمدیا هستیم بسیار هیجانزدهایم. Kaggle با افتخار نقش خود را در حفظ دسترسی، بهرهوری و مفید بودن این دادهها ایفا خواهد کرد.»
- ویژگی اشتراکگذاری صفحه و دوربین با جمینای برای همه کاربران اندروید رایگان شد [تماشا کنید]
- OpenAI از Codex CLI رونمایی کرد؛ ابزار کدنویسی اوپن سورس برای ترمینالها
- دولت ترامپ احتمالاً دسترسی به دیپسیک را در آمریکا مسدود میکند
- هوش مصنوعی جدید و فوق بهینه مایکروسافت با قابلیت اجرا روی CPU معرفی شد
- دیپمایند رویکرد جدیدی برای جلوگیری از نفوذ هکرها به مدلهای هوش مصنوعی معرفی کرد
- جمینای 2.5 فلش معرفی شد؛ اولین هوش مصنوعی هیبریدی گوگل
- OpenAI از «پردازش فلکس» رونمایی کرد؛ کاهش 50 درصدی هزینه استفاده از o3 و o4-mini
- مدلهای هوش مصنوعی استدلالگر جدید OpenAI بیشتر دچار توهم میشوند
- ChatGPT حالا از حافظهاش برای شخصیسازی جستجوی وب استفاده میکند
- ChatGPT حالا میتواند موقعیت مکانی عکسها را با دقتی شگفتانگیز شناسایی کند




