نیوزتل: پژوهشگران مدعی شده اند که می توان مدلهای هوش مصنوعی را بدون استفاده از محتوایی که تحت قانون کپی رایت قرار دارد توسعه داد، اما انجام این کار دشوار است.
به گزارش نیوزتل به نقل از انگجت، شرکت های هوش مصنوعی مدعی هستند ابزارهایشان بدون دریافت آموزش از محتوای شامل قانون کپی رایت نمی تواند وجود داشته باشد. حال مشخص شده آموزش این مدلها بدون چنین محتوایی ممکن اما کار سختی است.
محققان هوش مصنوعی برای اثبات این امر یک مدل جدید را آموزش دادند که قدرت کمتری دارد اما اخلاق مدارتر است برای اینکه مخزن داده ای که مدل زبانی بزرگ از آن بهره می گیرد فقط مربوط به دامنه های عمومی و محتوایی است که بطور آزاد در دسترس هستند.
این مطالعه با همکاری بین ۱۴ موسسه مختلف انجام شد. مولفان از دانشگاه هایی مانندام آی تی، کارنگی ملون و دانشگاه تورنتو انجام شده است. مؤسسات ناسودآوری مانند وکتو انستیتو و آلن انستیتو برای هوش مصنوعی نیز به پژوهش کمک کردند.
این گروه یک مخزن داده اخلاق مدار هشت ترابایتی ساختند. میان داده ها ۱۳۰ هزار کتاب موجود در کتابخانه کنگره آمریکا نیز وجود داشت. پژوهشگران بعدا یک مدل زبانی بزرگ با هفت میلیارد پارامتر را با این داده ها آموزش دادند. عملکرد مدل حاصل به خوبی مدل هوش مصنوعی Llama۲-۷B متا در سال ۲۰۲۳، بود. پژوهشگران بنچمارک هایی که برای مقایسه نتایج به کار بردند را منتشر نکردند.
البته قدرت عملکرد آنکه به اندازه یک مدل مربوط به دو سال قبل بود، تنها نکته منفی مدل توسعه یافته نبود. پروسه در کنار هم قرار دادن اجزا نیز سخت بود. ماشین ها قادر به خواندن بخش اعظم داده ها نبودند، بدین سبب انسان ها مجبور بودند آنها را غربال کنند. استلا بیدرمن، یکی ازمولفان پژوهش می گوید: «اما تمام مطالب ما در آخر روز بصورت دستی حاشیه نویسی و توسط افراد بررسی می شد و این واقعا دشوار است.» درک جزییات حقوقی نیز این پروسه را مشکل کرد.
منبع: نیوزتل