دانشمندان توانستهاند با استفاده از روشهای جدید از یادگیری ماشین به شکلی ایمن برای پردازش کلاندادهها استفاده کنند.
به گزارش گرداب، دانشمندان بخش کامپیوتر در دانشگاه رایس، راهحلی بهتر و ارزانتر برای شرکتهای فناوریای که میخواهند امنیت حریم خصوصی دادههای شخصی خود را به هنگام استفاده یا اشتراکگذاری کلاندادهها برای یادگیری ماشینی بالا ببرند، پیدا کردهاند.
دانشیار علوم کامپیوتر، آنشومالی شریواستاوا (Anshumali Shrivastava)، بر این باور است که یادگیری ماشینی میتواند فواید زیادی داشته باشد به شرط این که بتوان از امنیت حریم خصوصی دادهها اطمینان حاصل کرد.
او گفت که از یادگیری ماشینی میتوان برای جستوجوی الگوها مانند الگوهای تبعیضی در پایگاههای داده بزرگ سوابق پزشکی یا مالی استفاده کرد، اما در حال حاضر، این امر به دلیل نبود امنیت لازم در حفظ حریم خصوصی دادهها، غیر ممکن است.
شریواستاوا و دانشجوی فارغالتحصیل شده او به نام بِن کولمن امیدوارند با روش جدیدی که کشف کردهاند، بتوان این وضعیت را تغییر داد.
آنها با استفاده از تکنیکی به نام هش کردن بخشهای حساس، توانستند تا خلاصه کوچکی از یک پایگاه عظیم داده با اطلاعات حساس ایجاد کنند.
این روش رِیس (RACE) نامگذاری شده است. به گفته کولمن، طرحهای رِیس هم برای دسترسی عمومی و هم الگوریتمهایی که از سیستم عامل کرنل استفاده میکنند بیخطر است. این طرح برای برنامههای یادگیری ماشینی که کارهای معمولی مانند طبقهبندی، رتبهبندی و تحلیل رگرسیون انجام میدهند نیز مفید است.
او اضافه کرد که شرکتهای فناوری از این طریق میتوانند هم از مزایای یادگیری ماشینی در مقیاس بزرگ و هم از حریم خصوصی تفاضلی (Differential Privacy) برخوردار شوند. حریم خصوصی تفاضلی که غولهای فناوری از آن استفاده میکنند، مبتنی بر ایده اضافه کردن نویز تصادفی برای مبهم کردن اطلاعات فردی است.
ابعاد دادهها به شدت زیاد است، اما مقیاس طرح رِیس میتواند آن را پوشش دهد. طرحها کوچک هستند و نیازهای محاسباتی و حافظه لازم برای ساخت آنها به راحتی قابل توزیع است.
شریواستاوا میگوید که اگر امروزه مهندسان بخواهند تا از سیستم عاملهای کرنل استفاده کنند، یا باید همه بودجه خود را خرج آن کنند و یا حریم خصوصی کاربران خود را در معرض خطر قرار دهند. بیشک استفاده از رِیس، ساده، سریع و صد برابر ارزانتر از روشهای فعلی است.
این جدیدترین نوآوری شریواستاوا و شاگردانش است. آنها قبلا استراتژیهای الگوریتمی زیادی برای سریعتر و مقیاسپذیر کردن یادگیری ماشینی ارائه دادهاند.
آنها همچنین راههای بهینه برای شرکتهای رسانههای اجتماعی جهت جلوگیری از انتشار اطلاعات نادرست آنلاین پیدا کردند، راهحلی برای ۱۰ برابر کردن سرعت سیستمهای یادگیری عمیق در مقیاس بزرگ و رفع مشکلات دستهبندی ارائه کردند، توانستند تا دقیقتر تعداد قربانیان در جنگ داخلی سوریه را تخمین بزنند، نشان دادند که میتوان سرعت آموزش شبکههای عصبی عمیق را در CPUهای عمومی (واحدهای پردازش مرکزی) در مقایسه با GPUها (واحدهای پردازش گرافیکی) ۱۵ برابر کرد و در نهایت راهی برای کمتر کردن زمان مورد نیاز برای جستوجوی پایگاههای داده بزرگ متاژنومی کشف کردند.