راه‌حل به صرفه یادگیری ماشین برای حفظ امنیت کلان‌داده‌ها

راه‌حل به صرفه یادگیری ماشین برای حفظ امنیت کلان‌داده‌ها
تاریخ انتشار : ۲۹ آبان ۱۴۰۰

دانشمندان توانسته‌اند با استفاده از روش‌های جدید از یادگیری ماشین به شکلی ایمن برای پردازش کلان‌داده‌ها استفاده کنند.

به گزارش گرداب، دانشمندان بخش کامپیوتر در دانشگاه رایس، راه‌حلی بهتر و ارزان‌تر برای شرکت‌های فناوری‌ای که می‌خواهند امنیت حریم خصوصی داده‌های شخصی خود را به هنگام استفاده یا اشتراک‌گذاری کلان‌داده‌ها برای یادگیری ماشینی بالا ببرند، پیدا کرده‌اند.

دانشیار علوم کامپیوتر، آنشومالی شریواستاوا (Anshumali Shrivastava)، بر این باور است که یادگیری ماشینی می‌تواند فواید زیادی داشته باشد به شرط این که بتوان از امنیت حریم خصوصی داده‌ها اطمینان حاصل کرد.

او گفت که از یادگیری ماشینی می‌توان برای جست‌وجوی الگو‌ها مانند الگو‌های تبعیضی در پایگاه‌های داده بزرگ سوابق پزشکی یا مالی استفاده کرد، اما در حال حاضر، این امر به دلیل نبود امنیت لازم در حفظ حریم خصوصی داده‌ها، غیر ممکن است.

شریواستاوا و دانشجوی فارغ‌التحصیل شده او به نام بِن کولمن امیدوارند با روش جدیدی که کشف کرده‌اند، بتوان این وضعیت را تغییر داد.

راه‌حل به صرفه یادگیری ماشین برای حفظ امنیت کلان‌داده‌ها

آن‌ها با استفاده از تکنیکی به نام هش کردن بخش‌های حساس، توانستند تا خلاصه کوچکی از یک پایگاه عظیم داده با اطلاعات حساس ایجاد کنند.

این روش رِیس (RACE) نام‌گذاری شده است. به گفته کولمن، طرح‌های رِیس هم برای دسترسی عمومی و هم الگوریتم‌هایی که از سیستم عامل کرنل استفاده می‌کنند بی‌خطر است. این طرح برای برنامه‌های یادگیری ماشینی که کار‌های معمولی مانند طبقه‌بندی، رتبه‌بندی و تحلیل رگرسیون انجام می‌دهند نیز مفید است.

او اضافه کرد که شرکت‌های فناوری از این طریق می‌توانند هم از مزایای یادگیری ماشینی در مقیاس بزرگ و هم از حریم خصوصی تفاضلی (Differential Privacy) برخوردار شوند. حریم خصوصی تفاضلی که غول‌های فناوری از آن استفاده می‌کنند، مبتنی بر ایده اضافه کردن نویز تصادفی برای مبهم کردن اطلاعات فردی است.

ابعاد داده‌ها به شدت زیاد است، اما مقیاس طرح رِیس می‌تواند آن را پوشش دهد. طرح‌ها کوچک هستند و نیاز‌های محاسباتی و حافظه لازم برای ساخت آن‌ها به راحتی قابل توزیع است.

شریواستاوا می‌گوید که اگر امروزه مهندسان بخواهند تا از سیستم عامل‌های کرنل استفاده کنند، یا باید همه بودجه خود را خرج آن کنند و یا حریم خصوصی کاربران خود را در معرض خطر قرار دهند. بی‌شک استفاده از رِیس، ساده، سریع و صد برابر ارزان‌تر از روش‌های فعلی است.

راه‌حل به صرفه یادگیری ماشین برای حفظ امنیت کلان‌داده‌ها

این جدیدترین نوآوری شریواستاوا و شاگردانش است. آن‌ها قبلا استراتژی‌های الگوریتمی زیادی برای سریع‌تر و مقیاس‌پذیر کردن یادگیری ماشینی ارائه داده‌اند.

آن‌ها هم‌چنین راه‌های بهینه برای شرکت‌های رسانه‌های اجتماعی جهت جلوگیری از انتشار اطلاعات نادرست آنلاین پیدا کردند، راه‌حلی برای ۱۰ برابر کردن سرعت سیستم‌های یادگیری عمیق در مقیاس بزرگ و رفع مشکلات دسته‌بندی ارائه کردند، توانستند تا دقیق‌تر تعداد قربانیان در جنگ داخلی سوریه را تخمین بزنند، نشان دادند که می‌توان سرعت آموزش شبکه‌های عصبی عمیق را در CPU‌های عمومی (واحد‌های پردازش مرکزی) در مقایسه با GPU‌ها (واحد‌های پردازش گرافیکی) ۱۵ برابر کرد و در نهایت راهی برای کم‌تر کردن زمان مورد نیاز برای جست‌وجوی پایگاه‌های داده بزرگ متاژنومی کشف کردند.