پرونده: کلان داده و کاربردهای سیاسی و اجتماعی آن/ بخش اول: چیستی کلان‌داده

پرونده: کلان داده و کاربردهای سیاسی و اجتماعی آن/ بخش اول: چیستی کلان‌داده
تاریخ انتشار : ۱۹ آبان ۱۴۰۰

اصطلاح کلان داده به داده‌هایی گفته می‌شود که بسیار بزرگ و پیچیده هستند و پردازش آن‌ها با استفاده از روش‌های سنتی دشوار یا غیرممکن است و عمل دستیابی و ذخیره آن‌ها برای تجزیه و تحلیل، به زمان زیادی نیاز دارد.

به گزارش گرداب - با ظهور و گسترش استفاده از اینترنت، رسانه‌های اجتماعی به بخشی جدایی ناپذیر از برنامه روزمره افراد تبدیل شده‌اند. رسانه‌های اجتماعی نه تنها برای برقراری ارتباط با دیگران استفاده می‌شوند، بلکه بستر مناسبی برای ارائه مشاغل به مخاطبان خود هستند. با ظهور کلان داده‌ها، بازاریابی در شبکه‌های اجتماعی به مرحله جدیدی رسیده است.

تمام به‌روزرسانی‌ها، عکس‌ها و فیلم‌های ارسال شده توسط کاربران در شبکه‌های اجتماعی، حاوی اطلاعات مفیدی در مورد افراد، علایق و گرایش‌ها، بیزاری‌های‌شان و ... است. مشاغل و سازمان‌ها از این اطلاعات به روش‌های مختلفی استفاده می‌کنند. مدیریت و تجزیه و تحلیل این داده‌ها به آن‌ها کمک می‌کند تا مشتریان و علایق‌شان را شناسایی کنند و از مزیت‌های رقابتی برخوردار شوند.

همان‌طور که اکثر ما می‌دانیم، بسیاری از شبکه‌های اجتماعی و برنامه‌های تحت وب و سایت‌هایی مانند گوگل و اینستاگرام اطلاعات زیادی در مورد بازدید کنندگان صفحات‌مان در اختیار ما می‌گذارند. اگر از این داده‌ها استفاده کرده باشید به احتمال زیاد می‌دانید که همین تعداد بازدید‌ها و لایک‌ها در تصمیم‌گیری‌ها و انتخاب روش‌های بازاریابی چقدر کمک‌کننده هستند.

حالا تصور کنید که چنین اطلاعاتی و حتی اطلاعات بسیار دقیقی از افراد یک جامعه در دست باشد. کاملا واضح است که تحلیل علایق و ترجیحات و هم‌چنین کشف گرایشات افراد به مسئولین و حاکمان کمک می‌کند تا تصمیمات درستی برای اداره جامعه بگیرند. اما آیا این حجم از داده قابل دسترسی است؟ و آیا این داده‌ها از طرف مخالفین یک ملت و دولت قابل استفاده است یا خیر؟ در ادامه جواب تمامی این سوالات را بر اساس شواهد موجود بررسی خواهیم کرد. قبل از هر چیزی باید ماهیت و طرز کار این داده‌ها را بشناسید.

‌کلان داده چیست؟

‌قبل از این که به معرفی Big Data بپردازیم، ابتدا باید بدانید که داده به چه معناست؟ داده‌ها، مقادیر، کاراکتر‌ها یا نماد‌هایی هستند که توسط رایانه تولید می‌شوند. این اطلاعات ممکن است به صورت سیگنال‌های الکتریکی ذخیره و منتقل شده و در نوار مغناطیسی، نوری یا مکانیکی ثبت شوند.

Big Data مجموعه‌ای از داده‌هاست که حجم بسیار زیادی دارد و در عین حال با گذشت زمان رشد زیادی می‌کند. اصطلاح کلان داده به داده‌هایی گفته می‌شود که بسیار بزرگ و پیچیده هستند و پردازش آن‌ها با استفاده از روش‌های سنتی دشوار یا غیرممکن است و عمل دستیابی و ذخیره آن‌ها برای تجزیه و تحلیل، به زمان زیادی نیاز دارد.

از مشخصات کلان داده‌ها می‌توان به حجم زیاد، سرعت بالا و تنوع فراوان اشاره کرد. منابع این داده‌ها پیچیده‌تر از منابع داده‌های سنتی است، زیرا توسط هوش مصنوعی (AI)، دستگاه‌های تلفن همراه، رسانه‌های اجتماعی و اینترنت اشیا (IoT) تولید و هدایت می‌شوند. به عنوان مثال، انواع مختلف داده‌ها از حسگرها، دستگاه‌ها، فیلم و صدا، شبکه‌ها، فایل‌های گزارش، برنامه‌های معاملاتی، وب و رسانه‌های اجتماعی گرفته می‌شوند.

میزان داده‌ها در دنیای امروز حیرت انگیز است. دانشمندان، تحلیلگران، محققان و کاربران تجاری می‌توانند از این منابع داده‌های جدید، برای تجزیه و تحلیل استفاده کنند تا بینش عمیق‌تری نسبت به کسب‌وکار یا حیطه تحقیقاتی به دست آورند. برخی از تکنیک‌های معمول استفاده از این داده‌ها شامل: داده‌کاوی، تجزیه و تحلیل متن، تجسم داده‌ها، هوش مصنوعی، یادگیری ماشین و ... است.

با تجزیه و تحلیل کلان داده‌ها، در نهایت می‌توان تصمیم‌گیری بهتر و سریعتری داشت و مدل‌سازی و پیش‌بینی نتایج آینده را به درستی انجام داد و هوش تجاری را تقویت کرد. نرم‌افزار‌های منبع‌بازی مانند پایگاه داده‌های شرکت‌های بزرگ اینترنتی گوگل، مایکروسافت و ... و هم‌چنین شبکه‌های اجتماعی، Apache Hadoop، Apache Spark و کل اکوسیستم Hadoop از ابزار‌های ذخیره‌سازی و پردازش این داده‌ها هستند.

پرونده: کلان داده و کاربردهای سیاسی و اجتماعی آن/ بخش اول: چیستی کلان‌داده

انواع کلان داده‌ها

۱. ساختارمند

هر داده‌ای که بتواند به صورت یک قالب ثابت ذخیره و پردازش شود، داده ساختار یافته نامیده می‌شود. داده‌های ساختار یافته در پایگاه داده‌ها که بر اساس زبان جست‌وجوی (SQL) هستند، از این نوع محسوب می‌شوند. در طول زمان، علوم کامپیوتر در توسعه تکنیک‌های کار با چنین داده‌هایی (که در آن قالب از قبل کاملاً شناخته شده است) موفقیت‌های زیادی کسب کرده و هنوز هم در حال پیشرفت است.

امروزه پیش‌بینی می‌شود که اندازه این داده‌ها چند زتابایت باشد (۱۰۲۱ بایت برابر با ۱ zettabyte است). با نگاهی به این ارقام می‌توان به راحتی چالش‌های موجود در ذخیره سازی و پردازش آن‌ها را تصور کرد. داده‌های ذخیره شده در یک سیستم مدیریت پایگاه داده، یکی از نمونه‌های داده‌های ساختار یافته هستند.

۲. بدون ساختار

هر داده‌ای با فرم یا ساختار ناشناخته به عنوان داده‌های بدون ساختار طبقه‌بندی می‌شود. داده‌های بدون ساختار علاوه بر بزرگ بودن، از نظر پردازش نیز چالش‌های متعددی را ایجاد می‌کنند. یک نمونه معمول از داده‌های بدون ساختار، ترکیبی از فایل‌های متنی ساده، تصاویر، فیلم‌ها و ... است. اکنون سازمان‌ها روزانه داده‌های زیادی را در دسترس خود دارند، اما متأسفانه، آن‌ها نمی‌دانند که چگونه آن‌ها را بررسی کنند چرا که این داده‌ها به شکل خام یا قالب بدون ساختارند.

۳. نیمه ساختار یافته

داده‌های نیمه ساختار یافته می‌توانند حاوی هر دو شکل داده باشند. ما می‌توانیم داده‌های نیمه ساختار یافته را به صورت ساختاری در فرم ببینیم. نمونه‌هایی از داده‌های نیمه ساختار یافته، گزارش‌های وب سرور یا جریان داده‌های حسگر‌ها هستند.

ویژگی اصلی کلان داده‌ها کدامند؟

کلان داده‌ها را می‌توان برای تصمیم‌گیری بهتر و حرکت‌های استراتژیک تجاری، تجزیه و تحلیل کرد. سیستم‌هایی که کلان داده‌ها را پردازش و ذخیره می‌کنند، به بخش مشترک و متداول مدیریت داده در سازمان‌ها تبدیل شده‌اند.

کلان داده‌ها اغلب با ویژگی‌هایی نظیر حجم بسیار داده‌ها، تنوع فراوان و سرعت بالای تولید شناخته می‌شوند. این خصوصیات ابتدا توسط داگ لنی و سپس توسط تحلیلگران Meta Group Inc، در سال ۲۰۰۱ شناسایی شد. در ادامه برخی از ویژگی‌های کلان داده‌ها را به تفصیل شرح می‌دهیم.

حجم: داده‌ها زمانی به عنوان یک داده بزرگ در نظر گرفته می‌شوند که حجم زیادی داشته باشند. سازمان‌ها، داده‌ها را از منابع مختلف از جمله معاملات تجاری، دستگاه‌های هوشمند (اینترنت اشیا)، تجهیزات صنعتی، فیلم‌ها، رسانه‌های اجتماعی و ... جمع‌آوری می‌کنند. در گذشته، ذخیره‌سازی این داده‌ها امری دشوار بود. اما ذخیره‌سازی در پلتفرم‌هایی مانند Hadoop، این کار را آسان‌تر و ارزان‌تر کرده است.

سرعت: با رشد اینترنت اشیا، داده‌ها با سرعتی بی‌سابقه تولید می‌شوند و باید به موقع بررسی شوند. جریان داده‌ها، گسترده و مداوم است و این سیل داده‌ها در فرآیند ذخیره‌سازی و مدیریت چالش‌های زیادی ایجاد کرده است.

کیفیت: از آن‌جا که داده‌ها از منابع مختلفی به دست می‌آیند، پیوند دادن، همسان سازی، پاکسازی و تبدیل داده‌ها در سیستم‌ها دشوار است. مشاغل باید روابط، سلسله مراتب و پیوند‌های داده‌ای متعدد را به هم ربط دهند. در غیر این صورت، داده‌های آن‌ها به سرعت از کنترل خارج می‌شوند.

تنوع: ویژگی بعدی کلان داده‌ها، تنوع آن‌هاست. منظور از تنوع، منابع ناهمگن و ماهیت داده‌ها اعم از ساختاری و غیر ساختاری است. چندین سال پیش، صفحات وب و پایگاه داده تنها منابع داده‌ای بودند. امروزه، داده‌ها به صورت ایمیل، عکس، فیلم، PDF، صدا و ... به منابع داده‌های قابل بررسی اضافه شده‌اند. این تنوع داده‌های غیر ساختاری، چالش‌های خاصی را برای ذخیره‌سازی، استخراج و تجزیه و تحلیل داده‌ها به وجود می‌آورند.

جریان تولید غیرقابل پیش‌بینی: علاوه بر افزایش سرعت و تنوع داده‌ها، جریان تولید داده‌ها، غیرقابل پیش‌بینی هستند. اغلب تغییر می‌کنند و بسیار متفاوت‌اند. مشاغل باید بدانند که چه چیزی در رسانه‌های اجتماعی رو به پیشرفت است و چگونه می‌توان حداکثر بار داده روزانه، فصلی و بار ناشی از رویداد‌ها را مدیریت کرد.

پرونده: کلان داده و کاربردهای سیاسی و اجتماعی آن/ بخش اول: چیستی کلان‌داده

نمونه‌هایی از کلان داده‌ها

۱. بورس اوراق بهادار روزانه حدود یک ترابایت داده تجاری جدید تولید می‌کند.

۲. رسانه‌های اجتماعی: این آمار نشان می‌دهد که روزانه بیش از ۵۰۰ ترابایت داده جدید به پایگاه داده‌های رسانه‌های اجتماعی مانند فیسبوک وارد می‌شود. این داده‌ها عمدتا از نوع بارگذاری عکس و فیلم، تبادل پیام، قرار دادن نظر و ... هستند.

۳. یک موتور جت در ۳۰ دقیقه حین پرواز می‌تواند بیش از ۱۰ ترابایت داده تولید کند. با هزاران پرواز در روز، تولید داده به چندین پتابایت می‌رسد.

کلان داده‌ها از منابع بی‌شماری مانند سیستم‌های معاملات تجاری، پایگاه‌های اطلاعاتی مشتریان، سوابق پزشکی، جریان اینترنت (گوگل، یاهو و ایمیل)، برنامه‌های تلفن‌همراه (پیام‌رسان‌ها)، شبکه‌های اجتماعی (یوتیوب، فیسبوک، اینستاگرام و غیره)، مخازن تحقیقات علمی، داده‌های تولید شده در ماشین و حسگر‌های داده به دست می‌آیند.

این داده‌ها ممکن است به صورت خام در سیستم‌ها باقی بمانند یا با استفاده از ابزار‌های داده‌کاوی یا نرم‌افزار آماده‌سازی داده‌ها، برای تجزیه و تحلیل پیش پردازش شوند. می‌توانید این کلان داده‌ها را هنگام دریافت، تجزیه و تحلیل کنید و تصمیم بگیرید که کدام داده‌ها را نگه دارید یا نگه ندارید، و کدام‌یک نیاز به تجزیه و تحلیل بیش‌تری دارند.

داده‌های رسانه‌های اجتماعی از تعاملات در فیسبوک، یوتیوب، اینستاگرام و ... تولید می‌شوند که شامل مقادیر زیادی داده بزرگ به شکل تصاویر، فیلم‌ها، متن و صدا هستند. این داده‌ها غالباً به صورت بدون ساختار یا نیمه ساختار یافته هستند، بنابراین تجزیه و تحلیل و استفاده از آن‌ها چالش بزرگی است.

چرا کلان داده‌ها حائز اهمیت هستند؟

اهمیت کلان داده‌ها به دلیل کارایی آن‌هاست. می‌توان داده‌ها را از هر منبعی جمع‌آوری و آن‌ها را تجزیه و تحلیل کرد، که این تحلیل در حوزه‌های اقتصادی باعث کاهش هزینه، کاهش زمان، توسعه محصول جدید و ارائه پیشنهادات بهینه و تصمیم‌گیری هوشمند می‌شود.

با استفاده از فناوری‌هایی مانند محاسبات شبکه یا تجزیه و تحلیل حافظه، سازمان‌ها می‌توانند از همه کلان داده‌های خود برای تجزیه و تحلیل استفاده کنند. روش دیگر این است که قبل از تجزیه و تحلیل مشخص شود که کدام داده‌ها مربوط به فعالیت هستند. کلان داده‌ها منبعی برای تجزیه و تحلیل‌های پیشرفته امروز مانند هوش مصنوعی هستند.

داده‌های معتبر و مدیریت شده، منجر به تجزیه و تحلیل‌های موثق و در نهایت تصمیم‌گیری‌های قابل اعتماد می‌شوند. مزایای داده محور بودن واضح است. سازمان‌های داده محور عملکرد بهتری دارند، از نظر عملیاتی بهتر عمل می‌کنند و سودآوری بیش‌تری دارند.

شرکت‌ها از کلان داده‌های جمع‌آوری شده در سیستم‌های خود برای ارائه خدمات بهتر به مشتریان، بازاریابی بر اساس ترجیحات مشتری و در نهایت افزایش سودآوری استفاده می‌کنند.

کلان داده‌ها دیدگاه‌های ارزشمندی را در مورد مشتریان در اختیار شرکت‌ها قرار می‌دهند که می‌تواند برای اصلاح تکنیک‌های بازاریابی به منظور افزایش تعامل و نرخ تبدیل مشتری استفاده شود.

علاوه بر این، استفاده از این اطلاعات به شرکت‌ها کمک می‌کند مشتری مدار شوند. از داده‌های تاریخی می‌توان برای ارزیابی ترجیحات مصرف‌کنندگان استفاده کرد و بیش‌تر به خواسته‌ها و نیاز‌های مشتریان پاسخ داد.

کلان داده‌ها هم‌چنین توسط محققان برای شناسایی عوامل بیماری و توسط پزشکان برای کمک به تشخیص بیماری‌ها و شرایط بیماران استفاده می‌شوند. علاوه بر این، داده‌های به دست آمده از سوابق الکترونیکی بهداشتی، رسانه‌های اجتماعی، وب و منابع دیگر، اطلاعات شیوع بیماری‌های عفونی مانند کووید-۱۹ را به سازمان‌های بهداشتی و آژانس‌های دولتی ارائه می‌دهند.

در صنعت انرژی، کلان داده‌ها به شرکت‌های نفت و گاز کمک می‌کند تا مکان‌های حفاری را شناسایی کرده و عملیات خط لوله را رصد کنند؛ و به همین ترتیب، سرویس‌های برق از آن برای ردیابی شبکه‌های برق استفاده می‌کنند.

شرکت‌های خدمات مالی از سیستم‌های کلان داده برای مدیریت ریسک و تجزیه و تحلیل زمان واقعی داده‌های بازار استفاده می‌کنند.

تولیدکنندگان و شرکت‌های حمل و نقل برای مدیریت زنجیره تامین خود و بهینه سازی مسیر‌های تحویل به کلان داده‌ها اعتماد می‌کنند.

اقدامات دیگر دولت‌ها مانند اقدامات اضطراری، پیشگیری از جرم و طراحی شهر هوشمند نیز با استفاده از این داده‌ها قابل اجراست.

اما یکی دیگر از کاربرد‌های این داده‌ها در سیاست بین‌الملل است که از جنجالی‌ترین بحث‌های روز دنیا محسوب می‌شود.