اصطلاح کلان داده به دادههایی گفته میشود که بسیار بزرگ و پیچیده هستند و پردازش آنها با استفاده از روشهای سنتی دشوار یا غیرممکن است و عمل دستیابی و ذخیره آنها برای تجزیه و تحلیل، به زمان زیادی نیاز دارد.
به گزارش گرداب - با ظهور و گسترش استفاده از اینترنت، رسانههای اجتماعی به بخشی جدایی ناپذیر از برنامه روزمره افراد تبدیل شدهاند. رسانههای اجتماعی نه تنها برای برقراری ارتباط با دیگران استفاده میشوند، بلکه بستر مناسبی برای ارائه مشاغل به مخاطبان خود هستند. با ظهور کلان دادهها، بازاریابی در شبکههای اجتماعی به مرحله جدیدی رسیده است.
تمام بهروزرسانیها، عکسها و فیلمهای ارسال شده توسط کاربران در شبکههای اجتماعی، حاوی اطلاعات مفیدی در مورد افراد، علایق و گرایشها، بیزاریهایشان و ... است. مشاغل و سازمانها از این اطلاعات به روشهای مختلفی استفاده میکنند. مدیریت و تجزیه و تحلیل این دادهها به آنها کمک میکند تا مشتریان و علایقشان را شناسایی کنند و از مزیتهای رقابتی برخوردار شوند.
همانطور که اکثر ما میدانیم، بسیاری از شبکههای اجتماعی و برنامههای تحت وب و سایتهایی مانند گوگل و اینستاگرام اطلاعات زیادی در مورد بازدید کنندگان صفحاتمان در اختیار ما میگذارند. اگر از این دادهها استفاده کرده باشید به احتمال زیاد میدانید که همین تعداد بازدیدها و لایکها در تصمیمگیریها و انتخاب روشهای بازاریابی چقدر کمککننده هستند.
حالا تصور کنید که چنین اطلاعاتی و حتی اطلاعات بسیار دقیقی از افراد یک جامعه در دست باشد. کاملا واضح است که تحلیل علایق و ترجیحات و همچنین کشف گرایشات افراد به مسئولین و حاکمان کمک میکند تا تصمیمات درستی برای اداره جامعه بگیرند. اما آیا این حجم از داده قابل دسترسی است؟ و آیا این دادهها از طرف مخالفین یک ملت و دولت قابل استفاده است یا خیر؟ در ادامه جواب تمامی این سوالات را بر اساس شواهد موجود بررسی خواهیم کرد. قبل از هر چیزی باید ماهیت و طرز کار این دادهها را بشناسید.
کلان داده چیست؟
قبل از این که به معرفی Big Data بپردازیم، ابتدا باید بدانید که داده به چه معناست؟ دادهها، مقادیر، کاراکترها یا نمادهایی هستند که توسط رایانه تولید میشوند. این اطلاعات ممکن است به صورت سیگنالهای الکتریکی ذخیره و منتقل شده و در نوار مغناطیسی، نوری یا مکانیکی ثبت شوند.
Big Data مجموعهای از دادههاست که حجم بسیار زیادی دارد و در عین حال با گذشت زمان رشد زیادی میکند. اصطلاح کلان داده به دادههایی گفته میشود که بسیار بزرگ و پیچیده هستند و پردازش آنها با استفاده از روشهای سنتی دشوار یا غیرممکن است و عمل دستیابی و ذخیره آنها برای تجزیه و تحلیل، به زمان زیادی نیاز دارد.
از مشخصات کلان دادهها میتوان به حجم زیاد، سرعت بالا و تنوع فراوان اشاره کرد. منابع این دادهها پیچیدهتر از منابع دادههای سنتی است، زیرا توسط هوش مصنوعی (AI)، دستگاههای تلفن همراه، رسانههای اجتماعی و اینترنت اشیا (IoT) تولید و هدایت میشوند. به عنوان مثال، انواع مختلف دادهها از حسگرها، دستگاهها، فیلم و صدا، شبکهها، فایلهای گزارش، برنامههای معاملاتی، وب و رسانههای اجتماعی گرفته میشوند.
میزان دادهها در دنیای امروز حیرت انگیز است. دانشمندان، تحلیلگران، محققان و کاربران تجاری میتوانند از این منابع دادههای جدید، برای تجزیه و تحلیل استفاده کنند تا بینش عمیقتری نسبت به کسبوکار یا حیطه تحقیقاتی به دست آورند. برخی از تکنیکهای معمول استفاده از این دادهها شامل: دادهکاوی، تجزیه و تحلیل متن، تجسم دادهها، هوش مصنوعی، یادگیری ماشین و ... است.
با تجزیه و تحلیل کلان دادهها، در نهایت میتوان تصمیمگیری بهتر و سریعتری داشت و مدلسازی و پیشبینی نتایج آینده را به درستی انجام داد و هوش تجاری را تقویت کرد. نرمافزارهای منبعبازی مانند پایگاه دادههای شرکتهای بزرگ اینترنتی گوگل، مایکروسافت و ... و همچنین شبکههای اجتماعی، Apache Hadoop، Apache Spark و کل اکوسیستم Hadoop از ابزارهای ذخیرهسازی و پردازش این دادهها هستند.
انواع کلان دادهها
۱. ساختارمند
هر دادهای که بتواند به صورت یک قالب ثابت ذخیره و پردازش شود، داده ساختار یافته نامیده میشود. دادههای ساختار یافته در پایگاه دادهها که بر اساس زبان جستوجوی (SQL) هستند، از این نوع محسوب میشوند. در طول زمان، علوم کامپیوتر در توسعه تکنیکهای کار با چنین دادههایی (که در آن قالب از قبل کاملاً شناخته شده است) موفقیتهای زیادی کسب کرده و هنوز هم در حال پیشرفت است.
امروزه پیشبینی میشود که اندازه این دادهها چند زتابایت باشد (۱۰۲۱ بایت برابر با ۱ zettabyte است). با نگاهی به این ارقام میتوان به راحتی چالشهای موجود در ذخیره سازی و پردازش آنها را تصور کرد. دادههای ذخیره شده در یک سیستم مدیریت پایگاه داده، یکی از نمونههای دادههای ساختار یافته هستند.
۲. بدون ساختار
هر دادهای با فرم یا ساختار ناشناخته به عنوان دادههای بدون ساختار طبقهبندی میشود. دادههای بدون ساختار علاوه بر بزرگ بودن، از نظر پردازش نیز چالشهای متعددی را ایجاد میکنند. یک نمونه معمول از دادههای بدون ساختار، ترکیبی از فایلهای متنی ساده، تصاویر، فیلمها و ... است. اکنون سازمانها روزانه دادههای زیادی را در دسترس خود دارند، اما متأسفانه، آنها نمیدانند که چگونه آنها را بررسی کنند چرا که این دادهها به شکل خام یا قالب بدون ساختارند.
۳. نیمه ساختار یافته
دادههای نیمه ساختار یافته میتوانند حاوی هر دو شکل داده باشند. ما میتوانیم دادههای نیمه ساختار یافته را به صورت ساختاری در فرم ببینیم. نمونههایی از دادههای نیمه ساختار یافته، گزارشهای وب سرور یا جریان دادههای حسگرها هستند.
ویژگی اصلی کلان دادهها کدامند؟
کلان دادهها را میتوان برای تصمیمگیری بهتر و حرکتهای استراتژیک تجاری، تجزیه و تحلیل کرد. سیستمهایی که کلان دادهها را پردازش و ذخیره میکنند، به بخش مشترک و متداول مدیریت داده در سازمانها تبدیل شدهاند.
کلان دادهها اغلب با ویژگیهایی نظیر حجم بسیار دادهها، تنوع فراوان و سرعت بالای تولید شناخته میشوند. این خصوصیات ابتدا توسط داگ لنی و سپس توسط تحلیلگران Meta Group Inc، در سال ۲۰۰۱ شناسایی شد. در ادامه برخی از ویژگیهای کلان دادهها را به تفصیل شرح میدهیم.
حجم: دادهها زمانی به عنوان یک داده بزرگ در نظر گرفته میشوند که حجم زیادی داشته باشند. سازمانها، دادهها را از منابع مختلف از جمله معاملات تجاری، دستگاههای هوشمند (اینترنت اشیا)، تجهیزات صنعتی، فیلمها، رسانههای اجتماعی و ... جمعآوری میکنند. در گذشته، ذخیرهسازی این دادهها امری دشوار بود. اما ذخیرهسازی در پلتفرمهایی مانند Hadoop، این کار را آسانتر و ارزانتر کرده است.
سرعت: با رشد اینترنت اشیا، دادهها با سرعتی بیسابقه تولید میشوند و باید به موقع بررسی شوند. جریان دادهها، گسترده و مداوم است و این سیل دادهها در فرآیند ذخیرهسازی و مدیریت چالشهای زیادی ایجاد کرده است.
کیفیت: از آنجا که دادهها از منابع مختلفی به دست میآیند، پیوند دادن، همسان سازی، پاکسازی و تبدیل دادهها در سیستمها دشوار است. مشاغل باید روابط، سلسله مراتب و پیوندهای دادهای متعدد را به هم ربط دهند. در غیر این صورت، دادههای آنها به سرعت از کنترل خارج میشوند.
تنوع: ویژگی بعدی کلان دادهها، تنوع آنهاست. منظور از تنوع، منابع ناهمگن و ماهیت دادهها اعم از ساختاری و غیر ساختاری است. چندین سال پیش، صفحات وب و پایگاه داده تنها منابع دادهای بودند. امروزه، دادهها به صورت ایمیل، عکس، فیلم، PDF، صدا و ... به منابع دادههای قابل بررسی اضافه شدهاند. این تنوع دادههای غیر ساختاری، چالشهای خاصی را برای ذخیرهسازی، استخراج و تجزیه و تحلیل دادهها به وجود میآورند.
جریان تولید غیرقابل پیشبینی: علاوه بر افزایش سرعت و تنوع دادهها، جریان تولید دادهها، غیرقابل پیشبینی هستند. اغلب تغییر میکنند و بسیار متفاوتاند. مشاغل باید بدانند که چه چیزی در رسانههای اجتماعی رو به پیشرفت است و چگونه میتوان حداکثر بار داده روزانه، فصلی و بار ناشی از رویدادها را مدیریت کرد.
نمونههایی از کلان دادهها
۱. بورس اوراق بهادار روزانه حدود یک ترابایت داده تجاری جدید تولید میکند.
۲. رسانههای اجتماعی: این آمار نشان میدهد که روزانه بیش از ۵۰۰ ترابایت داده جدید به پایگاه دادههای رسانههای اجتماعی مانند فیسبوک وارد میشود. این دادهها عمدتا از نوع بارگذاری عکس و فیلم، تبادل پیام، قرار دادن نظر و ... هستند.
۳. یک موتور جت در ۳۰ دقیقه حین پرواز میتواند بیش از ۱۰ ترابایت داده تولید کند. با هزاران پرواز در روز، تولید داده به چندین پتابایت میرسد.
کلان دادهها از منابع بیشماری مانند سیستمهای معاملات تجاری، پایگاههای اطلاعاتی مشتریان، سوابق پزشکی، جریان اینترنت (گوگل، یاهو و ایمیل)، برنامههای تلفنهمراه (پیامرسانها)، شبکههای اجتماعی (یوتیوب، فیسبوک، اینستاگرام و غیره)، مخازن تحقیقات علمی، دادههای تولید شده در ماشین و حسگرهای داده به دست میآیند.
این دادهها ممکن است به صورت خام در سیستمها باقی بمانند یا با استفاده از ابزارهای دادهکاوی یا نرمافزار آمادهسازی دادهها، برای تجزیه و تحلیل پیش پردازش شوند. میتوانید این کلان دادهها را هنگام دریافت، تجزیه و تحلیل کنید و تصمیم بگیرید که کدام دادهها را نگه دارید یا نگه ندارید، و کدامیک نیاز به تجزیه و تحلیل بیشتری دارند.
دادههای رسانههای اجتماعی از تعاملات در فیسبوک، یوتیوب، اینستاگرام و ... تولید میشوند که شامل مقادیر زیادی داده بزرگ به شکل تصاویر، فیلمها، متن و صدا هستند. این دادهها غالباً به صورت بدون ساختار یا نیمه ساختار یافته هستند، بنابراین تجزیه و تحلیل و استفاده از آنها چالش بزرگی است.
چرا کلان دادهها حائز اهمیت هستند؟
اهمیت کلان دادهها به دلیل کارایی آنهاست. میتوان دادهها را از هر منبعی جمعآوری و آنها را تجزیه و تحلیل کرد، که این تحلیل در حوزههای اقتصادی باعث کاهش هزینه، کاهش زمان، توسعه محصول جدید و ارائه پیشنهادات بهینه و تصمیمگیری هوشمند میشود.
با استفاده از فناوریهایی مانند محاسبات شبکه یا تجزیه و تحلیل حافظه، سازمانها میتوانند از همه کلان دادههای خود برای تجزیه و تحلیل استفاده کنند. روش دیگر این است که قبل از تجزیه و تحلیل مشخص شود که کدام دادهها مربوط به فعالیت هستند. کلان دادهها منبعی برای تجزیه و تحلیلهای پیشرفته امروز مانند هوش مصنوعی هستند.
دادههای معتبر و مدیریت شده، منجر به تجزیه و تحلیلهای موثق و در نهایت تصمیمگیریهای قابل اعتماد میشوند. مزایای داده محور بودن واضح است. سازمانهای داده محور عملکرد بهتری دارند، از نظر عملیاتی بهتر عمل میکنند و سودآوری بیشتری دارند.
شرکتها از کلان دادههای جمعآوری شده در سیستمهای خود برای ارائه خدمات بهتر به مشتریان، بازاریابی بر اساس ترجیحات مشتری و در نهایت افزایش سودآوری استفاده میکنند.
کلان دادهها دیدگاههای ارزشمندی را در مورد مشتریان در اختیار شرکتها قرار میدهند که میتواند برای اصلاح تکنیکهای بازاریابی به منظور افزایش تعامل و نرخ تبدیل مشتری استفاده شود.
علاوه بر این، استفاده از این اطلاعات به شرکتها کمک میکند مشتری مدار شوند. از دادههای تاریخی میتوان برای ارزیابی ترجیحات مصرفکنندگان استفاده کرد و بیشتر به خواستهها و نیازهای مشتریان پاسخ داد.
کلان دادهها همچنین توسط محققان برای شناسایی عوامل بیماری و توسط پزشکان برای کمک به تشخیص بیماریها و شرایط بیماران استفاده میشوند. علاوه بر این، دادههای به دست آمده از سوابق الکترونیکی بهداشتی، رسانههای اجتماعی، وب و منابع دیگر، اطلاعات شیوع بیماریهای عفونی مانند کووید-۱۹ را به سازمانهای بهداشتی و آژانسهای دولتی ارائه میدهند.
در صنعت انرژی، کلان دادهها به شرکتهای نفت و گاز کمک میکند تا مکانهای حفاری را شناسایی کرده و عملیات خط لوله را رصد کنند؛ و به همین ترتیب، سرویسهای برق از آن برای ردیابی شبکههای برق استفاده میکنند.
شرکتهای خدمات مالی از سیستمهای کلان داده برای مدیریت ریسک و تجزیه و تحلیل زمان واقعی دادههای بازار استفاده میکنند.
تولیدکنندگان و شرکتهای حمل و نقل برای مدیریت زنجیره تامین خود و بهینه سازی مسیرهای تحویل به کلان دادهها اعتماد میکنند.
اقدامات دیگر دولتها مانند اقدامات اضطراری، پیشگیری از جرم و طراحی شهر هوشمند نیز با استفاده از این دادهها قابل اجراست.
اما یکی دیگر از کاربردهای این دادهها در سیاست بینالملل است که از جنجالیترین بحثهای روز دنیا محسوب میشود.