به گزارش
گرداب، پرکاربردترین موتورهای جستجوگر امروزی میتوانند جواب بسیاری از سؤالهای سادهی کاربران مانند ارتفاع کوه اورست و محل اکران یک فیلم سینمایی خاص را بهسادگی پیدا کنند. با وجود این هنوز هم نمیتوانند به سؤالاتی مانند «چه چیزهایی بر بازار سهام تأثیر خواهد گذاشت؟» که وابسته به متغیرهای زیادی بوده و نیاز به پیشبینی آنها دارند، پاسخ دهند.
همچنین در بسیاری از موارد کمبود دادههای موردنیاز مانع از ایجاد پاسخ مناسب میشود. اطلاعات از دست رفته، مدلهای تجربی فرآیندهایی است که در رفتار دادهها تأثیر میگذارد.
در جهانی که دادهها، دانشمندان و سیاستمداران را احاطه کردهاند؛ ناتوانی در ایجاد یک مدل قابلاعتماد از دادهها که بینشی از اطلاعات خام را فراهم میکند، یک محدودیت بزرگ محسوب میشود. سازمان دارپا برای از بین بردن محدودیت ایجاد مدلهای تجربی توسط محققان، یک برنامه به نام «مدلهای کشف داده محور» (D3M1) راهاندازی کرد.
هدف از طرح مدلهای کشف داده محور پر کردن شکاف بین متخصصین دانش داده و افراد غیرمتخصص، برای ساخت مدلهای پیچیده است. این کار از طریق خودکارسازی بخش اعظمی از فرآیند پردازش ایجاد مدل، انجام خواهد گرفت. اگر این طرح موفقیتآمیز باشد، محققانی که از آن استفاده میکنند به ارتشی از «دانشمندان دادههای مجازی» (virtual data scientists) دسترسی خواهند داشت.
وید شن (Wade Shen)، مدیر برنامهی دفتر اطلاعات نوآوریهای دارپا، گفت: «امروزه ساختوساز مدلهای تجربی به تا حد زیادی به پردازشهای دستی و متخصصین داده نیاز دارد تا دادههای تصادفی مانند آبوهوا و ترافیک به مدلی تبدیل دانشمندان و مهندسان بتوانند سؤالات خود را آن بپرسند.»
شن ادامه داد: «ما بهسرعت نیاز به توسعه مدلسازی مبتنی بر ماشین، برای کاربرانی بدون دانش داده داریم. ما اعتقاد داریم که میتوان بخش از علم داده را بهصورت خودکار پیادهسازی کرد. به طور خاص ماشینهایی که از نمونههای گذشته یاد گرفته و خود مدلهای جدیدی ایجاد میکنند.»
مدلهای کشف داده محور، در زمانی آغاز به کار کرده است که دسترسی بیسابقهای به دادهها ازطریق بهبود یافته و منبع باز وجود دارد. این موضوع فرصتهای بزرگی را برای استفاده از جریان دادهها در زمینهی اکتشافات عملی، جمعآوری اطلاعات و بهبود تدارکات دولت و نیروی کار فراهم میکند. از طرفی به دلیل پیچیدگی ایجاد مدلهای تجربی به صورت دستی، آنها معمولاً دارای ارزش محدودی هستند.
در تمرین اخیر انجام شده توسط محققان در دانشگاه نیویورک مشکلات به تصویر کشیده شده است. هدف ایجاد مدلی از جریان ترافیک، از عملکردهایی مانند زمان، آبوهوا و محل برای هر بلوک پایینشهر منهتن و شبیهسازی «چه خواهد شد اگر؟» (What-if) از سناریوها و پروژههای اشتراکگذاری و تأثیرات آن بود. این محققان موفق به تولید مدل شدند؛ اما برای تولید آن به 30 نفر ماه2 از دانشمندان دادهی دانشگاه نیویورک و بیش از 60 نفر ماه تلاش اولیه برای کشف قاعدهمند چند مجموعه دادههای شهری، مانند آمار جرمهای محلی، مدارس، سیستمهای مترو، پارکها، سروصدا، تاکسی و رستورانها، نیاز بود.
شن گفت: «ما میتوانیم با استفاده از دادههای حسگرها و منابع باز به درک ترافیک تا رفتار دشمن بپردازیم. ما امیدواریم مدلهای کشف داده محور به فرصت توسعهی مدلهای پایه را ایجاد کند؛ بنابراین مردم میتوانند از هوش خود برای استفاده از دادهها در روشهای جدید استفاده کنند. روشها و امکاناتی که در گذشته قابل تصور نبود.»
_________________
1- Data-Driven Discovery of Models
2- به مدت زمانی که یک نفر در زمان انجام یک پروژه اختصاص میدهد ضربدر تعداد ماههایی که طول میکشد تا به سر انجام برسد، نفر ماه میگویند.