کاوش در داده های بزرگ با استفاده از پردازش موازی: مقایسه ای میان روش توزیع شده و روش نگاشت کاهشی
Big data mining with parallel computing: A comparison of distributed and MapReduce methodologies
مشخصات کلی
سال انتشار | 2016 |
کد مقاله | 3783 |
فرمت فایل ترجمه | Word |
تعداد صفحات ترجمه | 23 |
نام مجله | The Journal of Systems and Software |
نشریه | ScienceDirect |
درج جداول و شکل ها در ترجمه | انجام شده است |
جداول داخل مقاله | ترجمه شده است |
چکیده فارسی
کاوش در داده های بزرگ یا کاوشِ داده های بزرگ، به یک حوزه تحقیقاتی فعال تبدیل شده است. استفاده از روش های فعلی و ابزارهای نرم افزاریِ داده کاوی در یک رایانه شخصی و برای مجموعه داده های بسیار بزرگ، بسیار دشوار است. سیستم عامل های موازی و سیستم عامل های رایانش ابری، راه حل بهتری برای کاوش داده های بزرگ محسوب می شوند. مفهوم محاسبات موازی بر مبنای تقسیم یک مسأله بزرگ به چندین مسأله کوچک تر تعریف می شود، که تمام این مسائل کوچک تر توسط یک پردازنده ولی به صورت جداگانه پردازش می شوند. علاوه بر این در هر دوی سیستم های موازی و توزیع شده، فرایندها به صورت همزمان انجام می شوند. برای مقابله با مسأله داده های بزرگ، دو روش رایج وجود دارد. روش اول، روشی توزیع شده است که بر مبنای پارادایم موازی داده انجام می شود؛ در این روش یک مجموعه داده ی بزرگ می تواند به صورت دستی به n زیرمجموعه تقسیم شود و برای این n زیرمجموعه به ترتیب n الگوریتم اجرا می شود. نتیجه نهایی را می توان از ترکیب خروجی های تولید شده توسط n الگوریتم بدست آورد. دومین روش، روش نگاهشت کاهشی است که بر مبنای پلت فرم محاسبات ابری انجام می شود. این روش از ترکیبی از فرایندهای نگاشت و کاهش تشکیل شده است، که در آن ابتدا فیلترسازی و مرتب سازی انجام می شود و سپس به هدف تولید نتیجه نهایی، عملیات خلاصه سازی انجام می شود. هدف ما در این مقاله مقایسه ی تفاوت های عملکردی میان روش توزیع-شده و روش نگاشت کاهشی در مجموعه داده های بزرگ می باشد و دقت و کارایی هر دو داده برای کاوش داده-های بزرگ مقایسه می شوند. آزمایش ها براساس چهار مجموعه داده بزرگ انجام می شوند که این مجموعه داده-ها برای مسائل طبقه بندی مورد استفاده قرار می گیرند. نتایج نشان می دهد که عملکرد روش نگاشت کاهشی برای طبقه بندی بسیار پایدار است؛ در این روش مهم نیست که از چه تعداد گره کامپیوتری استفاده می شود؛ این روش در مقایسه با روش های توزیع شده، بهتر هستند به جز در مواردیکه از مجموعه داده های نامتعادل استفاده می شود. علاوه بر این، روش نگاشت کاهشی برای پردازش مجموعه داده های بزرگ، به کمترین هزینه محاسباتی احتیاح دارند.
چکیده لاتین
Mining with big data or big data mining has become an active research area. It is very difficult using current methodologies and data mining software tools for a single personal computer to efficiently deal with very large datasets. The parallel and cloud computing platforms are considered a better solution for big data mining. The concept of parallel computing is based on dividing a large problem into smaller ones and each of them is carried out by one single processor individually. In addition, these processes are performed concurrently in a distributed and parallel manner. There are two common methodologies used to tackle the big data problem. The first one is the distributed procedure based on the data parallelism paradigm, where a given big dataset can be manually divided into n subsets, and n algorithms are respectively executed for the corresponding n subsets. The final result can be obtained from a combination of the outputs produced by the n algorithms. The second one is the MapReduce based procedure under the cloud computing platform. This procedure is composed of the map and reduce processes, in which the former performs filtering and sorting and the later performs a summary operation in order to produce the final result. In this paper, we aim to compare the performance differences between the distributed and MapReduce methodologies over large scale datasets in terms of mining accuracy and efficiency. The experiments are based on four large scale datasets, which are used for the data classification problems. The results show that the classification performances of the MapReduce based procedure are very stable no matter how many computer nodes are used, better than the baseline single machine and distributed procedures except for the class imbalance dataset. In addition, the MapReduce procedure requires the least computational cost to process these big datasets.
خرید و دانلود ترجمه این مقاله:
جهت خرید این مقاله ابتدا روی لینک زیر کلیک کنید، به صفحه ای وارد می شوید که باید نام و ایمیل خود را وارد کنید و پس از آن روی دکمه خرید و پرداخت کلیک نمایید، پس از پرداخت بلافاصله به سایت بازگشته و می توانید فایل خود را دانلود کنید، همچنین لینک دانلود به ایمیل شما نیز ارسال خواهد شد.
هیچ دیدگاهی برای این مقاله ثبت نشده است
دیدگاه ها