جهت دریافت ترجمه و متن کامل مقاله لطفا نسبت به خرید اقدام فرمایید
Machine learning on big data: Opportunities and challenges
Abstract
Machine learning (ML) is continuously unleashing its power in a wide range of applications. It has been pushed to the forefront in recent years partly owing to the advent of big data. ML algorithms have never been better promised while challenged by big data. Big data enables ML algorithms to uncover more fine-grained patterns and make more timely and accurate predictions than ever before; on the other hand, it presents major challenges to ML such as model scalability and distributed computing. In this paper, we introduce a framework of ML on big data (MLBiD) to guide the discussion of its opportunities and challenges. The framework is centered on ML which follows the phases of preprocessing, learning, and evaluation. In addition, the framework is also comprised of four other components, namely big data, user, domain, and system. The phases of ML and the components of MLBiD provide directions for identification of associated opportunities and challenges and open up future work in many unexplored or under explored research areas.
Keywords: Machine learning, Big data, Data preprocessing, Evaluation, Parallelization
چکیده:
یادگیری ماشین[1] (ML) بهطور مداوم قدرت خود را در طیف گستردهای از برنامههای کاربردی نشان داده است. این مسئله در سالهای اخیر تا حدودی با توجه به ظهور دادههای بزرگ[2] بیشتر مورد توجه قرار گرفته است. الگوریتمهای یادگیری ماشین ML هرگز دارای بهترین عملکرد در مقایسه با سایرین نبودند، تا اینکه توسط دادههای بزرگ (Big data) به چالش کشیده شدند. دادههای بزرگ، موجب شدند تا الگوریتمهای ML قادر به کشف الگوهای دقیق و پیشبینی به موقع دادههای قابل پیش بینی در مقایسه با گذشته باشند. از سوی دیگر، ورود مباحث دادههای بزرگ، چالشهای بزرگی مانند مقیاسپذیری مدل و محاسبات توزیع شده را در یادگیری ماشین مطرح کردند. در این مقاله، یک چارچوب از ML در دادههای بزرگ (MLBiD) برای هدایت بحث به فرصتها و چالشهای آن معرفی خواهد شد. چارچوب ML محور، شامل مراحل پیش پردازش، یادگیری و ارزشیابی است. علاوه براین، چارچوب شامل چهار جزء دیگر، مانند دادههای بزرگ، کاربران، دامنه و سیستم است. مراحل ML و اجزای MLBiD برای شناسایی فرصتهای مرتبط و چالشها و روشن کردن مسیر کاری آینده در بسیاری از موارد ناشناخته و یا در پژوهش حاضر ارائه شده است.
کلیدواژهها: یادگیری ماشین، دادههای بزرگ، پیشپردازش دادهها، ارزیابی، موازیسازی