ข้อมูลขนาดใหญ่นั้นไม่ได้มีเพียงความต่างกันของข้อมูลและการเกิดขึ้นอย่างรวดเร็วของข้อมูลเท่านั้น แต่ยังมีข้อมูลในปริมาณมากอีกด้วย ข้อมูลประเภทนี้ไม่สามารถจัดการได้โดยวิธีการและเครื่องมือทั่วไปเช่นฐานข้อมูลเชิงสัมพันธ์ ถึงแม้ว่าจะมีเครื่องมือของข้อมูลขนาดใหญ่อย่างเช่น Hadoop, Hive, Spark ถูกพัฒนาขึ้นมาและประสบความสำเร็จในการนำไปใช้จัดการกับข้อมูลขนาดใหญ่ แต่ยังคงยากที่จะเรียนรู้แม้จะเป็นผู้เชี่ยวชาญก็ตาม ดังนั้น การนำเสนอขอบข่ายการทำงานในการจัดการกับข้อมูลขนาดใหญ่และการวิเคราะห์ข้อมูลที่ง่ายและเป็นมิตรต่อผู้ใช้งานจึงได้เกิดขึ้น ขอบข่ายการทำงานนี้เป็นการรวมกันของแพลตฟอร์มข้อมูลขนาดใหญ่ Cloudera กับ RapidMiner Radoop ส่วนของ Cloudera คือการรวมกันของซอฟต์แวร์ที่สำคัญในการจัดการกับข้อมูลขนาดใหญ่เช่น Hadoop, Hive, Spark และ Zookeeper เข้าด้วยกันและมี Cloudera Manager เป็น GUI (Graphical User Interface) เพื่อใช้ในการจัดการซอฟต์แวร์เหล่านั้น มากไปกว่านั้น RapidMiner Radoop ยังทำให้เห็นขั้นตอนการทำงานอย่างเป็นรูปเป็นร่างและยังมีชุดคำสั่งที่ช่วยให้การทำวิทยาศาสตร์ข้อมูล,การวิเคราะห์ข้อมูลขนาดใหญ่นั้นง่ายขึ้นจึงทำให้ผู้ไม่มีประสบการณ์หรือผู้ที่มีประสบการณ์เพียงเล็กน้อยสามารถเรียนรู้และจัดการด้วยตนเองได้
Big data is not only heterogeneous and fast generated but also large in volume. This type of data cannot be handled by traditional techniques and tools such as relational databases. Although some existing big data software tools such as Hadoop, Hive, and Spark have been developed and successfully used for managing big data, their complexity requires a very steep learning curve, even for technical professionals. Accordingly, to encourage data analytic community, a simplistic, user-friendly framework for analyzing big data is presented. The framework combines Cloudera big data platform with RapidMiner Radoop data science software suite. Cloudera platform unifies a number of key big data software components, such as Hadoop, Hive, Spark, and Zookeeper into a single unit and provides GUI Cloudera Manager for managing them. Moreover, RapidMiner Radoop provides a visual workflow and a set of operators that facilitates data science and big data analysis tasks much easier with non- or minimal-programming effort. A setup guideline is presented in this paper and examples of data analysis using machine learning are demonstrated and implemented.