Apache Spark, Kafka, & Flink Showcase Innovation กับ Hadoop สำหรับ "ข้อมูลใหญ่" การประยุกต์ใช้งาน

มูลนิธิซอฟต์แวร์อาปาเช่เป็นหนึ่งในองค์กรโอเพ่นซอร์สซอฟต์แวร์ที่เก่าแก่ที่สุดและได้รับการยอมรับมากที่สุดโดยได้รับแรงผลักดันจากการใช้งานเว็บเซิร์ฟเวอร์ Apache HTTP ในช่วง 20 ปีที่ผ่านมา มูลนิธิซอฟต์แวร์อาปาเช่ก่อตั้งขึ้นโดยโปรแกรมเมอร์ของแพลตฟอร์มเว็บเซิร์ฟเวอร์ดั้งเดิมในปี 2542 ด้วยพันธกิจที่กว้างขึ้นเพื่อสนับสนุนการพัฒนาโครงการซอฟต์แวร์โอเพนซอร์สฟรีและชุมชนของพวกเขาเพื่อสร้างมาตรฐานเว็บรุ่นต่อไป Apache License คล้ายกับ GNU GPL, MIT, & ลิขสิทธิ์ซอฟต์แวร์ BSD สำหรับการเผยแพร่รหัสโอเพนซอร์สที่สามารถใช้คัดลอกแก้ไขลอกแบบและจำหน่ายต่อโดยนักพัฒนาหรือ บริษัท อื่นโดยไม่มีข้อ จำกัด นอกเหนือจากการเปิดกว้างต่อเนื่อง & ระบุแหล่งที่มา ปัจจุบันมีโครงการมากกว่า 300 โครงการในการพัฒนาภายในระบบนิเวศของ Apache Software Foundation ซึ่งรวมถึงทีม Labs, Incubator, Attic และ Infrastructure บางส่วนของโครงการ ASF ปัจจุบันที่มีแนวโน้มที่จะนำไปใช้ในอุตสาหกรรมที่กว้างขึ้นในปี 2017 คือ Apache Spark, Kafka, & Flink การใช้งานแต่ละด้านของ CQRS ในรูปแบบใหม่สำหรับการปรับกระแสข้อมูลปฏิกิริยาในสถาปัตยกรรมแพลตฟอร์มคลาวด์เพื่อรองรับแอปพลิเคชันเว็บรุ่นใหม่.


Apache Spark, Kafka และ Flink Showcase Innovation กับ Hadoop สำหรับ

แนวโน้มการพัฒนาซอฟต์แวร์ในระบบนิเวศมูลนิธิ Apache Software

การยอมรับในวงกว้างของอุตสาหกรรมเกี่ยวกับ Apache HTTP Server ในเว็บโฮสติ้งซึ่งสามารถทำงานได้บน Linux ทั้งสอง & ระบบปฏิบัติการ Windows อย่างเท่าเทียมกันรวมถึงการติดตั้ง Apache บนเว็บเซิร์ฟเวอร์นับล้านที่มีการทบทวนอย่างกว้างขวางของซอร์สโค้ดในโปรแกรมเมอร์ผู้เชี่ยวชาญในด้านวิชาการรัฐบาล, & องค์กรธุรกิจที่เน้นความปลอดภัยของข้อมูลและการเพิ่มประสิทธิภาพของฮาร์ดแวร์ โพสต์บล็อกล่าสุดจาก IBM คุย "โอเพนซอร์สหมายถึงอะไรจริงๆ" รวมถึงการเน้นหลักเกี่ยวกับการมีส่วนร่วมอย่างต่อเนื่องของ บริษัท ต่อโครงการในระบบนิเวศของ Apache เช่น Apache Atlas, HBase, Ambari, Spark, Kafka, Knox, & Flink สำหรับการวิเคราะห์ข้อมูลบนคลาวด์.

จากโครงการมากกว่า 300 โครงการที่กำลังพัฒนาโดย ASF มีเพียง 8.8% เท่านั้นที่เกี่ยวข้องกับเซิร์ฟเวอร์เครือข่ายและอีก 8.6% มาจาก "ข้อมูลใหญ่" การใช้งาน กรอบการพัฒนาเว็บและฐานข้อมูลแต่ละรายการประกอบด้วยประมาณ 7% ของโครงการ ASF ทั้งหมด แม้ว่าจะใช้งานมากกว่า 80% ของเว็บไซต์ทั้งหมด แต่ PHP ไม่ใช่ภาษาโปรแกรมหลักที่พบในรหัสส่วนใหญ่ที่เผยแพร่ภายใต้ Apache License ค่อนข้างประมาณ 60% คือโค้ด Java โดยมี C, Python, C ++, JavaScript, Scala, C #, & Perl ยังเป็นที่นิยมในมาตรฐาน สำหรับการติดตามโครงการ FOSS ต่างๆที่เผยแพร่ภายใต้ Apache License ดัชนีแบตเตอรี่นั้นน่าสนใจและ Datamation ได้รวบรวมการวิจัยเพื่อสร้าง "รายการที่ดีที่สุด" กว่า 1,250 โครงการ FOSS ภายใต้การพัฒนาปัจจุบันที่ใช้งานอยู่ในหลากหลายภาค (รวมถึง Apache, GPL, MIT, BSD, & ใบอนุญาตซอฟต์แวร์อื่น ๆ ).

บางโครงการที่ได้รับความนิยมจัดขึ้นภายใต้มูลนิธิซอฟต์แวร์ Apache ในปัจจุบันคือ:

  • เซิร์ฟเวอร์ Apache HTTP – ซอฟต์แวร์แพลตฟอร์มเว็บเซิร์ฟเวอร์ยอดนิยมที่สุดในโลก
  • Apache Tomcat – แพลตฟอร์มเว็บเซิร์ฟเวอร์สำหรับ Java Servlet & แอปพลิเคชัน WebSocket
  • Apache Hadoop – แพลตฟอร์มการคำนวณแบบกระจายที่ปรับขนาดได้โดยใช้ MapReduce
  • Apache Cassandra – ฐานข้อมูลแบบหลายคลัสเตอร์ที่ปรับขนาดได้สำหรับใช้กับ Hadoop
  • Apache Spark – มอบเอ็นจิ้นการคำนวณสำหรับ Hadoop ด้วยการเรียนรู้ของเครื่อง & กราฟ
  • Apache Kafka – แพลตฟอร์มสตรีมมิ่งแบบกระจายสำหรับไพพ์ไลน์ข้อมูลพร้อมมาตราส่วนแนวนอน
  • Apache HBase – ฐานข้อมูลใหม่สำหรับ Hadoop ที่ปรับให้เหมาะกับการปรับขนาดเป็นพันล้านตาราง
  • Apache Flink – เฟรมเวิร์ก data stream สำหรับการประมวลผลแบบแบตช์ใน 1000+ โหนดคลัสเตอร์
  • Apache Atlas – การกำกับดูแลข้อมูลและ meta-tax meta semantic ของ Hadoop
  • Apache Knox – ส่วนที่เหลือ API & เว็บแอพพลิเคชันเกตเวย์สำหรับเซิร์ฟเวอร์ Hadoop
  • Apache Ambari – บทบัญญัติตรวจสอบ, & จัดการกลุ่ม Hadoop ด้วยเครื่องมือ Ambari
  • Lucene / Solr – รวมถึง Java search core ด้วย XML / HTTP & API ของ JSON / Python / Ruby
  • CouchDB – โปรโตคอลฐานข้อมูลที่ไม่ซ้ำสำหรับการจำลองแบบ & การซิงโครไนซ์ข้ามคลัสเตอร์ในระดับ
  • Apache Mesos – เฟรมเวิร์กการจัดการ orchestration บนคลาวด์สำหรับการปรับขนาด VM แบบยืดหยุ่น
  • CloudStack – ระบบการจัดการศูนย์ข้อมูลบนคลาวด์บริจาคให้อาปาเช่จากองค์กร
  • SpamAssassin – การกรอง anti-spam ขั้นสูงสำหรับอีเมลพร้อมความสามารถในการเรียนรู้ของเครื่อง
  • การโค่นล้ม / Maven – การควบคุมเวอร์ชันมาตรฐานอุตสาหกรรม & ซอฟต์แวร์การจัดการโครงการ
  • OpenOffice – การประมวลผลคำสเปรดชีตและชุดซอฟต์แวร์การเผยแพร่บนเดสก์ท็อป
  • Apache Cordova – ชุดเครื่องมือพัฒนาแอพพลิเคชั่นมือถือข้ามแพลตฟอร์ม
  • คลื่น – แพลตฟอร์ม Google Wave ที่น่าอับอายบริจาคให้กับ Apache License สำหรับนักพัฒนา

หนึ่งในแง่มุมที่น่าสนใจที่สุดของระบบนิเวศมูลนิธิซอฟต์แวร์อาปาเช่คือช่วยให้เอกไอทีสามารถทำงานร่วมกันในซอฟต์แวร์โครงสร้างพื้นฐานที่สร้างมาตรฐานข้ามแพลตฟอร์มในตลาดเว็บโฮสติ้ง โครงการใหม่ที่ทันสมัยกำลังพัฒนาจาก Apache Incubator และหน่วยงาน Labs จากการทำงานร่วมกันของทีมงานการเขียนโปรแกรมกระจายระหว่างประเทศในขณะที่มาตรฐานองค์กรดั้งเดิมเช่น Java และ Wave ได้รับการดูแลภายใต้ Apache License ที่มีแนวโน้มไปยัง Attic แพลตฟอร์ม Hadoop รวมโครงการ Apache ใหม่จำนวนหนึ่งภายใต้กรอบการทำงานร่วมกันเดียวเป็นมาตรฐานอุตสาหกรรมในการคำนวณแบบยืดหยุ่นสำหรับเว็บเซิร์ฟเวอร์และฐานข้อมูลคลัสเตอร์ที่มีวิวัฒนาการ.

มูลนิธิซอฟต์แวร์อาปาเช่ยังดูแลการพัฒนาโปรแกรมอรรถประโยชน์การเขียนโปรแกรมที่จำเป็นเช่นการโค่นล้มสำหรับการควบคุมเวอร์ชันและ Maven สำหรับการจัดการโครงการเช่นเดียวกับ OpenOffice ซึ่งเป็นการประมวลผลคำเต็มสเปรดชีตและชุดการเผยแพร่บนเดสก์ท็อป มูลนิธิ FOSS Apache Mesos และ CloudStack มีฟังก์ชั่นการทำงานคล้ายกันกับ OpenStack ซึ่งแต่ละแพลตฟอร์มมีเครื่องมือเสมือนจริงที่แตกต่างกันโดยมีจุดประสงค์เพื่อการบริหารเครือข่ายคลาวด์ส่วนตัว SpamAssassin มีให้ใน cPanel ส่วนใหญ่ที่ติดตั้งในขณะนี้และอนุญาตให้ใช้การเรียนรู้ของเครื่องเพื่อปรับปรุงตัวกรองต่อต้านสแปมบนอีเมลขาเข้า Apache Solr & Lucene ได้รับความนิยมเป็นกรอบการค้นหาทางเลือกสำหรับ Drupal Apache Spark, Kafka, & การกระพริบเป็นสิ่งที่ได้รับความนิยมอย่างมากในชุมชน DevOps ด้วยการนำไปใช้ใหม่ในแอพพลิเคชั่นระดับองค์กรเพื่อเพิ่มประสิทธิภาพอีคอมเมิร์ซขนาดใหญ่ & เว็บไซต์เครือข่ายสังคม.

Cloudera – "Apache Spark คืออะไร?" (2015)

ซอฟต์แวร์โอเพ่นซอร์สคลาวด์ – "Mike Olson หัวหน้าเจ้าหน้าที่กลยุทธ์และผู้ร่วมก่อตั้งที่ Cloudera ให้ภาพรวมของ Apache Spark ความนิยมเพิ่มขึ้นในชุมชนโอเพ่นซอร์สและจุดประกายนั้นถูกนำมาใช้เพื่อแทนที่ MapReduce เป็นเครื่องมือประมวลผลทั่วไปใน Hadoop." เรียนรู้เพิ่มเติม.

แนวโน้มการพัฒนาซอฟต์แวร์ในระบบนิเวศมูลนิธิ Apache Software

CQRS ด้วยการจัดหากิจกรรม – "ด้วยรูปแบบที่อิงกับ CQRS และการจัดหาเหตุการณ์การรวมตัวเป็นแนวคิดที่นับตั้งแต่กรณีการใช้งานครั้งแรก ฝั่งอ่านจำเป็นต้องรวมและแสดงสิ่งที่เกิดขึ้นในด้านการเขียนมันเป็นจุดรวม." เรียนรู้เพิ่มเติมเกี่ยวกับ CQRS.


CQRS: การแยกความรับผิดชอบคำสั่งการค้นหา

Command Query Responsibility Segregation (CQRS) ทำหน้าที่เป็นวิธีในการเพิ่มประสิทธิภาพของฐานข้อมูลซึ่งแทนที่จะต้องการให้เว็บเซิร์ฟเวอร์ระบุว่าคำขอที่เข้ามานั้นเป็นการดำเนินการอ่าน (คำสั่ง) หรือเขียน (แบบสอบถาม) ความแตกต่างเหล่านี้เกิดขึ้นล่วงหน้าโดยเฉพาะเป็นส่วนหนึ่งของ รหัสแพลตฟอร์มฐานข้อมูล สิ่งนี้นำไปสู่การประมวลผลฐานข้อมูลที่มีประสิทธิภาพยิ่งขึ้นสำหรับแอพพลิเคชั่น ‘ข้อมูลขนาดใหญ่’ และการแคชในหน่วยความจำที่ดีขึ้นสำหรับเว็บไซต์ขนาดใหญ่ที่มีผู้ใช้พร้อมกันจำนวนมาก CQRS ยังเปิดโอกาสสำหรับการสตรีมข้อมูลและการประมวลผลเหตุการณ์ในอีคอมเมิร์ซซึ่งเป็นฐานข้อมูลที่เข้มข้นสำหรับการติดตามหลายตัวแปรผ่านชุมชนขนาดใหญ่ของผู้ใช้แบบเรียลไทม์เช่น Amazon.com, eBay หรือ Uber การเพิ่มประสิทธิภาพฐานข้อมูลโดยใช้ CQRS ในระดับนำไปสู่การพัฒนาแอพพลิเคชั่นเว็บเซิร์ฟเวอร์บนคลาวด์ประเภทใหม่ที่สร้างขึ้นรอบ Apache Spark, Kafka, & ค้นหาบนแพลตฟอร์ม Hadoop.

  • Apache Spark – รวมถึงผู้จัดการคลัสเตอร์เว็บเซิร์ฟเวอร์สำหรับการประสานกระบวนการ CQRS
  • Apache Kafka – เสนอตัวจัดการเหตุการณ์สำหรับสตรีมข้อมูล CQRS ด้วยข้อความค้นหาแบบโต้ตอบ
  • Apache Flink – ใช้การวิเคราะห์ข้อมูลกับสตรีมคาฟคาสำหรับการจัดการทรัพยากรสถาปัตยกรรม

CQRS ถูกนำไปใช้ในเว็บไซต์อีคอมเมิร์ซขนาดใหญ่เพื่อให้ข้อเสนอแนะแบบเรียลไทม์แก่ลูกค้าที่ต้องทำการวิเคราะห์ยอดขายการจัดส่งการจัดส่งการลดราคาและการต่อต้านการทุจริตแต่ละรายการสำหรับแต่ละคำสั่งตามพารามิเตอร์ท้องถิ่น CQRS ยังเปิดวิธีการติดตามและเกี่ยวข้องกับความสนใจในการค้นหาของลูกค้าหรือรูปแบบการสืบค้นด้วยประวัติการจัดเก็บก่อนหน้านี้โดยใช้อัลกอริทึมการเรียนรู้ของเครื่อง ในลักษณะนี้ Apache Hadoop, Cassandra, Kafka, Spark, & เฟรมเวิร์ก Flink สามารถติดตั้งร่วมกันในสถาปัตยกรรมสแต็กสำหรับการเขียนโปรแกรมแอปพลิเคชันซอฟต์แวร์ระดับองค์กรรุ่นใหม่.
แนวโน้มการพัฒนาซอฟต์แวร์ในระบบนิเวศมูลนิธิ Apache Software

Apache Spark – "โดยเฉพาะอย่างยิ่งเมื่อต้องการทำงานบนคลัสเตอร์ SparkContext สามารถเชื่อมต่อกับผู้จัดการคลัสเตอร์หลายประเภท (ทั้ง Spark’ตัวจัดการคลัสเตอร์แบบสแตนด์อโลนของตนเอง Mesos หรือ YARN) ซึ่งจัดสรรทรัพยากรข้ามแอปพลิเคชัน." เรียนรู้เพิ่มเติมเกี่ยวกับ Apache Spark.
แนวโน้มการพัฒนาซอฟต์แวร์ในระบบนิเวศมูลนิธิ Apache Software
Apache Kafka – Apache Kafka มีความรวดเร็วยืดหยุ่นปรับขนาดได้, & ระบบบัสข้อความที่มีความพร้อมใช้งานสูงสำหรับบันทึกการจำลองแบบกระจายซึ่งนำไปสู่การแคชฐานข้อมูลที่ดีขึ้น & การประมวลผลการตอบสนองซ้ำ ๆ สำหรับเว็บไซต์หลายผู้ใช้ขนาดใหญ่ที่มีตัวแปรแต่ละตัวที่ปรับปรุงบ่อย บริการบันทึก Commit มีการซิงโครไนซ์พาร์ติชันระหว่างหลาย ๆ รุ่นพร้อมกันกับฐานข้อมูล & ค่าแอตทริบิวต์เพื่อปรับปรุงการประมวลผล & การวิเคราะห์สตรีมข้อมูลแบบเรียลไทม์ในอีคอมเมิร์ซ.

แนวโน้มการพัฒนาซอฟต์แวร์ในระบบนิเวศมูลนิธิ Apache Software

Apache Flink – "Apache Flink เป็นเฟรมเวิร์กการประมวลผลแบบโอเพนซอร์ซสำหรับแอพพลิเคชั่นการกระจายข้อมูลที่มีประสิทธิภาพสูงพร้อมใช้งานเสมอและถูกต้อง." เรียนรู้เพิ่มเติมเกี่ยวกับ Apache Flink.

สำคัญ: "Kafka ปฏิกิริยา" (2017)

ปฏิกิริยารีสตรีม – "Apache Kafka เป็นบัสรับส่งข้อความแบบกระจายปรับขยายได้และความเร็วสูง ในช่วงไม่กี่ปีที่ผ่านมาคาฟก้ากลายเป็นหน่วยการสร้างหลักสำหรับแอพพลิเคชั่นที่เน้นการกระจายข้อมูล ในฐานะบัสข้อความประสิทธิภาพสูง Kafka เปิดใช้งานการพัฒนาแอพพลิเคชั่นแบบกระจายโดยใช้สถาปัตยกรรมไมโครไซต์." เรียนรู้เพิ่มเติมเกี่ยวกับ Apache Kafka.

Google Trends – โครงการมูลนิธิซอฟต์แวร์ Apache

แผนภูมิเหล่านี้รวมถึงข้อมูลสรุปจาก Google Trends เพื่อประเมินความนิยมของโครงการต่างๆภายใต้การพัฒนาโดย Apache Software Foundation:

แนวโน้มการพัฒนาซอฟต์แวร์ในระบบนิเวศมูลนิธิ Apache Software

กรอบงานฐานข้อมูล – "Apache Hadoop & คาสซานดรานั้นได้รับความนิยมมากกว่า Apache Tomcat อย่างมากในขณะที่มีเพียงเล็กน้อย & ดอกเบี้ยที่ลดลงในกรอบ CouchDB." โครงการฐานข้อมูล Apache.

แนวโน้มการพัฒนาซอฟต์แวร์ในระบบนิเวศมูลนิธิ Apache Software

แอปพลิเคชัน CQRS – "Apache Spark และ Kafka ทั้งคู่แสดงความสนใจที่เพิ่มขึ้นเมื่อประมาณ 25% -30% ของกิจกรรมการค้นหาทั้งหมดสำหรับซอฟต์แวร์ Apache HTTPS Server." Apache Spark, Kafka, & โครงการ Flink.

แนวโน้มการพัฒนาซอฟต์แวร์ในระบบนิเวศมูลนิธิ Apache Software

"ข้อมูลใหญ่" ค้นหาแพลตฟอร์ม – "Lucene เป็นหนึ่งในโครงการที่ได้รับความนิยมสูงสุดใน Apache Software Foundation โดยมีความสนใจในการค้นหาประมาณ 3-4 เท่าเมื่อเทียบกับ CloudStack." Apache แพลตฟอร์มการค้นหา.

แนวโน้มการพัฒนาซอฟต์แวร์ในระบบนิเวศมูลนิธิ Apache Software

ซอฟต์แวร์โอเพ่นซอร์สฟรี (FOSS) – "OpenOffice การโค่นล้ม, & Maven เป็นหนึ่งในโครงการที่เป็นที่รู้จักมากที่สุดโดยรวมในระบบนิเวศ Apache." เปรียบเทียบแนวโน้มสำหรับ OpenOffice การโค่นล้ม, & Maven.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me