รีวิวหนังสือ "Data Pipelines Pocket Reference: Moving and Processing Data for Analytics"

รีวิวหนังสือ "Data Pipelines Pocket Reference: Moving and Processing Data for Analytics"

เป็นหนังสือที่เขียนโดย James Densmore, Director of Data Infrastructure ที่ HubSpot

ขอสรุปออกมา 3 ประโยค 😎

  1. ครบเครื่องในการออกแบบและสร้าง Data Pipeline ที่ดี เริ่มตั้งแต่ Data Pipeline คืออะไร มีบทบาทอย่างไรใน Data Infrastructure แนวทางการออกแบบ และขั้นตอนต่างๆ มีอะไรบ้าง การตรวจสอบคุณภาพของข้อมูล ข้อปฏิบัติที่ดี จนไปถึงการเฝ้าสังเกตระบบ
  2. เนื้อหาในหนังสือสามารถนำไปปฏิบัติได้จริง เป็นเนื้องานจริงๆ ที่เจอในแต่ละวันของ Data Engineer รวมไปถึงการแก้ไขปัญหาต่างๆ
  3. เหมาะมากๆ สำหรับคนที่สนใจในสายงาน Data Engineer ควรซื้อเล่มนี้เก็บไว้เลย

ผมได้อะไรจากหนังสือเล่มนี้บ้าง?

  • ได้ทบทวนการสร้าง Data Pipeline ที่ดีตั้งแต่ต้นจนจบ และเติมเต็มในส่วนที่เรายังไม่เคยเจอ
  • ได้เรียนรู้ขั้นตอนการเรียบเรียงในการอธิบายศาสตร์ทางด้านนี้ เค้าเรียบเรียงเนื้อหามาได้ดีตั้งแต่ต้นจนจบ
  • เอาสิ่งที่ได้เรียนรู้ไปเสริมเนื้อหาในคอร์สของตัวเองได้
  • เป็นหนังสือที่ผมสามารถหยิบมาเป็น Reference ได้อย่างสบายใจ
  • ภูมิใจในตัวเองที่อ่านหนังสือจบไปอีก 1 เล่ม 🎉

ความคิดเห็นส่วนตัวเกี่ยวกับหนังสือเล่มนี้

เป็นหนังสือเล่มเล็กๆ พกพาสะดวก และผมคิดว่าหนังสือเล่มนี้ควรจะมีติดตัวกันไว้ครับ โดยเฉพาะคนที่สนใจสายงานด้าน Data Engineer ไม่ว่าจะเพิ่งเริ่มต้นหรือว่าอยู่ในระดับ Advanced แล้ว ถึงแม้ว่าเนื้อหาข้างในจะไม่ได้ Advanced เช่น ถึงกับว่าลงรายละเอียดเรื่องการ Scale เพื่อรองรับข้อมูลขนาดใหญ่อะไรแบบนั้น ซึ่งผมคิดว่าถ้าแบบนี้แยกไปเป็นหนังสืออีกเล่มน่าจะดีกว่า แต่สิ่งที่จะได้จากหนังสือเล่มนี้คือ End-to-End Data Pipeline แบบที่ไม่ได้ยัดเยียดข้อมูลให้คนอ่านมากจนเกินไป

อย่างพวกกรณีต่างๆ ที่สามารถนำเอาไปปฏิบัติได้ในงาน ยกตัวอย่างบางส่วนจากในหนังสือ เช่น เรื่องของการ Extract ข้อมูลออกจากต้นทาง ก็จะมีแบบ Full แบบ Incremental และแบบ Change Data Capture (CDC) ว่าต้องทำอย่างไร เขียนโค้ดแบบไหน การ Transform และ Load ต้องคำนึงถึงอะไรบ้าง ถ้าเกิด Duplicate ขึ้นต้องแก้อย่างไร การ Validate เพื่อทำให้ Data Quality ดีขึ้นเราต้องทำอะไรบ้าง โค้ดเราควรเป็นแบบไหน

แน่นอนว่าเนื้อหาของ Data Pipeline ในโลกความเป็นจริงมีเยอะกว่านี้แน่นอนครับ เช่น เนื้อหาหนังสือเล่มนี้ส่วนใหญ่จะเป็นแบบ Batch Processing ซึ่งผมคิดว่าคอนเซปต่างๆ ก็สามารถเอาไปประยุกต์ใช้กับแบบ Stream Processing ได้เช่นกัน เพราะว่ามีสอนเรื่อง CDC และวิธีจัดการ ซึ่งถ้าใครก็ตามที่คาดหวังว่าซื้อเล่มนี้ไปแล้ว "จบ" ผมก็ขอบอกว่าอาจจะผิดหวังนะ 😇 หนังสือเล่มนี้เกิดมาเพื่อจุดประสงค์ตามชื่อของมันเลยครับ "Data Pipelines Pocket Reference"

สุดท้าย หนังสือเล่มนี้เค้าเลือก Apache Airflow มาเล่าไปเต็มๆ 1 บท (บท Orchestrating Pipelines) เลย 😊

ปล. ถ้าใครสนใจอยากเรียนเรื่อง Data Pipelines กับ Airflow เพิ่มเติม ผมเปิดสอนอยู่นะ 👉🏻 Automating Your Data Pipelines with Apache Airflow 😝