Skip to main content

Command Palette

Search for a command to run...

รีวิวหนังสือ "Data Pipelines Pocket Reference: Moving and Processing Data for Analytics"

Updated
1 min read
รีวิวหนังสือ "Data Pipelines Pocket Reference: Moving and Processing Data for Analytics"
K

I'm a data architect from Thailand. :)

เป็นหนังสือที่เขียนโดย James Densmore, Director of Data Infrastructure ที่ HubSpot

ขอสรุปออกมา 3 ประโยค 😎

  1. ครบเครื่องในการออกแบบและสร้าง Data Pipeline ที่ดี เริ่มตั้งแต่ Data Pipeline คืออะไร มีบทบาทอย่างไรใน Data Infrastructure แนวทางการออกแบบ และขั้นตอนต่างๆ มีอะไรบ้าง การตรวจสอบคุณภาพของข้อมูล ข้อปฏิบัติที่ดี จนไปถึงการเฝ้าสังเกตระบบ
  2. เนื้อหาในหนังสือสามารถนำไปปฏิบัติได้จริง เป็นเนื้องานจริงๆ ที่เจอในแต่ละวันของ Data Engineer รวมไปถึงการแก้ไขปัญหาต่างๆ
  3. เหมาะมากๆ สำหรับคนที่สนใจในสายงาน Data Engineer ควรซื้อเล่มนี้เก็บไว้เลย

ผมได้อะไรจากหนังสือเล่มนี้บ้าง?

  • ได้ทบทวนการสร้าง Data Pipeline ที่ดีตั้งแต่ต้นจนจบ และเติมเต็มในส่วนที่เรายังไม่เคยเจอ
  • ได้เรียนรู้ขั้นตอนการเรียบเรียงในการอธิบายศาสตร์ทางด้านนี้ เค้าเรียบเรียงเนื้อหามาได้ดีตั้งแต่ต้นจนจบ
  • เอาสิ่งที่ได้เรียนรู้ไปเสริมเนื้อหาในคอร์สของตัวเองได้
  • เป็นหนังสือที่ผมสามารถหยิบมาเป็น Reference ได้อย่างสบายใจ
  • ภูมิใจในตัวเองที่อ่านหนังสือจบไปอีก 1 เล่ม 🎉

ความคิดเห็นส่วนตัวเกี่ยวกับหนังสือเล่มนี้

เป็นหนังสือเล่มเล็กๆ พกพาสะดวก และผมคิดว่าหนังสือเล่มนี้ควรจะมีติดตัวกันไว้ครับ โดยเฉพาะคนที่สนใจสายงานด้าน Data Engineer ไม่ว่าจะเพิ่งเริ่มต้นหรือว่าอยู่ในระดับ Advanced แล้ว ถึงแม้ว่าเนื้อหาข้างในจะไม่ได้ Advanced เช่น ถึงกับว่าลงรายละเอียดเรื่องการ Scale เพื่อรองรับข้อมูลขนาดใหญ่อะไรแบบนั้น ซึ่งผมคิดว่าถ้าแบบนี้แยกไปเป็นหนังสืออีกเล่มน่าจะดีกว่า แต่สิ่งที่จะได้จากหนังสือเล่มนี้คือ End-to-End Data Pipeline แบบที่ไม่ได้ยัดเยียดข้อมูลให้คนอ่านมากจนเกินไป

อย่างพวกกรณีต่างๆ ที่สามารถนำเอาไปปฏิบัติได้ในงาน ยกตัวอย่างบางส่วนจากในหนังสือ เช่น เรื่องของการ Extract ข้อมูลออกจากต้นทาง ก็จะมีแบบ Full แบบ Incremental และแบบ Change Data Capture (CDC) ว่าต้องทำอย่างไร เขียนโค้ดแบบไหน การ Transform และ Load ต้องคำนึงถึงอะไรบ้าง ถ้าเกิด Duplicate ขึ้นต้องแก้อย่างไร การ Validate เพื่อทำให้ Data Quality ดีขึ้นเราต้องทำอะไรบ้าง โค้ดเราควรเป็นแบบไหน

แน่นอนว่าเนื้อหาของ Data Pipeline ในโลกความเป็นจริงมีเยอะกว่านี้แน่นอนครับ เช่น เนื้อหาหนังสือเล่มนี้ส่วนใหญ่จะเป็นแบบ Batch Processing ซึ่งผมคิดว่าคอนเซปต่างๆ ก็สามารถเอาไปประยุกต์ใช้กับแบบ Stream Processing ได้เช่นกัน เพราะว่ามีสอนเรื่อง CDC และวิธีจัดการ ซึ่งถ้าใครก็ตามที่คาดหวังว่าซื้อเล่มนี้ไปแล้ว "จบ" ผมก็ขอบอกว่าอาจจะผิดหวังนะ 😇 หนังสือเล่มนี้เกิดมาเพื่อจุดประสงค์ตามชื่อของมันเลยครับ "Data Pipelines Pocket Reference"

สุดท้าย หนังสือเล่มนี้เค้าเลือก Apache Airflow มาเล่าไปเต็มๆ 1 บท (บท Orchestrating Pipelines) เลย 😊

ปล. ถ้าใครสนใจอยากเรียนเรื่อง Data Pipelines กับ Airflow เพิ่มเติม ผมเปิดสอนอยู่นะ 👉🏻 Automating Your Data Pipelines with Apache Airflow 😝

More from this blog

Data Engineer Cafe: Data Engineering Center of Excellence ของคนไทย เพื่อคนไทย

ตอนนี้ผมพยายามอยากจะสร้าง community ของชาว data engineer ในเมืองไทย เป้าหมายคืออยากจะเป็น center of excellence ที่ใครก็ตามอยากทำงานในสายงานนี้ หรือมีความสนใจจะเข้ามาพูดคุยแลกเปลี่ยนความคิดเห็นกัน ก็จะสามารถเข้ามาแสดงความคิดเห็นได้อย่างมีอิสระเสรีภาพเ...

Apr 17, 20221 min read452
Data Engineer Cafe: Data Engineering Center of Excellence ของคนไทย เพื่อคนไทย

มาลองเล่น Dagster เบื้องต้นกัน

Dagster ตามชื่อของมันเลยคือ data orchestrator สำหรับงานพวก machine learning, analytics และ ETL ซึ่งเป็นเครื่องมือที่ช่วยเรื่อง workflow management อีกตัวหนึ่งที่กำลังมาแรงไม่แพ้ Airflow เลยทีเดียว จริงๆ แล้ว Nick Schrock (ผู้พัฒนา) ไม่ได้ตั้งใจจะทำอ...

Sep 24, 20213 min read1.2K
มาลองเล่น Dagster เบื้องต้นกัน

Scraping ข้อมูลประกาศรับสมัคร Data Engineer บนเว็บ Indeed.com

เกริ่น ในสายงาน Data Science & Engineering การทำ Scraping เป็นวิธีหนึ่งในการดึงข้อมูลจากระบบหนึ่งๆ ในกรณีที่เค้าไม่ได้มี API ไว้ให้เราใช้ อย่างเช่น หน้าเว็บไซต์ต่างๆ หรือข้อมูลที่อยู่ในไฟล์พวก PDF เป็นต้น ถ้าเรามีความสามารถในการเขียนโค้ดทำ Scraping ไ...

Aug 28, 20212 min read719
Scraping ข้อมูลประกาศรับสมัคร Data Engineer บนเว็บ Indeed.com

Kan Ouivirach

13 posts

Data Craftsman. Passionate in software engineering, data engineering, and data science. ❤️