ETL vs ELT?

ในช่วงระยะสองสามปีมานี้ คำว่า ELT เริ่มเป็นที่พูดถึงในวงการ data แทนคำว่า ETL ที่ใช้กันมานาน ครั้งแรกที่ผมได้ยินก็สงสัยเหมือนกันว่ามันดียังไง รู้แค่ว่า database หลายๆเจ้าอย่าง Redshift, BigQuery หรือ Snowflake ดูจะพร้อมหน้าพร้อมตาเชียร์กันมาก

Read More

อนาคตของ Star schema

สาเหตุที่ผมตัดสินใจเขียน post นี้ขึ้นมานั้น เนื่องจากผมได้มีโอกาสอ่าน Fivetran’s post ซึ่งว่าด้วยเรื่องการทำ Star schema vs full denormalization จึงรู้สึกว่าการทำ star schema กับ modern data warehouse นั้นไม่จำเป็นเท่าไรแล้ว

Read More

ก้าวต่อไปกับ Amazon Aurora

ย้อนกลับไปเมื่อปี 2007 Amazon ต้องการแก้ปัญหาในบริษัทที่มีปัญหากับ relational database แบบเดิมๆ เนื่องจากการ scale write ของ SQL ทำได้ลำบาก จึงเริ่มวิจัย data model แบบใหม่ที่สามารถแก้ปัญหาเรื่องนี้ได้ สิ่งที่ Amazon ค้นพบคือ:

Read More

ก้าวต่อไปกับ Google Spanner

หากจะกล่าวว่า Google คืออันดับหนึ่งด้าน distributed system ก็คงเป็นคำกล่าวที่ไม่ได้เกินจริง เพราะด้วยตัวธุรกิจของ Google ที่ต้อง scale ได้ตั้งแต่วันแรก ประกอบกับผลงานที่ผ่านมาของ Google ทั้งในแวดวง academia และ cloud

Read More

Bastion jumping on aws

In the production environment, database security should always be the top priority. Deploying any database on a public subnet is totally insecured and could be attacked by the hackers.

Read More

Isolation level

Isolation level มีเพื่อจัดการ 3 ปัญหาของ race conditions ของ I ใน ACID โดยสามารถตั้งค่าเพื่อให้เหมาะสมกับการใช้งานของเรา

Read More

PACELC theorem

PACELC theorem is the theory purposing the importance of latency and consistency in the distributed systems when they are in the absence of network partitions.

Read More

เมื่อ Map reduce ไม่สนุกเท่า Hive และ Presto

จากความพยายามที่ต้องการทำให้ MapReduce ใช้งานง่ายขึ้น จึงมีการนำภาษาอื่นที่ไม่ใช่การเขียน Java เข้ามาแทน ไม่ว่าจะเป็นการคิดPig เป็นต้น แต่หนึ่งในวิธีที่ได้รับการต้อนรับที่ดีกว่าวิธีอื่นคือการใช้ SQL - ภาษาที่มีการวิจัยมายาวนานกว่า 40 ปีครับ

Read More

Lambda และ Kappa architecture

Nathan Marz ได้เขียนบทความอธิบายเกี่ยวกับ Lambda architecture ไว้อย่างละเอียดยิบ ในบทนี้ผมขอสรุปเท่าที่ผมเข้าใจละกันครับ

Read More

Cassandra in a nutshell

ย้อนกลับไปเมื่อปี 2007 Amazon ต้องการแก้ปัญหา relational database ของตัวเองที่ไม่สามารถ scale ได้ดั่งใจอยาก ทีมงานของ Amazon จึงตัดสินใจคิดค้น database ใหม่ที่ไม่ใช้ consistency ของ SQL แต่นำเสนอการใช้ eventual consistency เข้ามาแทน พร้อมยังเผยแพร่ Dynamo paper เพื่ออธิบายหลักคิดทั้งหมดของแนวคิดนี้อีกด้วย

Read More

Good old days, Hadoop

Professors can’t start the big data class without introducing Hadoop, and that makes sense because all big data stories have the same origin; Google.

Read More

HBase

HBase เป็น database ที่สร้างตาม BigTable paper ของ Google (ในความจริงแล้ว Google contribute และช่วย HBase engineers เยอะมาก) จึงไม่ต้องแปลกใจที่ในปัจจุบัน เราสามารถใช้ HBase API ในการทำงานร่วมกับ Google Cloud BigTable ได้สบายๆ

Read More

Poke AWS in terminal

My terminal always automatically closes the session whenever I log in to the AWS EC2 instance and stay idle for a few minutes.

Read More