ڈیٹا گودام میں ETL (ایکسٹریکٹ ، ٹرانسفارم اور لوڈ) کا عمل۔

ETL کیا ہے؟

ETL یہ ایک ایسا عمل ہے جو مختلف سورس سسٹمز سے ڈیٹا نکالتا ہے ، پھر ڈیٹا کو تبدیل کرتا ہے (جیسے حساب لگانا ، کنکٹی نیشن وغیرہ) اور آخر میں ڈیٹا کو گودام کے سسٹم میں لوڈ کرتا ہے۔ ETL کی مکمل شکل ایکسٹریکٹ ، ٹرانسفارم اور لوڈ ہے۔

ڈیٹا گودام بنانا یہ سوچنے کے لیے پرکشش ہے کہ ایک سے زیادہ ذرائع سے ڈیٹا نکالنا اور ڈیٹا گودام کے ڈیٹا بیس میں لوڈ کرنا ہے۔ یہ حقیقت سے بہت دور ہے اور ایک پیچیدہ ETL عمل کی ضرورت ہے۔ ETL کے عمل کے لیے مختلف اسٹیک ہولڈرز بشمول ڈویلپرز ، تجزیہ کاروں ، ٹیسٹرز ، ٹاپ ایگزیکٹوز کے فعال ان پٹ کی ضرورت ہوتی ہے اور یہ تکنیکی طور پر مشکل ہے۔

فیصلہ سازوں کے لیے ایک ٹول کے طور پر اس کی قدر کو برقرار رکھنے کے لیے ، ڈیٹا گودام کے نظام کو کاروباری تبدیلیوں کے ساتھ تبدیل کرنے کی ضرورت ہے۔ ETL ایک ڈیٹا ویئر ہاؤس سسٹم کی بار بار چلنے والی سرگرمی (روزانہ ، ہفتہ وار ، ماہانہ) ہے اور اسے چست ، خودکار اور اچھی طرح سے دستاویزی ہونے کی ضرورت ہے۔

اس ETL ٹیوٹوریل میں ، آپ سیکھیں گے-

آپ کو ETL کی ضرورت کیوں ہے؟

تنظیم میں ETL کو اپنانے کی بہت سی وجوہات ہیں:

  • یہ کمپنیوں کو اہم کاروباری فیصلے لینے کے لیے اپنے کاروباری ڈیٹا کا تجزیہ کرنے میں مدد کرتا ہے۔
  • ٹرانزیکشنل ڈیٹا بیس پیچیدہ کاروباری سوالات کا جواب نہیں دے سکتا جن کا جواب ETL مثال کے ذریعے دیا جا سکتا ہے۔
  • ڈیٹا گودام ایک عام ڈیٹا ذخیرہ فراہم کرتا ہے۔
  • ETL ڈیٹا کو مختلف ذرائع سے ڈیٹا گودام میں منتقل کرنے کا طریقہ فراہم کرتا ہے۔
  • جیسا کہ ڈیٹا کے ذرائع تبدیل ہوتے ہیں ، ڈیٹا گودام خود بخود اپ ڈیٹ ہوجاتا ہے۔
  • اچھی طرح سے ڈیزائن اور دستاویزی ETL سسٹم ڈیٹا گودام منصوبے کی کامیابی کے لیے تقریبا essential ضروری ہے۔
  • ڈیٹا ٹرانسفارمیشن ، ایگریگیشن اور کیلکولیشن رولز کی تصدیق کی اجازت دیں۔
  • ETL عمل ماخذ اور ہدف کے نظام کے مابین نمونہ ڈیٹا کے موازنہ کی اجازت دیتا ہے۔
  • ETL عمل پیچیدہ تبدیلیوں کو انجام دے سکتا ہے اور ڈیٹا کو ذخیرہ کرنے کے لیے اضافی رقبے کی ضرورت ہوتی ہے۔
  • ETL ڈیٹا گودام میں ڈیٹا منتقل کرنے میں مدد کرتا ہے۔ ایک مستقل نظام پر قائم رہنے کے لیے مختلف فارمیٹس اور اقسام میں تبدیل کریں۔
  • ETL ہدف ڈیٹا بیس میں سورس ڈیٹا تک رسائی اور ہیرا پھیری کے لیے ایک پہلے سے طے شدہ عمل ہے۔
  • ڈیٹا گودام میں ETL کاروبار کے لیے گہرا تاریخی سیاق و سباق پیش کرتا ہے۔
  • یہ پیداواری صلاحیت کو بہتر بنانے میں مدد کرتا ہے کیونکہ یہ تکنیکی مہارتوں کی ضرورت کے بغیر ضابطہ بندی اور دوبارہ استعمال کرتا ہے۔

ڈیٹا گوداموں میں ETL عمل

ETL ایک 3 قدمی عمل ہے۔

ETL عمل



مرحلہ 1) نکالنا

ای ٹی ایل فن تعمیر کے اس مرحلے میں ، سورس سسٹم سے ڈیٹا اسٹیجنگ ایریا میں نکالا جاتا ہے۔ تبدیلیاں اگر کوئی اسٹیجنگ ایریا میں کی جاتی ہیں تاکہ سورس سسٹم کی کارکردگی خراب نہ ہو۔ نیز ، اگر خراب ڈیٹا کو براہ راست ماخذ سے ڈیٹا گودام ڈیٹا بیس میں کاپی کیا جاتا ہے تو ، رول بیک ایک چیلنج ہوگا۔ اسٹیجنگ ایریا ڈیٹا گودام میں منتقل ہونے سے پہلے نکالا ہوا ڈیٹا درست کرنے کا موقع فراہم کرتا ہے۔

ڈیٹا ویئر ہاؤس کو ان سسٹم کو ضم کرنے کی ضرورت ہے جو مختلف ہیں۔

ڈی بی ایم ایس ، ہارڈ ویئر ، آپریٹنگ سسٹم اور کمیونیکیشن پروٹوکول۔ ذرائع میں میراثی ایپلی کیشنز جیسے مین فریمز ، اپنی مرضی کے مطابق ایپلی کیشنز ، پوائنٹ آف کانٹیکٹ ڈیوائسز جیسے اے ٹی ایم ، کال سوئچز ، ٹیکسٹ فائلز ، اسپریڈشیٹس ، ای آر پی ، دکانداروں کا ڈیٹا ، شراکت دار شامل ہوسکتے ہیں۔

اس لیے ڈیٹا نکالنے اور جسمانی طور پر لوڈ کرنے سے پہلے کسی کو منطقی ڈیٹا میپ کی ضرورت ہوتی ہے۔ یہ ڈیٹا نقشہ ذرائع اور ٹارگٹ ڈیٹا کے مابین تعلقات کو بیان کرتا ہے۔

ڈیٹا نکالنے کے تین طریقے:

  1. مکمل نکالنا۔
  2. جزوی نکالنا- بغیر اپ ڈیٹ اطلاع کے۔
  3. جزوی نکالنا- تازہ کاری کی اطلاع کے ساتھ۔

استعمال شدہ طریقہ سے قطع نظر ، نکالنے سے سورس سسٹم کی کارکردگی اور جوابی وقت متاثر نہیں ہونا چاہئے۔ یہ سورس سسٹم لائیو پروڈکشن ڈیٹا بیس ہیں۔ کوئی بھی سست یا تالا لگانا کمپنی کی نچلی لائن کو متاثر کرسکتا ہے۔

کچھ توثیق نکالنے کے دوران کی جاتی ہیں:

  • ماخذ کے اعداد و شمار کے ساتھ ریکارڈ کو دوبارہ ترتیب دیں۔
  • اس بات کو یقینی بنائیں کہ کوئی سپیم/ناپسندیدہ ڈیٹا لوڈ نہ ہو۔
  • ڈیٹا ٹائپ چیک۔
  • تمام قسم کے ڈپلیکیٹ/ٹکڑے ٹکڑے ڈیٹا کو ہٹا دیں۔
  • چیک کریں کہ تمام چابیاں جگہ پر ہیں یا نہیں۔

مرحلہ 2) تبدیلی

سورس سرور سے نکالا گیا ڈیٹا خام ہے اور اپنی اصل شکل میں استعمال کے قابل نہیں ہے۔ اس لیے اسے صاف کرنے ، نقشہ بنانے اور تبدیل کرنے کی ضرورت ہے۔ درحقیقت ، یہ کلیدی مرحلہ ہے جہاں ETL عمل قدر میں اضافہ کرتا ہے اور ڈیٹا کو تبدیل کرتا ہے تاکہ بصیرت انگیز BI رپورٹس تیار کی جاسکیں۔

یہ ایک اہم ETL تصورات میں سے ایک ہے جہاں آپ نکالے گئے ڈیٹا پر افعال کا ایک سیٹ لگاتے ہیں۔ وہ ڈیٹا جس میں کسی تبدیلی کی ضرورت نہ ہو اسے کہتے ہیں۔ براہ راست اقدام یا ڈیٹا سے گزرنا .

تبدیلی کے مرحلے میں ، آپ ڈیٹا پر اپنی مرضی کے مطابق آپریشن کر سکتے ہیں۔ مثال کے طور پر ، اگر صارف فروخت سے حاصل ہونے والی آمدنی چاہتا ہے جو ڈیٹا بیس میں نہیں ہے۔ یا اگر ٹیبل میں پہلا نام اور آخری نام مختلف کالموں میں ہے۔ لوڈ کرنے سے پہلے ان کو جوڑنا ممکن ہے۔

ڈیٹا انضمام کے مسائل۔

ڈیٹا انٹیگریٹی کے مسائل درج ذیل ہیں۔

  1. ایک ہی شخص کی مختلف ہجے جیسے جون ، جان وغیرہ۔
  2. کمپنی کے نام کو ظاہر کرنے کے کئی طریقے ہیں جیسے گوگل ، گوگل۔
  3. مختلف ناموں کا استعمال جیسے کلیولینڈ ، کلیولینڈ۔
  4. ایک کیس ہو سکتا ہے کہ ایک ہی کسٹمر کے لیے مختلف ایپلی کیشنز کے ذریعے مختلف اکاؤنٹ نمبر بنائے جائیں۔
  5. کچھ ڈیٹا میں مطلوبہ فائلیں خالی رہتی ہیں۔
  6. POS پر جمع شدہ غلط پروڈکٹ بطور دستی اندراج غلطیوں کا باعث بن سکتا ہے۔

توثیق اس مرحلے کے دوران کی جاتی ہے۔

  • فلٹرنگ - لوڈ کرنے کے لیے صرف کچھ کالم منتخب کریں۔
  • ڈیٹا سٹینڈرڈائزیشن کے لیے قواعد اور تلاش کی میزیں استعمال کرنا۔
  • کریکٹر سیٹ کنورژن اور انکوڈنگ ہینڈلنگ۔
  • پیمائش کی اکائیوں کی تبدیلی جیسے تاریخ کے وقت کی تبدیلی ، کرنسی کے تبادلوں ، عددی تبادلوں وغیرہ۔
  • ڈیٹا کی حد کی توثیق کی جانچ۔ مثال کے طور پر ، عمر دو ہندسوں سے زیادہ نہیں ہو سکتی۔
  • اسٹیجنگ ایریا سے انٹرمیڈیٹ ٹیبلز تک ڈیٹا کے بہاؤ کی توثیق۔
  • مطلوبہ فیلڈز کو خالی نہیں چھوڑنا چاہیے۔
  • صفائی (مثال کے طور پر ، NULL سے 0 یا صنفی مرد سے 'M' اور خاتون سے 'F' وغیرہ تک نقشہ سازی)
  • ایک کالم کو ضرب میں تقسیم کریں اور ایک سے زیادہ کالموں کو ایک کالم میں ضم کریں۔
  • قطاروں اور کالموں کو منتقل کرنا ،
  • ڈیٹا کو ضم کرنے کے لیے تلاش کا استعمال کریں۔
  • کسی بھی پیچیدہ ڈیٹا کی توثیق کا استعمال کرتے ہوئے (مثال کے طور پر ، اگر قطار میں پہلے دو کالم خالی ہیں تو یہ خود بخود صف کو پروسیسنگ سے مسترد کر دیتا ہے)

مرحلہ 3) لوڈ ہو رہا ہے۔

ٹارگٹ ڈیٹا ویئر ہاؤس ڈیٹا بیس میں ڈیٹا لوڈ کرنا ETL عمل کا آخری مرحلہ ہے۔ عام ڈیٹا گودام میں ، نسبتا short مختصر مدت (راتوں) میں ڈیٹا کی بڑی مقدار کو لوڈ کرنے کی ضرورت ہوتی ہے۔ لہذا ، کارکردگی کے لیے لوڈ کے عمل کو بہتر بنایا جانا چاہیے۔

لوڈ کی ناکامی کی صورت میں ، ڈیٹا کی سالمیت کے نقصان کے بغیر ناکامی کے مقام سے دوبارہ شروع کرنے کے لیے ریکوری میکانزم کو ترتیب دیا جانا چاہیے۔ ڈیٹا ویئر ہاؤس کے منتظمین کو موجودہ سرور کی کارکردگی کے مطابق بوجھ کو مانیٹر کرنے ، دوبارہ شروع کرنے ، منسوخ کرنے کی ضرورت ہے۔

لوڈنگ کی اقسام:

  • ابتدائی لوڈ - تمام ڈیٹا ویئر ہاؤس ٹیبلز کو آباد کرنا۔
  • بڑھتی ہوئی لوڈ - وقتی ضرورت کے مطابق جاری تبدیلیوں کو لاگو کرنا۔
  • مکمل ریفریش ایک یا زیادہ جدولوں کے مندرجات کو حذف کرنا اور تازہ ڈیٹا کے ساتھ دوبارہ لوڈ کرنا۔

توثیق لوڈ کریں۔

  • اس بات کو یقینی بنائیں کہ کلیدی فیلڈ کا ڈیٹا نہ غائب ہے اور نہ ہی کالعدم۔
  • ٹارگٹ ٹیبلز کی بنیاد پر ٹیسٹنگ ماڈلنگ ویوز۔
  • مشترکہ اقدار اور حسابی اقدامات کو چیک کریں۔
  • ڈائمینشن ٹیبل کے ساتھ ساتھ ہسٹری ٹیبل میں ڈیٹا چیک کرتا ہے۔
  • بھری ہوئی حقیقت اور جہت ٹیبل پر BI رپورٹس کو چیک کریں۔

ETL ٹولز

مارکیٹ میں بہت سے ڈیٹا ویئر ہاؤسنگ ٹولز دستیاب ہیں۔ یہاں ، کچھ نمایاں ہیں:

1. مارک لاجک:

مارک لاجک ایک ڈیٹا ویئر ہاؤسنگ حل ہے جو انٹرپرائز فیچرز کی ایک صف کو استعمال کرتے ہوئے ڈیٹا انضمام کو آسان اور تیز تر بناتا ہے۔ یہ مختلف قسم کے ڈیٹا سے استفسار کرسکتا ہے جیسے دستاویزات ، تعلقات اور میٹا ڈیٹا۔

https://www.marklogic.com/product/getting-started/


2. اوریکل:

اوریکل انڈسٹری کا معروف ڈیٹا بیس ہے۔ یہ آن پریمیسس اور کلاؤڈ دونوں کے لیے ڈیٹا ویئر ہاؤس حل کے انتخاب کی ایک وسیع رینج پیش کرتا ہے۔ یہ آپریشنل کارکردگی کو بڑھا کر کسٹمر کے تجربات کو بہتر بنانے میں مدد کرتا ہے۔

https://www.oracle.com/index.html


3. ایمیزون ریڈ شفٹ:

ایمیزون ریڈ شفٹ ڈیٹا ویئر ہاؤس ٹول ہے۔ معیاری SQL اور موجودہ BI ٹولز کا استعمال کرتے ہوئے ہر قسم کے ڈیٹا کا تجزیہ کرنے کے لیے یہ ایک سادہ اور سرمایہ کاری مؤثر ٹول ہے۔ یہ ساختی ڈیٹا کے پیٹا بائٹس کے خلاف پیچیدہ سوالات چلانے کی بھی اجازت دیتا ہے۔

https://aws.amazon.com/redshift/؟nc2=h_m1۔

یہاں مفید کی مکمل فہرست ہے۔ ڈیٹا گودام کے اوزار۔

ETL کے بہترین عمل۔

ETL عمل کے مراحل کے لیے درج ذیل بہترین طریقے ہیں:

کبھی بھی تمام ڈیٹا کو صاف کرنے کی کوشش نہ کریں:

ہر تنظیم تمام ڈیٹا کو صاف رکھنا چاہتی ہے ، لیکن ان میں سے بیشتر انتظار کرنے کے لیے ادائیگی کے لیے تیار نہیں ہیں یا انتظار کرنے کے لیے تیار نہیں ہیں۔ ان سب کو صاف کرنے میں بہت زیادہ وقت لگے گا ، لہذا بہتر ہے کہ تمام ڈیٹا کو صاف کرنے کی کوشش نہ کریں۔

کبھی بھی کسی چیز کو صاف نہ کریں:

ہمیشہ کسی چیز کو صاف کرنے کی منصوبہ بندی کریں کیونکہ ڈیٹا گودام بنانے کی سب سے بڑی وجہ صاف ستھرا اور زیادہ قابل اعتماد ڈیٹا پیش کرنا ہے۔

ڈیٹا کو صاف کرنے کی لاگت کا تعین کریں:

تمام گندے ڈیٹا کو صاف کرنے سے پہلے ، یہ ضروری ہے کہ آپ ہر گندے ڈیٹا عنصر کے لیے صفائی کی قیمت کا تعین کریں۔

استفسار کی پروسیسنگ کو تیز کرنے کے لیے ، معاون خیالات اور اشاریے رکھیں:

اسٹوریج کے اخراجات کو کم کرنے کے لیے ، خلاصہ شدہ ڈیٹا کو ڈسک ٹیپ میں محفوظ کریں۔ اس کے علاوہ ، ذخیرہ کیے جانے والے ڈیٹا کے حجم اور اس کے تفصیلی استعمال کے درمیان تجارت کی ضرورت ہے۔ اسٹوریج کے اخراجات کو کم کرنے کے لیے ڈیٹا کی گرانولریٹی کی سطح پر تجارت۔

خلاصہ:

  • نکالنے ، تبدیل کرنے اور لوڈ کرنے کے لیے ETLstands۔
  • ETL ڈیٹا کو مختلف ذرائع سے ڈیٹا گودام میں منتقل کرنے کا طریقہ فراہم کرتا ہے۔
  • پہلے مرحلے میں ، سورس سسٹم سے ڈیٹا اسٹیجنگ ایریا میں نکالا جاتا ہے۔
  • تبدیلی کے مرحلے میں ، ماخذ سے نکالا گیا ڈیٹا صاف اور تبدیل ہوجاتا ہے۔
  • ٹارگٹ ڈیٹا ویئر ہاؤس میں ڈیٹا لوڈ کرنا ETL عمل کا آخری مرحلہ ہے۔