วันศุกร์ที่ 21 มกราคม พ.ศ. 2554

ninth class of AI613

Data Warehouse สถานที่ในการจัดเก็บข้อมูลต่างๆ โดยจัดเก็บในระบบ Database เพื่อประโยชน์2 ประการคือ
1. ข้อมูลที่ได้เป็นระบบ รวดเร็วและทันต่อการใช้งาน
2. ข้อมูลถูกรวบรวมไว้ในที่เดียวกันทำให้ผู้ใช้งานสามารถเข้าถึงข้อมูลได้ง่ายขึ้น

ลักษณะของ Data Warehouse
1. Organization กระบวนการในการกรองข้อมูลจากแหล่งข้อมูลต่างๆ เข้าไปยังระบบโดยแบ่งข้อมูลต่างๆ ตามsubject
2. Consistency กระบวนการในการคัดกรองข้อมูลให้ข้อมูลมีรูปแบบตรงกัน  อัพเดตตรงกัน เพื่อป้องกันไม่ให้มีความซ้ำซ้อน หรือผิดพลาดในการวิเคราะห์
3. Time Variant กระบวนการจัดเก็บข้อมูล 5 – 10 ปี ทำให้สามารถวิเคราะห์ถึงแนวโน้ม (Trend) ที่อาจจะเกิดขึ้นในอนาคต
Data Warehouse Processing 
1. รวบรวมข้อมูล  จากทั้งภายในองค์กรและ ภายนอกองค์กร
2. ทำ Meta Data- นำข้อมูลที่รวบรวมสร้างข้อมูลของข้อมูลที่ใช้สำหรับอธิบายข้อมูลต่างๆ ด้วยวิธีการ Extract
3. ทำ Data Staging - จัดระบบข้อมูล และสร้างเป็น Data Cube ซึ่งประกอบไปด้วย 4 ขั้นตอน ได้แก่ Extract, Clean, Transform และ Load (ETL) 
4. สร้าง Data Warehouse – นำข้อมูลมาทำ Data Warehouse โดยยึด Business Object เป็นหลัก
5. สร้าง Business View – การนำเสนอข้อมูลสำหรับผู้บริหาร ในรูปแบบของ Dash
The Data Mart เสมือนหน่วยย่อยของแต่ละแผนกของ data warehouse เกิดจากการตัดแบ่งข้อมูลตามความต้องการของผู้ใช้ในแต่ละแผนกออกมาเป็นส่วนย่อยๆ เพื่อให้เหมาะสำหรับองค์กรขนาดใหญ่ที่มีแผนก หรือหน่วยงานย่อยจำนวนมาก แบ่งเป็น
1. Replicated (dependent) data marts แต่ละส่วนงานก็มาแยกข้อมูลมาทำ mart เฉพาะส่วนของตนเอง
2.  Stand – alone data marts ทำเฉพาะ marts ในส่วนงานที่พร้อมไปก่อน เมื่อแต่ละส่วนงานพร้อมแล้วค่อยเอามารวมเป็น Enterprise

Data Cube คือ Multidimensional Databases เพื่อให้มองภาพของข้อมูลนั้นได้หลายมิติมากขึ้น คือ จะสามารถตัดข้อมูลเป็นแต่ละส่วนเพื่อเลือกส่วนของข้อมูลที่ต้องการวิเคราะห์ได้ ทำให้เห็นหลายมิติ หลายมุมมองมาก


Business Intelligence
การรวมกันของโครงสร้างระบบ เครื่องมือต่าง ฐานข้อมูลและ Application ที่ช่วยในการวิเคราะห์ข้อมูลให้มีประสิทธิภาพประกอบไปด้วย 3 องค์ประกอบ
1.  Reporting and Analysis  
·       Enterprise Reporting System การจัดทำรายเป็นข้อมูลที่เตรียมให้สำหรับผู้บริหารนำไปใช้ในการวิเคราะห์
·       Dashboards การรายงานข้อมูล Visual Display
·       Scorecard  เป็นรายงานสำหรับผู้บริหารในระดับ strategic เป็นกระบวนการสำหรับการตรวจสอบและควบคุม
2.  Analytics กระบวนการวิเคราะห์ข้อมูลที่ได้จากแหล่งต่างๆ เช่น Online Analytical Processing (OLTP) 
3.  Data Mining การแยกข้อมูลเพื่อพยากรณ์แนวโน้มที่อาจจะเกิดขึ้น หรือการค้นหาข้อมูลที่เป็นประโยชน์ในอดีต  โดยทำกับบริษัทที่มี Database ขนาดใหญ่  เริ่มต้นที่ การรวบรวมข้อมูลจากที่ต่างๆ ทั้ง Warehouse และแหล่งอื่น แล้วทำ ECTL (Extract, Clean, Transform, Load) จากนั้นนำมาวิเคราะห์และประมวลผล แล้วนำไปแปรผลข้อมูล เพื่อให้สามารถนำไปใช้ได้ง่ายยิ่งขึ้น 
รูปแบบของ Data Mining 
1. Clustering ข้อมูลที่มีความสัมพันธ์กันเอง
2. Classification ข้อมูลตามสมมติฐาน
3. Association ผลจากการวิเคราะห์
4. Sequence discovery ผลที่เกิดมาตามหลัง
5. Prediction ผลที่ใช้สำหรับการคาดการณ์

วันพฤหัสบดีที่ 13 มกราคม พ.ศ. 2554

eighth class of AI613

Data Management
ระบบ (System) คือ กระบวนการทำงานโดยจะมี Input ผ่านกระบวนการเพื่อให้ได้ Output โดยกำหนดวัตถุประสงค์ก่อน เมื่อใส่ Input และผ่าน Process ที่แตกต่างกัน Output ก็จะแตกต่างกันด้วย
ระบบสารสนเทศ (Information System) คือ ระบบที่รวมข้อมูลจากแหล่งต่างๆ และนำไปวิเคราะห์ เพื่อให้ได้สารสนเทศตามวัตถุประสงค์ และทำการจัดเก็บหรือนำเสนอ โดยมีลักษณะแตกต่างกันไปลักษณะความต้องการ
องค์ประกอบของระบบสารสนเทศ ได้แก่
·          Hardware
·         Software
·         Data
·         Network
·         Procedure
·         People

Data Management  การบริหารแหล่งข้อมูล มี4 ขั้นตอน ได้แก่
1.      Data Profiling การป้อนข้อมูลซึ่งจะทำให้เรารู้จักข้อมูลนั้นๆ
2.      Data quality management ปรับปรุงให้ข้อมูลมีคุณภาพ
3.      Data integration การรวมข้อมูลที่คล้ายกันซึ่งยังคงกระจัดกระจายเนื่องจากมาจากหลากหลายแหล่ง
4.      Data augmentation พัฒนาคุณภาพเพื่อสร้างคุณค่า

Data Life Cycle Process
ข้อมูลที่เป็นข้อมูลใหม่จากแหล่งข้อมูลต่างๆ โดยจะถูกจัดเก็บเป็น collection และถูกจัดเก็บเป็น database จากนั้นจะ format ลงใน data warehouse หรือ data mart แล้วจึงค่อยนำเข้าสู่กระบวนการวิเคราะห์ต่อไป ท้ายที่สุดจะนำผลจากการวิเคราะห์ ที่ได้นั้นสร้างเป็นกลยุทธ์ต่างๆ ต่อไป
            ทั้งนี้ในกระบวนการเหล่านี้ยังคงมีปัญหาเรื่องข้อมูลที่ยังคงติดอยู่ที่ตัวบุคคลขององค์กร (Implicit) แต่สำหรับองค์กรแล้วต้องการถ่ายเทความรู้จากตัวบุคคลเข้าสู่ระบบหรือ Explicit Data เพื่อลดปัญหาในกรณีที่พนักงานหรือบุคคลผู้รู้ข้อมูลไม่อยู่ก็ยังคงสามารถทำงานต่อไปได้