Friday, January 21, 2011

Week 9

Data Warehouses  เป็นที่เก็บข้อมูลต่างๆในองค์กร เพื่อนำไปใช้ในการวิเคราะห์ข้อมูลในอนาคต

ลักษณะของ Data Warehouse
                        Organization ข้อมูลจะถูกคัดกรองให้เข้าไปสู่ Data Warehouse โดยแบ่งข้อมูลต่างๆ ตามหมวดหมู่ของ Data
                        Consistency การทำให้ Data ต่างๆที่นำมาอยู่ใน Data Warehouse อยู่ในรูปแบบเดียวกัน
                        Time Variant ระยะเวลาในการจัดเก็บข้อมูล 5 – 10 ปี อาจจะนำไปใช้ในการวิเคราะห์แนวโน้ม

Data Warehouse Processing 
แบ่งเป็นขั้นตอนทั้งหมด 5 ขั้นตอน ดังนี้
1. รวบรวมข้อมูลจากภายในและนอกองค์กร
2. ทำ Meta Data เป็นข้อมูลที่ใช้ในการอธิบาย Data ที่นำมาเก็บไว้ใน Data Warehouse
3. ทำ Data Staging เป็นการจัดข้อมูลเพื่อนำไปใส่ใน Data Warehouse โดยผ่านการทำ Data Cube ซึ่งประกอบไปด้วยขั้นตอนการทำ 4 ขั้นตอน ได้แก่ Extract, Clean, Transform และ Load (ETL) 
4. สร้าง Data Warehouse  นำข้อมูลจาก Data Cube มาใส่ใน Data Warehouse โดยยึด Business Object เป็นหลัก
5. สร้าง Business View  เป็นการสร้าง Dash Board เพื่อนำเสนอข้อมูลสำหรับผู้บริหาร ซึ่งอำนวยความสะดวกในการนำไปใช้ของผู้บริหาร

The Data Mart
เป็นข้อมูลที่ดึงมาจาก Data Warehouse โดยดึงข้อมูลหน่วยย่อยโดยแยกเป็นแผนก โดยแบ่งเป็น 2 ประเภท คือ

1. Replicated (dependent) data marts แต่ละ Business Unit  ดึงข้อมูลขอตัวเองมาทำ mart
2.  Stand – alone data marts องค์กรที่ไม่พร้อมทำ Enterprise Data Warehouse จะใช้แบบนี้ คือ แยก Data Warehouse เป็น Data Mart ตั้งแต่เริ่มแรก


Data Cube 

คือ Multidimensional Databases เป็นการมองภาพของข้อมูลเป็นหลายมิติ เช่น แบ่งเป็นตามภูมิศาสตร์ เวลา ผลิตภัณฑ์ ได้ ทำให้เห็นปัญหาที่ชัดเจนขึ้น หลายมิติ หลายมุมมองมากขึ้น ซึ่งสามารถ Slice และ Dice ออกมาได้  
Business Intelligence 
การรวมกันของเครื่องมือต่างๆ ฐานข้อมูล และ Application เพื่อใช้ในการวิเคราะห์ข้อมูลให้มีประสิทธิภาพมากยิ่งขึ้น ประกอบไปด้วย 3 องค์ประกอบ ดังนี้
Reporting and analysis 
Enterprise reporting and analysis
Enterprise search
Scorecards
Dashboards
Visualization tool
Analytics
Predictive analytics
Data,text and web mining
OLAP(online analytics processing
Data Integration
ETL (extract,transformation,load)
EII (enterprise information integration)
  
Data Mining ช่วยในการวิเคราะห์ข้อมูลจำนวนมากใน Database เพื่อช่วยในการตัดสินใจ ทำให้สามารถเห็นประโยชน์ของข้อมูลได้

Text Mining เป็น Data mining สำหรับข้อมูลที่ไม่มีโครงสร้างในการจัดเก็บ เช่น การประกันสินค้า การให้ความช่วยเหลือลูกค้า

Thursday, January 13, 2011

Week 8

System คือ ระบบที่มีการที่ใส่ Input เข้าไปในระบบและผ่าน Process แล้วจะได้ Output ซึ่งสิ่งที่ได้นั้นต้องเป็นไปตาม Objective ที่ระบบได้กำหนดไว้ ซึ่งสิ่งที่ต้องรู้คือ Input กับ Process นั้นควรทำเช่นไรถึงจะได้ Output ตามที่ต้องการได้

Information System คือ ระบบที่มีหน้าที่รวบรวม ประมวลผล จัดเก็บและแจกจ่ายสารสนเทศ เพื่อนำมาวิเคราะห์ข้อมูลเพื่อที่จะใช้งานในอนาคต และ Output ที่ได้ออกมาจะเป็น Data หรือ Information นั้นขึ้นอยู่กับว่า Output นั้นมีประโยชน์ต่อผู้รับหรือไม่

Data Management  :

สิ่งที่เป็นปัญหาสำหรับ Data Management
   - ข้อมูลนั้นมีจำนวนเพิ่มขึ้นตลอดเวลา
   - ข้อมูลแต่ละแผนกนั้นมีความแตกต่างกัน ยากแก่การรวบรวม
   - ข้อมูลมีความซับซ้อน
   - ข้อมูลต้องมีระบบความปลอยภัย ต่อการถูกขโมย และถูกต้องตามที่ควร
   - เครื่องมือที่ใช้นั้นต้องเหมาะสม

แบ่งออกเป็น 4 ประเภท คือ
   - Data Profiling 
   - Data quality management 
   - Data integration 
   - Data augmentation

Data life cycle process
   1. New data collection จาก 3 แหล่ง คือ Internal Data, External Data, Personal Data
   2. Stored in a Database การเก็บข้อมูลใน Warehouse
   3. Users access the database and take a copy of the needed data for analysis คือ การคัดลอกข้อมูลไปวิเคราะห์
   4. Use Data analysis tools or Data mining tools for analysis คือ การนำเครื่องมือสำหรับวิเคราะห์ไปวิเคราะห์

Characteristic of Data Warehouse
   1. Organization มีการจัดข้อมูลเป็นหมวดหมู่ใหม่ ตามที่ผู้วิเคราะห์ต้องการ
   2. Consistency รูปแบบข้อมูลมีการทำให้เป็นมาตรฐานเดียวกัน
   3. Time variant ช่วงเวลาที่จะนำข้อมูลมาวิเคราะห์ต้องชัดเจน
   4. Non-volatile ไมมีการแก้ไขข้อมูลที่ผ่านมาในอดีต
   5. Relational ให้ใช้ relational structure
   6. Client/server ใช้ server ที่ทำให้ผู้ใช้งานสามารถเข้าถึงข้อมูลได้ง่าย

องค์กรที่เหมาะกับการใช้ Data Warehouse
   - ข้อมูลมีจำนวนมาก
   - ข้อมูลแต่ละแผนกที่นำมาใส่ใน Data Warehouse มีระบบที่แตกต่างกัน
   - ข้อมูลเป็นปัจจัยสำคัญในการตัดสินใจ
   - มีลูกค้าหลากหลายแบบ
   - ข้อมูลเดียวกันถูกเก็บในหลายรูปแบบในหลายระบบ
   - ข้อมูลถูกเก็บในระบบและรูปแบบที่ยากต่อการเข้าใจและแปลความ