onsdag 9 maj 2007

9/5 10:30 – 11:45 - Data Warehousing with SQL Server 2005 (Ram Ramanathan)


Session om utmaningen med datalager – Build – Manage – Deliver. Vi fick se en demo om datakvalité och hur man kan använda Fuzzy lookup och Fuzzy Grouping.
För att hantera stora datamängder bör man använda partionering av data. Han belyste styrkan med skalbarheten i SQL 2005 och nämnde några exempel på kunder som hade väldigt stora datamängder.

Nästa version av SQL har projektnamnet ”Katmai”. Vi fick höra hur de i denna version jobbat med att förbättra skalbarheten, stora mängder av data, enklare hantering av insert/update-processen och verktyg för profilering av data för att identifiera dålig datakvalité.

En annan nyhet är något som de kallar Resource Govenor. Där man kan definiera Workload groups som tex skulle kunna vara rapporter, laddning eller backup/admin tasks. Dessa Workload groups kan kan sedan koppla mot en Resource Pool där man kan definiera vilket utrymme denna pool skall ha på servern. Tex CPU- och minneshantering. Man kan också övervaka poolerna för optimering och felsökning.

Man utvecklar också något man kallar CDC = Change Data Capture. Detta är en loggbaserad funktion som tittar på förändrade tabeller/kolumner och sedan skapar en cdc-tabell med information om vad som ändrats. Detta underlättar dataladdning ofantligt i system där det är svårt att identifiera förändrade rader, speciellt när det gäller stora datamängder.

Vad gäller datakvalité i ”Katmai” har man tagit fram en funktion för att profilera data. Man anger vilken tabell som man vill profilera och får sedan en rapport över hur innehållet ser ut. Tex hur många null-rader/kolumn, fördelning antal tecken/kolumn, vanligast förekommande data osv. Kommer säkert vara mycket användbart när man skall ladda nya tabeller för att veta vilken hantering som behövs för att hålla god datakvalité.

Inga kommentarer: