Data Mining - die Forschung hinter den Algorithmen

Ich werde immer mal wieder gefragt, wie eigentlich die Mathematik hinter den Data Mining Algorithmen in SQL Server 2005 aussieht. Daher hier ein paar Links zu den MS Research Whitepapern und den relevanten Sites:

Data Mining bei MS Research:
https://research.microsoft.com/dmx/DataMining/

Machine Learning and Applied Statistics
https://research.microsoft.com/mlas/

 

Links zu Papern zu den einzelnen Algorithmen (Danke an Jamie)

Entscheidungsbäume (Klassifikation):

Scalable Correlations Counting
ftp://ftp.research.microsoft.com/users/AutoAdmin/icde99.pdf
Split Scoring Method: https://www.research.microsoft.com/research/pubs/view.aspx?tr_id=81

Entscheidungsbäume (Regression):

Appendix von
https://research.microsoft.com/~dmax/publications/dmart-final.pdf

Association Rules: Apriori algorithm

https://www.almaden.ibm.com/cs/people/ragrawal/papers/vldb94.ps

Clustering:

https://www.research.microsoft.com/scripts/pubs/view.asp?TR_ID=MSR-TR-98-35

Sequence Clustering:

ftp://ftp.research.microsoft.com/pub/tr/tr-2000-18.pdf

Time Series:

https://research.microsoft.com/~dmax/publications/dmart-final.pdf

Gruß,
Steffen