Introduktion
Machine Learning handler om at have metoder og algoritmer som lærer fra data. Som vi kan se i praktisk, f.eks. vaskemaskiner som lærer hvordan du vil have dit tøj vasket, eller smart tandbørster som fortæller dig hvilke tænder, kræver ekstra børstning osv. Et af hovedformålene er at Machine Learning hjælper med at forbedre sig selv over tid. Arthur Samuel var den første som introducerede Machine Learning til et spil af Skak hvor programmet blev programmeret til at lærer at spille bedre end personen som lavede programmet. Dvs at det giver computeren muligheden til at lærer uden at man explicit skal programmere den.
Samuel observeret at at Maskiner ikke kræver direkte input kommandoer til at udføre sæt af opgaver men derimod bruger Input data.
Eksempel: Data bliver tilføjet til en maskine, en algoritme bliver valgt, hyper parameters (settings) bliver konfigureret og justeret, og maskinen bliver instrueret til at udføre dens analyse. Maskinen fortsætter med at decipher mønstre fundet i det data via en process af trial and error. Maskinens data model, som bliver formet af analysering af data mønstre, kan blive brugt til at forudse fremtidige værdier.
F.eks. hvis man vil undersøge en Datamatikers youtube vieweing habits så vil en maskine identificere en stærk forhold mellem datamatiker og katte videoer. I dette scenarie vil maskinen analyser hvad datamatiker nyder at se på youtube baseret på user engagement: measured in likes, subscribes, and repeat viewing. Så man giver input data og konfigurere en nominerede algoritme, mens dens finale forudsigelse var determineret af maskines self læring og data modeling. Så machine learning models bliver trænet i at forme valg baseret på gamle erfaring.
Hvordan mennesker lærer:
- At memorisere/huske ting er meget svært
- At identificere mønstre/patterns er nemt
- Reagere godt til nye situationer
Hvordan Machine Learning lærer:
- At huske ting er meget nemt – kan huske alle variabler osv
- Identificere mønstre er svært
- Nye situationer er svært
Træning og Test Data
- I Machine learning er data split i Training data og Test Data
- Den første split af data som er intial reserve af data man bruger til at udvikle ens model giver træning data.
- F.eks false positives fra paypal auto response (betaling confirmed) ryger i spam mail.
- Derfor nye regler og modifikationer skal blive tilføjet så det ikke ryger til spam
- Efter man successfully udvikler en model baseret på trænings data og er tilfred med dens nøjagtighed, kan du teste modellen på det resterende data, også kendt for test data.
- Derefter når begge data er tilfreds kan machine learning modellen filtere emails og genere desicions på hvordan den skal katogirsere de indkommene mails
- Machine learning popper fra: Computer Science -> Data Science -> AI (Tankeproces og intelligent) -> Machine Learning(Data Mining/MachineLearning)
Kilder:
Machine Learning For Absolute Beginners