Kernel Tæthedsestimering skøn form af en tæthedsfunktion . En tæthedsfunktion viser frekvens, hvormed en variabel vises i en stikprøvekontrol af en population. Kernel Density Estimation betragtes som en ikke-parametrisk metode. I statistikkerne er der parametriske og ikke- parametriske metoder . Parametriske metoder gøre flere antagelser end ikke- parametriske dem . Ingen antagelser om distribution, middel eller standardafvigelser er behov for ikke- parametrisk statistik . For eksempel, hvis du ønsker at vide , om den tiende test i et klasseværelse vil have en højere score end de første ni , i parametrisk ræsonnement ville du nødt til at kende gennemsnit og standardafvigelse til at udlede et svar. I ikke- parametrisk ræsonnement , simpelthen at vide antallet af test er nok til at vide den sidste test har en 10 procent chance for at blive over de tidligere scoringer.
Kernel
Kernel Density Estimation har to afgørende komponenter: kernen og båndbredde . Kernen er tæthedsfunktionen . Der er seks almindelige typer af tæthedsfunktioner i ikke- parametrisk statistik : normal, ensartede , trekantede , Epanechnikov , quartic , triweight og cosinus . Hver af disse funktioner bruges til at estimere frekvensen af en stokastisk variabel i en population .
Båndbredde
Den anden komponent , båndbredde, udjævner resulterende data fra tæthedsfunktionen for kernen. Den båndbredde, derfor har kraftigt påvirker visuel repræsentation af data. En takkede linje kan blive gradvist udjævnes , indtil data er blevet så omskrevet , at det ikke længere er nyttig. I kernen tæthed estimering formel , er den båndbredde repræsenteret ved bogstavet h . Det skal være positiv og resultere i en fordeling, der summerer til én.
Fordele
Kernel Density Estimation har fordele til andre ikke- parametriske estimering metoder , især histogrammer . Histogrammer repræsenterer fordelingen af en variabel i spande langs en vandret række . Stacked siloer udgør en større tæthed af variablen i sektoren for data. Fordi histogrammer symboliserer data gennem skraldespande, variablen er opdelte og forskellige distributioner er takkede og diskrete, fortegne flydende fordeling af en variabel, der virkelig eksisterer i en population . Kernel Density Estimation bedre repræsenterer denne flydende med jævn linje , hvis glathed er bestemt af den valgte i kernen tæthed formel båndbredde.
Hoteltilbud