PrevisionediHomeSalePrices
AltrocchiStefano826167
19gennaio2022
Sommario
L’obiettivodell’analisièlaprevisionedelprezzodivendita(price,inscala log10)di m =4320 abitazioni. Confrontandodiversimodelli,siaparametricisianonparametrici,emergechelamigliorperformancein fasedivalidazionefinaleèottenutamediantel’impiegodistackingtraleprevisionifornitedamodellidi regressioneLASSOeXGBoost,ottenendoun MAE =0.0514155.Consideratal’importantemoledidatidi training(n =17293 osservazioniper 19 variabili),unodeifocusdell’analisièrelativoall’impiegodistrategie dituninge/omodelliparsimoniosifinalizzatialimitarelosforzocomputazionalenecessarioall’ottimizzazione delrisultato.
1Analisiesplorativadeidati
Ildataset homesales ècompostoda 22243 abitazioni perlequalisonoriportateleosservazionirelativea 18 covariateditiponumerico,spaziale,categoriale etemporale.Ildatasetditrainingècompostoda n=17293abitazioniperlequaliènotalavariabile dipendente price,espressainscala log10,cheindica ilprezzodivendita.Neldatasetnonsonopresenti valorimancanti.
Alfinedimigliorarelacontestualizzazionedelproblemadiprevisione,sonostateutilizzatelevariabili lattitude e longitude cherappresentanolecoordinate geografichediciascunaabitazione,perindividuarne lacollocazionespaziale.Tutteleabitazioniosservate risultanoesserecollocatenellaConteadiKing(Washington),USAeconcentrateinparticolarenell’area diSeattle,cittàportualeecapoluogodellaregione (fig.1).
Ladistribuzionedellavariabiletargetrispettoalle coordinategeografichesuggeriscelapresenzadidipendenzaspaziale:iprezzirisultanopiùelevatinella zonanorddellaconteaincorrispondenzadell’areaurbanadiSeattlemostrandoinparticolareivalorimaggiorineiquartieridiMercerIsland,ClydeHill,MadisonParkeSandPoint(rivedellagoWashington, fig.2).Siosservainoltreunabbassamentodeiprezzi neipressidell’aeroportoBoeingField-KingCounty. Taleevidenzasuggeriscechelecoordinategeograficheeleareed’appartenenza,informazionicontenute nellevariabili lattitude, longitude e zip_code,sono importantinelladefinizionedelprezzodiun’abitazione.Leprimedueessendonumerichesonofacilmentegestibilidatuttiimodellimentrelavariabile zip_code,catgorialecon70livelli,richiedesoluzioni adhocperpoternesfruttareilvaloreinformativo.
Figura2:Prezziosservatinell’areadiSeattle
Alfinediindividuarelapresenzadivalorianomali e/ooutlierneltrainingset,sonostudiatemarginalmenteledistribuzionidiciascunacovariata.Inseguitoadun’analisigraficadellevariabilirelativeallametratura,sonoindividuatipochioutliernonnecessariamenteanomali.Siprocedequindinell’analisisenzaescluderealcunaosservazione,rimandandoeventualiulteriorivalutazioniallafasedispecificazionee validazionedeimodelli.
Concentrandosisullevariabili bedrooms e bathrooms,cheindicanorispettivamenteilnumerodicameredalettoebagni,siosservalapresenzadiun’abitazionecon33cameredaletto,7abitazionisenza cameredalettoebagni,4abitazionisenzacamere dalettoe2senzabagno.L’abitazionecon33cameredalettoèsituataall’ 8000-8192CorlissAveN, SeattleWA,indirizzoalqualeèpossibileriscontrare tramiteGoogleStreetViewl’assenzadiedificiche possanogiustificaretalenumerodicameredaletto. Ilvaloreriportatoèriconducibileaunerrored’imputazioneelosicorreggecon3,ovverolamodadi bedrooms condizionataadabitazioniconmetrature degliinternisimili(sqft_living ±20sqft).
Perquantoriguardaleabitazionisenzacamereda lettoobagni,tramitel’osservazionenonsonodeducibiliulterioriinformazioni.Datoilnumeroridotto rispettoallanumerositàdeidatisitraining,sidecide dinonagiresudiesse.
Siosservano12abitazionicondatadiacquisto antecedenteaquelladicostruzione,probabilmente venduteprimadellarealizzazione.
Sonoinfineosservate481abitazioniconlocazione duplicatariconducibileavenditesequenzialineltempooinalternativaadabitazionisituatenellostesso edificio.
2Pre-elaborazionedeidati
Primadiprocedereconlefasidispecificazioneestimadeimodelliènecessarioapplicareaisetditrainingetestingunaserieditrasformazionicherendanolecovariatepiùadatteallorosuccessivoimpiego. Inquestasezionesonoriportatelepre-elaborazioni generichementrequellelegateaglispecificimodellisarannotrattateinseguito.Persfruttarealmegliol’informazionecontenutainciascunavariabileè fondamentalespecificarnecorrettamenteiltipo:le variabili waterfront e zip_code sonoquindiindicatecomecategorialimentre condition e view come categorialiconlivelliordinati.
3Featureengineering
Ildatasetadisposizioneèarricchitoconlenuove variabili year_sold, month_sold, day_sold e basement.Leprimetresonovariabilinumericheestratteda date_sold eoriginariamenteespresseinformatodata,nonutilizzabileinfasedimodellizza-
zione.Lavariabile basement èdefinitacomedicotomica {si; no} rispettoallapresenzaomenodel seminterratonell’abitazione(sqft_basement > 0).
Éinfinedefinitalavariabile tract_id cheassociaa ciascunaabitazioneilrelativotrattocensuario.Questavariabilecategoriale,piùdettagliatarispettoa zip_code,èimpiegataesclusivamentepermigliorare glistrumentigraficiemaiinfasedimodellistica.
Lafasediselezionedellevariabilièrimandata all’applicazionedeglispecificimodelli.
4Confrontotramodelli
Essendoiltrainingsetmoltopopolato,peralleggeriredalpuntodivistacomputazionalelefasidituning evalidazionedeimodelli,sidecidedisuddividerlo induesottoinsiemidiparinumerositàstratificatirispettoallavariabiledipendente.Ilprimoèusatoper l’applicazionedellecrossvalidationnecessarieperil tuningdegliiperparametrimentreilsecondoèutilizzatoesclusivamenteperilconfrontofinaletramodelli.Persemplicitàinquestasezionecisiriferiràa questiduesetcometrainingsetridottoesetdivalidazionefinale,ricordandocheiltrainingsetoriginale èottenutodallalorounione.
Imodelliinizialmenteconsideratiafiniprevisivi sono:KNN,RandomForest,LASSOregressione XGBoost.Ciascunodiessièstatoregolatoestimato impiegandoleosservazioniappartenentialtraining setridotto.Lavalutazionedell’errorediprevisione rispettoalprezzodelleabitazioniappartenentialset divalidazionefinale(tabella 1)evidenziacomeXGBoostgarantiscelamiglioreprestazioneinterminidi minimizzazionedelmeanabsoluteerror.
ModelMAE
KNN0.0794
LASSO0.0601
RF0.0574
XGBoost0.0527
Tabella1:Confrontodeimodelli
LadescrizionedettagliatadeiprocedimentidiregolazioneestimaèlimitataaimodelliXGBooste LASSOregression,utilizzatiinensamblemediante modelstackingperlaprevisionefinale.
XGBoost
XGBoostèunalgoritmobasatosuunensambledi alberidecisionaliconunastrutturaditipogradient boosting.Ilmodelloèingradodiutilizzaresiavariabilinumerichesiacategoriali(conunnumerodilivelli contenuto),nonrichiedeselezioneoparticolaritrasformazionievalutaautomaticamenteleinterazioni tracovariate.Alfinedirendereutilizzabilealmeno
Figura3:TerzolivellodituningperXGBoost
inpartelavariabile zip_code,lasitrasformaraggruppandotutteleclassiaventimenodel2%delle osservazionitotalinellaclasse"Other",riducendoil numerodilivelliunicida70a18.
Laregolazionedelmodelloèsvoltaesclusivamenterispettoaiparametrilearnrateelossreduction mediante3fold-CV.SonoquindiutilizzateesclusivamenteleosservazioniappartenentialtrainingsetridottoeilMAEcomemetricadiriferimento.Alfine diottimizzarelosforzocomputazionalenecessarioallosvolgimentodeltuning,sisegueunapprocciodi regolazionedelmodelloarticolatosutrelivelli.La primagrigliadiregolazione,moltogrossolana,comprendecombinazionidiiperparametrifinalizzatealla coperturadell’interospazioparametrico,definiteseguendounapprocciomaxentropy.Successivamente, dopoavervalutatoirisultati,cisifocalizzasugliintornideivalorichefornisconoilMAEpiùbasso.Si osservache:
• 1.Laprimagrigliadi10modelliindicacome migliorileperformancerelativeailearnratepiù elevatimentrenonrisultainformativarispetto allalossreduction.Ilmiglior mae =0 0586 è ottenutoconlacoppia(0.028,4.8e-06).
• 2.Lasecondagrigliadi25modelliindicacomemiglioriimodelliconlearnrateparia0.07 o0.09elossreductiontra2.22e-10e1.35e-04. Ilmiglior mae =0 0551 èrelativoallacoppia (0.09,1.35e-04).
• 3.Lagrigliafinaledi25modelliindividua comemigliorecombinazionelearnrate=0.09e lossreduction=1.353146e-05conun mae = 0 05492577 (fig.3).
IlmodelloXGBoostottimizzatoèquindistimato conntreesparia500alberi(iperparametrononregolatoinquantogeneralmentesufficiente)sututte leosservazionideltrainingsetridotto.Comemo-
zip_code_X98004 sqft_above lattitude
zip_code_X98112 nn_sqft_living sqft_living
sqft_lot
zip_code_X98040 condition_1
zip_code_X98103
zip_code_X98006
zip_code_X98105 view_1
zip_code_X98119
zip_code_X98115 longitude
zip_code_X98122
zip_code_X98117 year_renovated
zip_code_X98199
zip_code_X98116
zip_code_X98109
Figura4:PrimevariabiliperimportanzaLASSO
stratoinprecedenza,lastimadell’errorediprevisionerispettoalsetdivalidazionefinalerisultaparia mae =0 0527
LASSOregression
LaregressioneditipoLASSOrappresentaunaversioneregolarizzatadelmodellolineareclassicoingradodigestireunelevatonumerodicovariateeoperare unaselezioneautomaticadellestesse.
Talecaratteristicaconsentedistimareunmodelloparametricoingradodisfruttarepienamentetuttal’informazionecontenutaall’internodellavariabile zip_code che,unavoltatradottaindummy,portail numerodiregressoritotalia96.
LaregressioneLASSOrichiedeunanormalizzazionedituttelevariabilinumeriche,applicataaidatiinseguitoallatrasformazioneinscalalogaritmica dellevariabili sqft_lot e nn_sqft_lot cherisultavano troppoconcentratesuvaloribassi.
Iltuningdelmodello,svoltocon10fold-CVsul trainingsetridotto,èoperatorispettoa20differentilivellidipenalty.Lamigliorperformancecon mae =0 06053 èottenutarelativamentealvaloredi penalty=1.832981e-05.
Ilmodelloindividuatoèquindistimatoutilizzandotutteleosservazionideltrainingsetridotto.Analizzandonel’importanceplot(fig.4)siosservacome traleprime22variabiliperimportanzacompaiono lattitude, longitude ediversilivellidi zip_code,individuatecomeparticolarmentesignificativeperla determinazionedelprezzodelleabitazioni.Oltrea quelledinaturaspaziale,levariabilirisultatetrale piùlegateallacrescitadelprezzosonolemetrature, lapresenzadiunabellavista,labuonacondizione dellacasael’annodell’ultimaristrutturazione.
Laprevisionedelleosservazioninelvalidationset finale,fornisceunastimadel mae =0 0601
Modelstacking
Ilmodelstackingèunatecnicadiensambleutilizzataalfinedimigliorareleperformancemarginali diunaseriedimodelliprevisividetticandidati.Il buonfunzionamentodelmetodoèlegatoallacapacitàdeimodelliselezionatidicogliereaspettidifferentidelfenomenod’interesse,compensandoglierrori commessidaglialtricandidati.
NonostanteXGBoostsembriassicurareunerrore diprevisionemoltopiùbasso(MAE=0.0527)rispettoallaregressioneLASSO(MAE=0.0601),sipensacheunensambledeiduemetodipossamigliorare ilrisultatocongiuntoinquantoLASSO,adifferenzadiXGBoost(edituttiglialtrimodelliprovati),èstatostimatosfruttandopienamentelavariabile zip_code individuatacomeinformativainfase dianalisiesplorativa.
L’ipotesicheunostackingdiquestiduemodelli possaesserefruttuosaèinoltresostenutadall’analisi deglierroricommessidaXGBoosteLASSOinfase divalidazione.Concentrandosisugliscartiritenutiparticolarmentegravi,ovverosuperiorial95esimo percentiledelladistribuzionecomplessivainvalore assoluto,siindividuano876errorideiquali516commessidaLASSOe316daXGBoost.Diquesti876 errori,il58%èrelativoadabitazioniprevistemale siadaLASSOsiadaXGBoost,mentre,delrestante 42%,263abitazionirisultanoprevistemaleesclusivamentedaLASSOe107esclusivamentedaXGBoost. Datoche,almenorelativamenteaicasipiùestremi, unabuonapartedelleabitazionirisultaproblematicasoloperunooperl’altrocandidato,siconcludecheunostackingdeimodellipossaessereutilea migliorarelaperformanceprevisivacomplessiva.
Nellafig.5 èpossibileosservarelacollocazionedeglierrorigravianalizzati.Nonostantenonsembrano esserciimportantisistematicitàspaziali,evidenziandolezonedovesonopresentialmenodueerrorigravi commessidallostessomodello,èpossibileapprezzare comenonvisiaunacompletasovrapposizionedelle osservazionierrate,conareecherisultanoparticolarmenteproblematicheesclusivamenteperunooper l’altromodello.
Alfinedioperarelostackingènecessariostimarei pesiottimiperciascuncandidatomedianteunafase dimodelrankingchevalutaconunmodelloregolarizzato,mediante5fold-CV,leperformancedeicandidatiedell’ensamble.Nondovendooperaretuning computazionalmenteoneroso,sidefinisceunanuova suddivisionedeltrainingsetcompletointrainingset ridottoesetdivalidazionefinaleconunaproporzione di75%-25%estratificandorispettoa price Ilmodelloregolarizzatodiranking,utilizzando una penalty=1e-06,indicacheentrambiicandidati hannopesosignificativoconXGBoost=0.75eLASSO=0.25.TalerisultatoèinlineaconleaspettativeinquantoilmodelloXGBoost,marginalmen-
temeglioperformante,risultapiùrilevantedelmodelloLASSOchecomunqueapportauncontributo significativo.
Siailmodellostackedsiaicandidatisonoinfine stimatisultrainingsetridottoevalutatirispettoal nuovosetdivalidazionefinale.Irisultatiottenuti, riportatinellatabella 2,mostranocomeilmodello stackedproducaunaperformancemigliorerispetto aimodelliconsideratimarginalmente.LaminimizzazionedelMAEmedianteilmodellostackedèconfermataanchecon5fold-CV(tabella 3).Glierrori standarddeiMAEstimatipotrebberosuggerirenon significativitàperladifferenzadiperformancetra XGBoosteStacking.Taleindicatorenonèperòda ritenersiaffidabileinquantounastimapiùprecisa dellavariabilitàdeiMAErichiederebbeunnumerodi foldmoltopiùalto,soluzionenonpraticabileacausa deglielevatitempicomputazionalirichiesti(stimate 10orecircaperuna50fold-CVsulcalcolatoreutilizzato).ConsiderandocheStackinghafornitola migliorprestazionesiainmediasiaperciascunodei foldvalutati,saràsceltocomemodellopreferitoper laprevisionefinale.
ModelMAE
LASSO0.05964938
XGBoost0.05064923
Stacked0.05019288
Tabella2:Confrontodeimodellisulvalidationset
ModelMAEse
LASSO0.06021750.00053
XGBoost0.05189850.00059
Stacked0.05141550.00058
Tabella3:Confrontodeimodellirispettoa5fold-CV
5Sceltadelmodellofinale Ilmodellosceltoperlaprevisionefinaleèuno stackingdiduemodellicandidati:
• ModelloXGBoostconntrees=500,learnrate=0.09elossreduction=1.353146e-05,senzaselezionedellevariabilieconlavariabile zip_code trasformata.
• ModellodiregressioneLASSOcon penalty=1.832981e-05,senzaselezionedelle variabili,con sqft_lot e nn_sqft_lot inscala logaritmicaetuttelevariabilinumeriche normalizzate.
Ipesidistackingindividuatirispettoalranking sultrainingsetcompletorisultanopariaXGBoost=0.782eLASSO=0.229.Ilmodelloèquindistimatoutilizzandotuttiidatideltrainingseteutilizzatoperprevedereivaloridellavariabile price delle osservazioniappartenentialtestset.
6Conclusione
L’analisideldatasetHomeSalePricesnonhamostratoparticolariproblematicheinfasedianalisi esplorativanellaqualesièriscontratal’importanza delladipendenzatracollocazionespazialeeprezzodi venditadelleabitazioni.Ivalorianomalieoutlierindividuatisonorisultatipochi,nonsignificativiofacili dacorreggereenonèstatanecessariaun’importantepre-elaborazionedeidati.Levariabilicreatein fasedifeatureengineering,utilizzatesuccessivamenteneimodelli,hannoapportatomiglioramentinon particolarmentesignificativideirisultati.
Leprincipalidifficoltàaffrontatedurantel’analisisonostateriscontratenellafasedivalidazionedei modelli.Laprevisioneharichiestoilconfrontoel’utilizzodimetodiparametricienonparametriciche, nellamaggiorpartedeicasi,necessitavanodiun’importantefasedituningdegliiperparametri.Datil’elevatonumerodiosservazionicontenuteneltraining seteunvincolodipotenzacomputazionaledovuto alcalcolatoreutilizzato,èstatonecessarioricorrea strategiediottimizzazioneadhocbasatesusplitting stratificatietuningsupiùlivelli.Grazieaiprocedimentiadottatilefasidivalidazionehannorichiesto perl’elaborazionepiùonerosa(tuningXGBoost)un massimodi30minuti.
IlmodellosceltocomestrumentodiprevisionefinaleèunostackingdiregressioneLASSOeXGBoost cheinfasedivalidazioneèrisultatomigliorerispetto aimodellicandidatifornendounastimadell’errore diprevisioneparia0.0514155(MAE).
Fonti,bibliografiaesitografiadiriferimento
• Materialedidatticoedatasetdahttps://aldosolari.github.io/DM/
• Shapefileseinformazioniamministrativedahttps://www.seattle.gov/
• Azzalini,Scarpa(2004).Analisideidatiedatamining,Springer-VerlagItalia.[AS].
• Kuhn,Johnson(2019).FeatureEngineeringandSelection.ChapmanandHall/CRC.[KJ]
• Kuhn,Silge(2021+).TidyModelingwithR.Inprogress.[KS]
• GettingStartedWithstacksdahttps://stacks.tidymodels.org/articles/basics.html
• Tidymodelcodingtipsdahttps://juliasilge.com/blog/