Issuu

PrevisionediHomeSalePrices

AltrocchiStefano826167

19gennaio2022

Sommario

L’obiettivodell’analisièlaprevisionedelprezzodivendita(price,inscala log10)di m =4320 abitazioni. Confrontandodiversimodelli,siaparametricisianonparametrici,emergechelamigliorperformancein fasedivalidazioneﬁnaleèottenutamediantel’impiegodistackingtraleprevisionifornitedamodellidi regressioneLASSOeXGBoost,ottenendoun MAE =0.0514155.Consideratal’importantemoledidatidi training(n =17293 osservazioniper 19 variabili),unodeifocusdell’analisièrelativoall’impiegodistrategie dituninge/omodelliparsimoniosiﬁnalizzatialimitarelosforzocomputazionalenecessarioall’ottimizzazione delrisultato.

1Analisiesplorativadeidati

Ildataset homesales ècompostoda 22243 abitazioni perlequalisonoriportateleosservazionirelativea 18 covariateditiponumerico,spaziale,categoriale etemporale.Ildatasetditrainingècompostoda n=17293abitazioniperlequaliènotalavariabile dipendente price,espressainscala log10,cheindica ilprezzodivendita.Neldatasetnonsonopresenti valorimancanti.

Alfinedimigliorarelacontestualizzazionedelproblemadiprevisione,sonostateutilizzatelevariabili lattitude e longitude cherappresentanolecoordinate geografichediciascunaabitazione,perindividuarne lacollocazionespaziale.Tutteleabitazioniosservate risultanoesserecollocatenellaConteadiKing(Washington),USAeconcentrateinparticolarenell’area diSeattle,cittàportualeecapoluogodellaregione (fig.1).

Ladistribuzionedellavariabiletargetrispettoalle coordinategeografichesuggeriscelapresenzadidipendenzaspaziale:iprezzirisultanopiùelevatinella zonanorddellaconteaincorrispondenzadell’areaurbanadiSeattlemostrandoinparticolareivalorimaggiorineiquartieridiMercerIsland,ClydeHill,MadisonParkeSandPoint(rivedellagoWashington, fig.2).Siosservainoltreunabbassamentodeiprezzi neipressidell’aeroportoBoeingField-KingCounty. Taleevidenzasuggeriscechelecoordinategeograficheeleareed’appartenenza,informazionicontenute nellevariabili lattitude, longitude e zip_code,sono importantinelladefinizionedelprezzodiun’abitazione.Leprimedueessendonumerichesonofacilmentegestibilidatuttiimodellimentrelavariabile zip_code,catgorialecon70livelli,richiedesoluzioni adhocperpoternesfruttareilvaloreinformativo.

Figura2:Prezziosservatinell’areadiSeattle

Figura1:ConteadiKing(Washington),USA

Alfinediindividuarelapresenzadivalorianomali e/ooutlierneltrainingset,sonostudiatemarginalmenteledistribuzionidiciascunacovariata.Inseguitoadun’analisigraficadellevariabilirelativeallametratura,sonoindividuatipochioutliernonnecessariamenteanomali.Siprocedequindinell’analisisenzaescluderealcunaosservazione,rimandandoeventualiulteriorivalutazioniallafasedispecificazionee validazionedeimodelli.

Concentrandosisullevariabili bedrooms e bathrooms,cheindicanorispettivamenteilnumerodicameredalettoebagni,siosservalapresenzadiun’abitazionecon33cameredaletto,7abitazionisenza cameredalettoebagni,4abitazionisenzacamere dalettoe2senzabagno.L’abitazionecon33cameredalettoèsituataall’ 8000-8192CorlissAveN, SeattleWA,indirizzoalqualeèpossibileriscontrare tramiteGoogleStreetViewl’assenzadiediﬁciche possanogiustiﬁcaretalenumerodicameredaletto. Ilvaloreriportatoèriconducibileaunerrored’imputazioneelosicorreggecon3,ovverolamodadi bedrooms condizionataadabitazioniconmetrature degliinternisimili(sqft_living ±20sqft).

Perquantoriguardaleabitazionisenzacamereda lettoobagni,tramitel’osservazionenonsonodeducibiliulterioriinformazioni.Datoilnumeroridotto rispettoallanumerositàdeidatisitraining,sidecide dinonagiresudiesse.

Siosservano12abitazionicondatadiacquisto antecedenteaquelladicostruzione,probabilmente venduteprimadellarealizzazione.

Sonoinﬁneosservate481abitazioniconlocazione duplicatariconducibileavenditesequenzialineltempooinalternativaadabitazionisituatenellostesso ediﬁcio.

2Pre-elaborazionedeidati

Primadiprocedereconlefasidispecificazioneestimadeimodelliènecessarioapplicareaisetditrainingetestingunaserieditrasformazionicherendanolecovariatepiùadatteallorosuccessivoimpiego. Inquestasezionesonoriportatelepre-elaborazioni generichementrequellelegateaglispecificimodellisarannotrattateinseguito.Persfruttarealmegliol’informazionecontenutainciascunavariabileè fondamentalespecificarnecorrettamenteiltipo:le variabili waterfront e zip_code sonoquindiindicatecomecategorialimentre condition e view come categorialiconlivelliordinati.

3Featureengineering

Ildatasetadisposizioneèarricchitoconlenuove variabili year_sold, month_sold, day_sold e basement.Leprimetresonovariabilinumericheestratteda date_sold eoriginariamenteespresseinformatodata,nonutilizzabileinfasedimodellizza-

zione.Lavariabile basement èdeﬁnitacomedicotomica {si; no} rispettoallapresenzaomenodel seminterratonell’abitazione(sqft_basement > 0).

Éinfinedefinitalavariabile tract_id cheassociaa ciascunaabitazioneilrelativotrattocensuario.Questavariabilecategoriale,piùdettagliatarispettoa zip_code,èimpiegataesclusivamentepermigliorare glistrumentigraficiemaiinfasedimodellistica.

Lafasediselezionedellevariabilièrimandata all’applicazionedeglispeciﬁcimodelli.

4Confrontotramodelli

Essendoiltrainingsetmoltopopolato,peralleggeriredalpuntodivistacomputazionalelefasidituning evalidazionedeimodelli,sidecidedisuddividerlo induesottoinsiemidiparinumerositàstratificatirispettoallavariabiledipendente.Ilprimoèusatoper l’applicazionedellecrossvalidationnecessarieperil tuningdegliiperparametrimentreilsecondoèutilizzatoesclusivamenteperilconfrontofinaletramodelli.Persemplicitàinquestasezionecisiriferiràa questiduesetcometrainingsetridottoesetdivalidazionefinale,ricordandocheiltrainingsetoriginale èottenutodallalorounione.

Imodelliinizialmenteconsideratiaﬁniprevisivi sono:KNN,RandomForest,LASSOregressione XGBoost.Ciascunodiessièstatoregolatoestimato impiegandoleosservazioniappartenentialtraining setridotto.Lavalutazionedell’errorediprevisione rispettoalprezzodelleabitazioniappartenentialset divalidazioneﬁnale(tabella 1)evidenziacomeXGBoostgarantiscelamiglioreprestazioneinterminidi minimizzazionedelmeanabsoluteerror.

ModelMAE

KNN0.0794

LASSO0.0601

RF0.0574

XGBoost0.0527

Tabella1:Confrontodeimodelli

LadescrizionedettagliatadeiprocedimentidiregolazioneestimaèlimitataaimodelliXGBooste LASSOregression,utilizzatiinensamblemediante modelstackingperlaprevisioneﬁnale.

XGBoost

XGBoostèunalgoritmobasatosuunensambledi alberidecisionaliconunastrutturaditipogradient boosting.Ilmodelloèingradodiutilizzaresiavariabilinumerichesiacategoriali(conunnumerodilivelli contenuto),nonrichiedeselezioneoparticolaritrasformazionievalutaautomaticamenteleinterazioni tracovariate.Alﬁnedirendereutilizzabilealmeno

Figura3:TerzolivellodituningperXGBoost

inpartelavariabile zip_code,lasitrasformaraggruppandotutteleclassiaventimenodel2%delle osservazionitotalinellaclasse"Other",riducendoil numerodilivelliunicida70a18.

Laregolazionedelmodelloèsvoltaesclusivamenterispettoaiparametrilearnrateelossreduction mediante3fold-CV.SonoquindiutilizzateesclusivamenteleosservazioniappartenentialtrainingsetridottoeilMAEcomemetricadiriferimento.Alfine diottimizzarelosforzocomputazionalenecessarioallosvolgimentodeltuning,sisegueunapprocciodi regolazionedelmodelloarticolatosutrelivelli.La primagrigliadiregolazione,moltogrossolana,comprendecombinazionidiiperparametrifinalizzatealla coperturadell’interospazioparametrico,definiteseguendounapprocciomaxentropy.Successivamente, dopoavervalutatoirisultati,cisifocalizzasugliintornideivalorichefornisconoilMAEpiùbasso.Si osservache:

• 1.Laprimagrigliadi10modelliindicacome migliorileperformancerelativeailearnratepiù elevatimentrenonrisultainformativarispetto allalossreduction.Ilmiglior mae =0 0586 è ottenutoconlacoppia(0.028,4.8e-06).

• 2.Lasecondagrigliadi25modelliindicacomemiglioriimodelliconlearnrateparia0.07 o0.09elossreductiontra2.22e-10e1.35e-04. Ilmiglior mae =0 0551 èrelativoallacoppia (0.09,1.35e-04).

• 3.Lagrigliaﬁnaledi25modelliindividua comemigliorecombinazionelearnrate=0.09e lossreduction=1.353146e-05conun mae = 0 05492577 (ﬁg.3).

IlmodelloXGBoostottimizzatoèquindistimato conntreesparia500alberi(iperparametrononregolatoinquantogeneralmentesuﬃciente)sututte leosservazionideltrainingsetridotto.Comemo-

zip_code_X98004 sqft_above lattitude

zip_code_X98112 nn_sqft_living sqft_living

sqft_lot

zip_code_X98040 condition_1

zip_code_X98103

zip_code_X98006

zip_code_X98105 view_1

zip_code_X98119

zip_code_X98115 longitude

zip_code_X98122

zip_code_X98117 year_renovated

zip_code_X98199

zip_code_X98116

zip_code_X98109

Figura4:PrimevariabiliperimportanzaLASSO

stratoinprecedenza,lastimadell’errorediprevisionerispettoalsetdivalidazioneﬁnalerisultaparia mae =0 0527

LASSOregression

LaregressioneditipoLASSOrappresentaunaversioneregolarizzatadelmodellolineareclassicoingradodigestireunelevatonumerodicovariateeoperare unaselezioneautomaticadellestesse.

Talecaratteristicaconsentedistimareunmodelloparametricoingradodisfruttarepienamentetuttal’informazionecontenutaall’internodellavariabile zip_code che,unavoltatradottaindummy,portail numerodiregressoritotalia96.

LaregressioneLASSOrichiedeunanormalizzazionedituttelevariabilinumeriche,applicataaidatiinseguitoallatrasformazioneinscalalogaritmica dellevariabili sqft_lot e nn_sqft_lot cherisultavano troppoconcentratesuvaloribassi.

Iltuningdelmodello,svoltocon10fold-CVsul trainingsetridotto,èoperatorispettoa20diﬀerentilivellidipenalty.Lamigliorperformancecon mae =0 06053 èottenutarelativamentealvaloredi penalty=1.832981e-05.

Ilmodelloindividuatoèquindistimatoutilizzandotutteleosservazionideltrainingsetridotto.Analizzandonel’importanceplot(ﬁg.4)siosservacome traleprime22variabiliperimportanzacompaiono lattitude, longitude ediversilivellidi zip_code,individuatecomeparticolarmentesigniﬁcativeperla determinazionedelprezzodelleabitazioni.Oltrea quelledinaturaspaziale,levariabilirisultatetrale piùlegateallacrescitadelprezzosonolemetrature, lapresenzadiunabellavista,labuonacondizione dellacasael’annodell’ultimaristrutturazione.

Laprevisionedelleosservazioninelvalidationset ﬁnale,fornisceunastimadel mae =0 0601

Modelstacking

Ilmodelstackingèunatecnicadiensambleutilizzataalﬁnedimigliorareleperformancemarginali diunaseriedimodelliprevisividetticandidati.Il buonfunzionamentodelmetodoèlegatoallacapacitàdeimodelliselezionatidicogliereaspettidiﬀerentidelfenomenod’interesse,compensandoglierrori commessidaglialtricandidati.

NonostanteXGBoostsembriassicurareunerrore diprevisionemoltopiùbasso(MAE=0.0527)rispettoallaregressioneLASSO(MAE=0.0601),sipensacheunensambledeiduemetodipossamigliorare ilrisultatocongiuntoinquantoLASSO,adiﬀerenzadiXGBoost(edituttiglialtrimodelliprovati),èstatostimatosfruttandopienamentelavariabile zip_code individuatacomeinformativainfase dianalisiesplorativa.

L’ipotesicheunostackingdiquestiduemodelli possaesserefruttuosaèinoltresostenutadall’analisi deglierroricommessidaXGBoosteLASSOinfase divalidazione.Concentrandosisugliscartiritenutiparticolarmentegravi,ovverosuperiorial95esimo percentiledelladistribuzionecomplessivainvalore assoluto,siindividuano876errorideiquali516commessidaLASSOe316daXGBoost.Diquesti876 errori,il58%èrelativoadabitazioniprevistemale siadaLASSOsiadaXGBoost,mentre,delrestante 42%,263abitazionirisultanoprevistemaleesclusivamentedaLASSOe107esclusivamentedaXGBoost. Datoche,almenorelativamenteaicasipiùestremi, unabuonapartedelleabitazionirisultaproblematicasoloperunooperl’altrocandidato,siconcludecheunostackingdeimodellipossaessereutilea migliorarelaperformanceprevisivacomplessiva.

Nellaﬁg.5 èpossibileosservarelacollocazionedeglierrorigravianalizzati.Nonostantenonsembrano esserciimportantisistematicitàspaziali,evidenziandolezonedovesonopresentialmenodueerrorigravi commessidallostessomodello,èpossibileapprezzare comenonvisiaunacompletasovrapposizionedelle osservazionierrate,conareecherisultanoparticolarmenteproblematicheesclusivamenteperunooper l’altromodello.

Alfinedioperarelostackingènecessariostimarei pesiottimiperciascuncandidatomedianteunafase dimodelrankingchevalutaconunmodelloregolarizzato,mediante5fold-CV,leperformancedeicandidatiedell’ensamble.Nondovendooperaretuning computazionalmenteoneroso,sidefinisceunanuova suddivisionedeltrainingsetcompletointrainingset ridottoesetdivalidazionefinaleconunaproporzione di75%-25%estratificandorispettoa price Ilmodelloregolarizzatodiranking,utilizzando una penalty=1e-06,indicacheentrambiicandidati hannopesosignificativoconXGBoost=0.75eLASSO=0.25.TalerisultatoèinlineaconleaspettativeinquantoilmodelloXGBoost,marginalmen-

temeglioperformante,risultapiùrilevantedelmodelloLASSOchecomunqueapportauncontributo signiﬁcativo.

Siailmodellostackedsiaicandidatisonoinfine stimatisultrainingsetridottoevalutatirispettoal nuovosetdivalidazionefinale.Irisultatiottenuti, riportatinellatabella 2,mostranocomeilmodello stackedproducaunaperformancemigliorerispetto aimodelliconsideratimarginalmente.LaminimizzazionedelMAEmedianteilmodellostackedèconfermataanchecon5fold-CV(tabella 3).Glierrori standarddeiMAEstimatipotrebberosuggerirenon significativitàperladifferenzadiperformancetra XGBoosteStacking.Taleindicatorenonèperòda ritenersiaffidabileinquantounastimapiùprecisa dellavariabilitàdeiMAErichiederebbeunnumerodi foldmoltopiùalto,soluzionenonpraticabileacausa deglielevatitempicomputazionalirichiesti(stimate 10orecircaperuna50fold-CVsulcalcolatoreutilizzato).ConsiderandocheStackinghafornitola migliorprestazionesiainmediasiaperciascunodei foldvalutati,saràsceltocomemodellopreferitoper laprevisionefinale.

ModelMAE

LASSO0.05964938

XGBoost0.05064923

Stacked0.05019288

Tabella2:Confrontodeimodellisulvalidationset

ModelMAEse

LASSO0.06021750.00053

XGBoost0.05189850.00059

Stacked0.05141550.00058

Tabella3:Confrontodeimodellirispettoa5fold-CV

Previsioni con errori elevati LASSO XGB

Figura5:Errorinell’areaurbanadiSeattle.

5Sceltadelmodelloﬁnale Ilmodellosceltoperlaprevisioneﬁnaleèuno stackingdiduemodellicandidati:

• ModelloXGBoostconntrees=500,learnrate=0.09elossreduction=1.353146e-05,senzaselezionedellevariabilieconlavariabile zip_code trasformata.

• ModellodiregressioneLASSOcon penalty=1.832981e-05,senzaselezionedelle variabili,con sqft_lot e nn_sqft_lot inscala logaritmicaetuttelevariabilinumeriche normalizzate.

Ipesidistackingindividuatirispettoalranking sultrainingsetcompletorisultanopariaXGBoost=0.782eLASSO=0.229.Ilmodelloèquindistimatoutilizzandotuttiidatideltrainingseteutilizzatoperprevedereivaloridellavariabile price delle osservazioniappartenentialtestset.

6Conclusione

L’analisideldatasetHomeSalePricesnonhamostratoparticolariproblematicheinfasedianalisi esplorativanellaqualesièriscontratal’importanza delladipendenzatracollocazionespazialeeprezzodi venditadelleabitazioni.Ivalorianomalieoutlierindividuatisonorisultatipochi,nonsigniﬁcativiofacili dacorreggereenonèstatanecessariaun’importantepre-elaborazionedeidati.Levariabilicreatein fasedifeatureengineering,utilizzatesuccessivamenteneimodelli,hannoapportatomiglioramentinon particolarmentesigniﬁcativideirisultati.

Leprincipalidifficoltàaffrontatedurantel’analisisonostateriscontratenellafasedivalidazionedei modelli.Laprevisioneharichiestoilconfrontoel’utilizzodimetodiparametricienonparametriciche, nellamaggiorpartedeicasi,necessitavanodiun’importantefasedituningdegliiperparametri.Datil’elevatonumerodiosservazionicontenuteneltraining seteunvincolodipotenzacomputazionaledovuto alcalcolatoreutilizzato,èstatonecessarioricorrea strategiediottimizzazioneadhocbasatesusplitting stratificatietuningsupiùlivelli.Grazieaiprocedimentiadottatilefasidivalidazionehannorichiesto perl’elaborazionepiùonerosa(tuningXGBoost)un massimodi30minuti.

IlmodellosceltocomestrumentodiprevisioneﬁnaleèunostackingdiregressioneLASSOeXGBoost cheinfasedivalidazioneèrisultatomigliorerispetto aimodellicandidatifornendounastimadell’errore diprevisioneparia0.0514155(MAE).

Fonti,bibliograﬁaesitograﬁadiriferimento

• Materialedidatticoedatasetdahttps://aldosolari.github.io/DM/

• Shapeﬁleseinformazioniamministrativedahttps://www.seattle.gov/

• Azzalini,Scarpa(2004).Analisideidatiedatamining,Springer-VerlagItalia.[AS].

• Kuhn,Johnson(2019).FeatureEngineeringandSelection.ChapmanandHall/CRC.[KJ]

• Kuhn,Silge(2021+).TidyModelingwithR.Inprogress.[KS]

• GettingStartedWithstacksdahttps://stacks.tidymodels.org/articles/basics.html

• Tidymodelcodingtipsdahttps://juliasilge.com/blog/

Previsione di Home Sales Prices

PrevisionediHomeSalePrices

1Analisiesplorativadeidati

2Pre-elaborazionedeidati

3Featureengineering

4Confrontotramodelli

LASSOregression

Modelstacking

ModelMAE

6Conclusione

Articles inside

Previsione di Home Sales Prices