Progetti

Ricerca Progetti

STIMA ML VINCOLATA PER MISTURE DI FAMIGLIE LOCATION-SCALE

In questo progetto si vuole affrontare il problema della degenerazione dellafunzione likelihood per modelli di misture finite di famiglie location-scale. Imodelli di misture finite sono un popolare strumento per rappresentare datisperimentali disomogenei. Quest'ultima è una caratteristica molto diffusa nellemoderne ed enormi basi dati (note come 'Big Data').Il metodo di stima più popolare nel contesto dei modelli di mistura è il metodoML (maximum likelihood). Si dimostra che, per una classe molto ampia di famiglielocation-scale, l'ottimizzazione della likelihood non ammette soluzione. Ladegenerazione avviene quando lo stimatore ML concentra gran parte della massa diprobabilità di una delle componenti intorno a qualche punto osservato. Perottenere una procedura di stima ben definita è necessario imporre dei vincoli discala/scatter che limitano di fatto la deflazione massima del parametro discatter. Hathaway (1985) ha proposto una classe di vincoli con ottime proprietàteoriche, ma di difficilmente implementazione numerica. Ingrassia (2004), eIngrassia e Rocci (2007) propongono vicoli che implicano quelli di Hathaway(1985) per i quali propongono algoritmi approssimati che mostrano ottimirisultati empirici. Gli aspetti teorici del corrispondente stimatore ML sonostati sviluppati in Garcia-Escudero et. al. (2010), e Coretto e Hennig(2016). Ritter (2014) propone una classe di vincoli molto sofisticati coneccellenti proprietà teoriche, tuttavia anche i vincoli studiati in Ritter(2014) non sono facilmente implementabili.In questo progetto di ricerca ci proponiamo di:(a) estendere il contesto Gaussiano dei contributi citati al caso generico difamiglie location-scale;(b) studiare vincoli alternativi che possono essere implementati in algoritmiefficienti;(c) costruire software altamente scalabile per la stima vincolata di modelli dimistura. Il software sviluppato in questo progetto sarà pubblicato (licenzaaperta) attraverso il CRAN (The Comprehensive R Archive Network).Metodi e software saranno applicati a problemi di clustering e classificazionedi dati genomici.RIFERIMENTI BIBLIOGRAFICIP. Coretto, and C. Hennig (2016). “Robust Improper Maximum Likelihood: Tuning,Computation, and a Comparison with Other Methods for Robust GaussianClustering.” Journal of the American Statistical Association 111 (516). Taylor &Francis: 1648–59.Garcia-Escudero, L. A., A. Gordaliza, C. Matran, and A. Mayo-Iscar(2015). “Avoiding Spurious Local Maximizers in Mixture Modeling.” Statistics andComputing 25 (3). Springer US: 619–33.Hathaway, Richard J. (1985). “A Constrained Formulation of Maximum-LikelihoodEstimation for Normal Mixture Distributions.” The Annals of Statistics 13(2).Institute of Mathematical Statistics: 795–800.Ingrassia, Salvatore. 2004. “A Likelihood-Based Constrained Algorithm forMultivariate Normal Mixture Models.” Statistical Methods & Applications13(2). Springer-Verlag: 151–66.Ingrassia, S., & Rocci, R. (2007). ``Constrained monotone EM algorithms forfinite mixture of multivariate Gaussians''. Computational Statistics & DataAnalysis, 51(11), 5339-5351.Ritter, G. (2014). Robust cluster analysis and variable selection. Boca Raton:Taylor & Francis.

StrutturaDipartimento di Scienze Economiche e Statistiche/DISES
Tipo di finanziamentoFondi dell'ateneo
FinanziatoriUniversità  degli Studi di SALERNO
Importo2.396,00 euro
Periodo20 Novembre 2017 - 20 Novembre 2020
Proroga20 febbraio 2021
Gruppo di RicercaCORETTO Pietro (Coordinatore Progetto)
LA ROCCA Michele (Ricercatore)
PARRELLA Maria Lucia (Ricercatore)
STORTI Giuseppe (Ricercatore)