Estimation robuste en population finie et infinie

Estimation robuste en population finie et infinie
(Robust estimation in finite and infinite population)

Favre-Martinoz, Cyril - (2015-10-13) / Université de Rennes 1 - Estimation robuste en population finie et infinie

Langue : Français
Directeur de thèse: Coquet, François; Haziza, David
Laboratoire : IRMAR
Ecole Doctorale : Mathématiques, informatique, signal, électronique et télécommunications

Thématique : Mathématiques

Accès à la ressource :

https://ecm.univ-rennes1.fr/nuxeo/site/esupversion...

Mots-clés : Échantillonnage, Statistique, Enquête, Échantillonnage (statistique), Statistiques robustes

Résumé : Les travaux de recherche développés dans cette thèse portent sur l'estimation robuste dans un contexte de population finie et infinie. Cette thèse comporte cinq chapitres, une introduction et une conclusion. Le chapitre 2 passe en revue la littérature portant sur plusieurs sujets tels que : l'inférence en population finie, l'estimation pour des petits domaines, l'estimation robuste dans un contexte de populations finies mais également de populations infinies. Dans le chapitre 3, le problème du choix du seuil dans le cas des estimateurs winzorisés est abordé. Nous avons montré que ces estimateurs appartiennent à une classe plus large, ce qui a permis de déterminer la valeur du seuil qui minimise le plus grand biais conditionnel estimé de l'échantillon (en valeur absolue) par rapport à l'estimateur winzorisé. Sous certaines conditions, nous avons montré que le seuil optimal existe et qu'il est unique dans certaines situations. Nous avons également proposé une méthode de calage permettant d'assurer la cohérence externe, qui est un problème très important en pratique. Les résultats d'une étude par simulation montrent que la méthode proposée fonctionne très bien en termes de biais et d'efficacité relative. Dans le chapitre 4, nous avons généralisé les résultats obtenus par Beaumont, Haziza et Ruiz-Gazen (2013, Biometrika) au cas de l'échantillonnage à deux-phases avec application au problème de la non-réponse totale. À notre connaissance, c'est le premier article portant sur l'estimation robuste en présence de données manquantes. Nous avons développé une version robuste des estimateurs par double dilatation et des estimateurs de calage. Dans le chapitre 5, nous nous sommes intéressés à l'estimation robuste dans un contexte de statistique classique (ou de populations infinies). Nous avons proposé une alternative robuste à la moyenne empirique. En particulier, nous avons développé une expression approximative de l'erreur quadratique moyenne pour des distributions appartenant aux domaines d'attraction de Gumbel et à celui de Frechet, ce qui nous a permis de comparer l'efficacité de l'estimateur proposé à celle de l'estimateur winzorisé une fois proposé par Rivest (1994, Biometrika). Dans le chapitre 6, nous avons traité du problème de l'estimation robuste dans un contexte d'estimation pour petits domaines, qui est un sujet qui a suscité beaucoup d'intérêt dans les dernières années. Nous avons proposé une approche unifiée d'estimation robuste à la présence de valeurs influentes dans le cas d'un modèle linéaire mixte généralisé. Lorsque le modèle sous-jacent est un modèle linéaire mixte, la méthode proposée est équivalente à la méthode de Dongmo Jiongo, Haziza et Duchesne (2013, Biometrika). Nous avons effectué des simulations dans le cas d'une variable d'intérêt continue, d'une variable binaire et d'une variable de comptage et avons montré empiriquement que la méthode proposée a de bonnes propriétés en termes d'erreur quadratique moyenne.

Résumé (anglais) : The main topic of this thesis is the robust estimation in finite or infinite population. The thesis is divided in five chapters, an introduction and a conclusion. The chapter 2 is a literature review focus on several topics as: inference in finite population, small area estimation, robust estimation in finite and infinite population. In chapter 3, we deal with the winsorization, which is often used to treat the problem of influential values. This technique requires the determination of a constant that corresponds to the threshold above which large values are reduced. We consider a method of determining the constant which involves minimizing the sample's largest estimated conditional bias. In the context of domain estimation, we also propose a method of ensuring consistency between the domain-level winsorized estimates and the population-level winsorized estimate. The results of two simulation studies suggest that the proposed methods lead to winsorized estimators that have good bias and relative efficiency properties. In chapter 4, we extend the results of Beaumont et al. (2013) to the case of two-phase sampling designs. We extend the concept of conditional bias attached to a unit with respect to both phases and propose a robust version of the double expansion estimator. Our results can be naturally extended to the case of unit nonresponse, since the set of respondents often being viewed as a second phase sample. A robust version of calibration estimators, based on auxiliary information available at both phases, is also constructed. In chapter 5, we focus on the estimation of the population mean of a skewed population. We propose a robust version of the empirical mean, develop some mean square error approximations for the max-domain of attraction of Gumbel and Fréchet, and compare the efficiency of the proposed estimator to the one-winsorized estimator proposed by Rivest (1994, Biometrika). We also extend the result to the case of a regression coefficient for a linear model. In chapter 6, we focus on the robust estimation for small areas. We first propose a robust predictor in a general model-based framework with the use of generalized linear models and then we propose a unified framework for robust small area prediction in the context of generalized LMMs. We conduct a Monte Carlo study in the case where the variable of interest is continuous, binary or count data and we show empirically that the estimator derived from the proposed method have good bias and relative efficiency properties.

Identifiant : rennes1-ori-wf-1-7297

Exporter au format XML