Aumentare i tassi di risposta ai sondaggi utilizzando il machine learning per prevedere i fornitori di oro
Dettaglio
Il secondo documento di ricerca pubblicato come parte della serie tecnica dell'Australian Statistician
Dettaglio
Mantenere alti tassi di risposta ai sondaggi sta diventando sempre più difficile per l’Australian Bureau of Statistics (ABS) e altre organizzazioni statistiche nazionali. Con budget limitati per la raccolta dei dati, ciò ha portato alla ricerca di strategie più efficaci per seguire gli intervistati. Questo documento si concentra sulla previsione degli intervistati che completeranno il sondaggio senza richiedere alcuna chiamata di follow-up, di seguito denominati Gold Provider (GP). Prevedere con precisione i medici di base consente agli sforzi di follow-up di concentrarsi sul resto dei fornitori: coloro per i quali è probabile che il follow-up aumenti la probabilità che rispondano. Questo protocollo di raccolta dati reattivo per l'assegnazione delle risorse di follow-up è chiamato strategia GP.
Questo articolo esamina una prova dal vivo di questa strategia GP per il ciclo 2018-19 della Rural Environment and Agricultural Commodities Survey (REACS), una delle indagini ABS che fatica a raggiungere il tasso di risposta target. Per prevedere i GP sono stati utilizzati due approcci: un approccio descrittivo basato su regole e un approccio sulla propensione alla risposta basato su modelli. L'approccio della propensione alla risposta basato sul modello utilizzava un metodo di apprendimento automatico chiamato metodo delle foreste casuali con alberi di regressione.
Nella prova dal vivo, l'approccio di apprendimento automatico ha sovraperformato l'approccio basato su regole prevedendo in modo più accurato i medici di base e i non medici di famiglia e consentendo una maggiore flessibilità nell'impostare la proporzione richiesta di medici di famiglia nell'intero campione.
Parole chiave: strategia del fornitore di oro; Follow-up intensivo; propensione alla risposta; apprendimento automatico; Metodo delle foreste casuali
Mantenere tassi di risposta costantemente elevati alle indagini sta diventando sempre più difficile per l’ABS e gli altri organismi statistici nazionali. Questo fatto, unito ai costi crescenti e ai budget limitati per la raccolta dei dati, ha portato queste agenzie a cercare strategie di follow-up più efficaci che mirano ad aumentare i tassi di risposta di coloro che aiuteranno a ridurre i bias di mancata risposta.
Laddove le variabili di interesse del sondaggio target sono statisticamente indipendenti dalla propensione alla risposta, ciò può essere ottenuto attraverso un protocollo di raccolta dati reattivo chiamato strategia Gold Provider (GP) che ritarda e reindirizza strategicamente ciò che è noto nell'ABS come sforzi di follow-up intensivo (IFU) (ad esempio telefonate) altrimenti spese dai medici di base ai non medici di famiglia durante il periodo della strategia dei medici di base. In questo caso i medici di famiglia sono gli intervistati che rispondono autonomamente, cioè completano il sondaggio senza richiedere ulteriori chiamate. Durante il periodo della strategia GP, i non-GP riceveranno normali chiamate di follow-up nei loro confronti, mentre i GP non verranno volutamente seguiti e le chiamate di follow-up salvate da loro verranno riassegnate ai non-GP . Una volta terminato il periodo della strategia del GP, i GP che non hanno risposto autonomamente verranno seguiti così come i non GP. Dato che l'elemento chiave della strategia del medico di base è ritardare piuttosto che interrompere o annullare le risorse IFU destinate ai medici di famiglia, concettualmente ciò non causerà alcuna ulteriore distorsione da mancata risposta alle stime e quindi non porrà alcun rischio statistico significativo, se qualsiasi, sulla qualità dei dati. D'altro canto, le chiamate salvate dal follow-up ritardato del medico di famiglia possono essere utilizzate per seguire i non medici di famiglia, contribuendo così a migliorare i tassi di risposta e a ridurre i bias di mancata risposta. Pertanto, questa strategia del medico di famiglia mira in definitiva a indirizzare gli sforzi di follow-up nel modo più efficiente per migliorare i tassi di risposta complessivi senza ridurre, o addirittura migliorare, la qualità dei dati.
Condotta annualmente, la Rural Environment and Agricultural Commodities Survey (REACS) è una delle indagini ABS sulle imprese che hanno dovuto affrontare difficoltà nel raggiungere i tassi di risposta target. Per il REACS, il periodo delle IFU è di circa 3 mesi con 3 tappe importanti, vale a dire la seconda e la terza lettera di sollecito e la fine delle IFU. Dobbiamo notare che la prima lettera di sollecito non è considerata una pietra miliare critica a causa della sua tempestività. Durante tutto il periodo delle IFU, la strategia chiave delle IFU è quella di dare priorità alle risorse IFU (ovvero alle chiamate) verso i non rispondenti nel settore Completamente Enumerato (CEd), seguito dal settore campionato. Qui il settore CEd si riferisce a quello che contiene gli intervistati che hanno una probabilità di selezione pari a 1 perché hanno un impatto significativo sulla qualità delle stime. Tuttavia, all’interno del settore CEd e analogamente nel settore campione, vi è il presupposto implicito che tutti gli intervistati abbiano un’identica propensione a rispondere e richiedano pari risorse per rispondere. Pertanto, l’intensità dell’allocazione delle risorse all’interno dei settori non è differenziata per i diversi intervistati.