Análise de explicabilidade em modelos de regressão aplicados a dados imobiliários

Mendes, Marcelo Passamai (2023)

tcc

O mercado imobiliário em diversos países, possui uma grande representatividade na econo- mia, nos Estados Unidos em 2022 representou 12,4% do PIB. Entre as atividades desse setor temos a venda de imóveis, onde deve ser intermediada pelo corretor de imóveis, profissional capacitado para auxiliar clientes, encontrar imóveis e elucidar dúvidas sobre linhas de crédito. Além disso, outra atividade relacionada a venda é feita pelo avaliador imobiliário, verificar e registrar as características do imóvel, realizar pesquisas sobre tendências de valores e encontrar um preço adequado ao imóvel avaliado. Porém, a tarefa de precificação de imóveis pode ser um desafio ao avaliador, pois depende de muitos fatores, como o tamanho do imóvel, o número de quartos e vagas de garagem, qualidade de acabamento dos cômodos da residência e muitas outras variáveis. Além disso, em bancos de dados que possuem muitas características esta tarefa pode ser ainda mais complexa, pois é necessário entender quais características influenciam mais nos preços. Neste trabalho, desenvolvemos um modelo de regressão para predizer valores imobiliários baseados nas características do imóvel visando facilitar a tarefa de precificação dos avaliadores imobiliários. Os dados foram retirados de uma base de dados da cidade de Ames em Iowa que possui um número considerável (80) de características, o que demanda uma tarefa preliminar de redução de dimensionalidade. Para isso, construímos um modelos de regressão com as características disponíveis, aplicamos uma técnica SHapley Additive exPlanations (SHAP), que busca avaliar a importância das características e utilizamos os resultados para remover as caracte- rísticas menos importantes a fim de simplificar o modelo. Em seguida, aplicamos a técnica de validação cruzada de monte carlo para avaliar os modelos: Random Forest – Regressor e XGboost – Regressor na métrica R2-Score com os dados disponíveis e com as características com os 20 maiores SHAP. A técnica aplicada foi capaz de reduzir a dimensionalidade em 75%, onde observamos que foi possível reduzir a dimensionalidade sem uma grande alteração no R2-Score, esse resultado pode variar dependendo do conjunto de dados, mesmo assim a técnica pode colaborar para redução de dimensionalidade em conjuntos de dados com muitas características. Portanto podemos afirmar que a técnica aplicada é adequada para trabalhar com conjuntos de dados com dimensionalidade considerável, podendo ser usada em outros problemas de regressão.

The real estate market in various countries holds significant importance in the economy. In the United States, it represented 12.4% of the GDP in 2022. Among the activities in this sector, there is property sales, which should be facilitated by real estate agents, professionals trained to assist clients, find properties, and clarify questions regarding credit lines. Additionally, another related activity in sales is carried out by real estate appraisers, who inspect and document property characteristics, conduct research on value trends, and determine an appropriate price for the assessed property. However, pricing real estate can be a challenge for appraisers, as it depends on numerous factors such as property size, the number of rooms and parking spaces, the quality of room finishes in the residence, and many other variables. Furthermore, in databases with numerous features, this task can become even more complex, as it is essential to understand which features have the most significant influence on prices. In this study, we have developed a regression model to predict real estate values based on property characteristics, aiming to simplify the pricing task for real estate appraisers. The data were extracted from a database in the city of Ames, Iowa, which contains a considerable number (80) of features, necessitating a preliminary dimensionality reduction task. To achieve this, we constructed a regression model using the available features and applied the Shapley Additive exPlanations (Shap) technique, which assesses feature importance. Based on the results, we removed the least important features to simplify the model. Subsequently, we applied the Monte Carlo cross-validation technique to evaluate the Random Forest - Regressor and XGboost - Regressor models using the R2-Score metric, both with all available data and with the top 20 features ranked by the Shap technique. The applied technique successfully reduced the dimensionality by 75%, and it was observed that this reduction did not significantly affect the R2-Score. It’s important to note that this outcome may vary depending on the dataset, nevertheless, the technique can assist in reducing dimensionality in datasets with many features. Therefore, we can conclude that the applied technique is suitable for handling high-dimensional datasets and can be employed in other regression problems.


Collections: