Acessibilidade / Reportar erro

Identificação de outliers em dados de precificação de ativos com um novo estimador de forward search ponderado* * Artigo apresentado no XLIII Encontro da ANPAD, São Paulo, SP, Brasil, outubro de 2017.

RESUMO

O objetivo deste trabalho é apresentar o método Forward Search Ponderado (FSW) para a detecção de valores discrepantes (outliers) nos dados de precificação de ativos. Esse novo estimador, baseado em um algoritmo que reduz o peso das observações mais anômalas do conjunto de dados, é testado utilizando dados simulados e empíricos de precificação de ativos. O impacto dos outliers na estimativa de modelos de precificação de ativos é avaliado em diferentes cenários, e os resultados são avaliados com testes estatísticos associados, com base nessa nova abordagem. Nossa proposta gera um procedimento alternativo para uma estimativa robusta dos betas da carteira, permitindo a comparação entre modelos concorrentes de precificação de ativos. O algoritmo, eficiente e robusto para outliers, é utilizado para fornecer estimativas robustas dos parâmetros dos modelos em uma comparação com os métodos tradicionais de estimativa econométrica geralmente utilizados ​​na literatura. Em particular, a precisão dos alfas é significantemente aumentada quando o método Forward Search (FS) é utilizado. Utilizamos simulações de Monte Carlo e também o conhecido conjunto de dados de fatores de retornos acionários, fornecido pelo Prof. Kenneth French, que consiste em 25 carteiras Fama-French no mercado acionário dos Estados Unidos, utilizando modelos de um e três fatores, em base mensal e anual. Nossos resultados indicam que a rejeição marginal do modelo de três fatores de Fama-French é influenciada pela presença de outliers nas carteiras, ao utilizar retornos mensais. Em dados anuais, o uso de métodos robustos aumenta o nível de rejeição de alfas nulos no Modelo de Precificação de Ativos de Capital (Capital Asset Pricing Model -CAPM) e no modelo de três fatores de Fama-French, com estimativas mais eficientes na ausência de outliers, e alfas consistentes quando os outliers estão presentes.

Palavras-chave:
precificação de ativos; detecção de outliers; estimativa robusta; forward search

ABSTRACT

The purpose of this work is to present the Weighted Forward Search (FSW) method for the detection of outliers in asset pricing data. This new estimator, which is based on an algorithm that downweights the most anomalous observations of the dataset, is tested using both simulated and empirical asset pricing data. The impact of outliers on the estimation of asset pricing models is assessed under different scenarios, and the results are evaluated with associated statistical tests based on this new approach. Our proposal generates an alternative procedure for robust estimation of portfolio betas, allowing for the comparison between concurrent asset pricing models. The algorithm, which is both efficient and robust to outliers, is used to provide robust estimates of the models’ parameters in a comparison with traditional econometric estimation methods usually used in the literature. In particular, the precision of the alphas is highly increased when the Forward Search (FS) method is used. We use Monte Carlo simulations, and also the well-known dataset of equity factor returns provided by Prof. Kenneth French, consisting of the 25 Fama-French portfolios on the United States of America equity market using single and three-factor models, on monthly and annual basis. Our results indicate that the marginal rejection of the Fama-French three-factor model is influenced by the presence of outliers in the portfolios, when using monthly returns. In annual data, the use of robust methods increases the rejection level of null alphas in the Capital Asset Pricing Model (CAPM) and the Fama-French three-factor model, with more efficient estimates in the absence of outliers and consistent alphas when outliers are present.

Keywords:
asset pricing; outlier detection; robust estimation; forward search

1. Introdução

O Modelo de Precificação de Ativos de Capital (Capital Asset Pricing Model - CAPM), introduzido por Sharpe (1964Sharpe, W. F. (1964). Capital asset prices: A theory of market equilibrium under conditions of risk. Journal of Finance , 19(3), 425-442.) e Lintner (1965Lintner, J. (1965). The valuation of risk assets and the selection of risky investments in stock portfolios and capital budgets. Review of Economics and Statistics, 47 (1), 13-37.), representa um marco inovador na história da teoria financeira. A publicação desses documentos seminais levou ao desenvolvimento de um grande corpo de pesquisa em várias áreas de finanças, tanto do ponto de vista normativo quanto positivo. Do ponto de vista positivo, o modelo tem sido usado, por exemplo, para explicar a seção transversal dos retornos esperados (Fama e MacBeth, 1973Fama, E. F., & MacBeth, J. D. (1973). Risk, return, and equilibrium: Empirical tests. The Journal of Political Economy, 81(3), 607-636.) e o desempenho dos fundos de investimento (Jensen, 1967Jensen, M. C. (1967). The performance of mutual funds in the period 1945-1964. Journal of Finance , 23(2), 389-416.). Do ponto de vista normativo, o modelo tem sido utilizado no contexto de decisões orçamentárias de capital e gestão de carteiras (Sharpe, 1963Sharpe, W. F. (1963). A simplified model for portfolio analysis. Management Science, 9(2), 277-293.).

No entanto, a relação linear de risco-retorno postulada pelo modelo não tem sido suficiente para explicar a secção transversal do retorno esperado, e foram revelados vários distanciamentos do modelo (geralmente chamados de anomalias) (ver Fama e French [2008Fama, E. F., & French, K. R. (2008). Dissecting anomalies. The Journal of Finance , 63(4), 1653-1678.]). Atualmente, existem “evidências crescentes contra ele, baseadas na seção transversal dos retornos das ações” (Da, Guo & Jagannathan, 2012Da, Z., Guo, R.-J., & Jagannathan, R. (2012). CAPM for estimating the cost of equity capital: Interpreting the empirical evidence. Journal of Financial Economics103(1), 204-220.).

À medida que as evidências contra o modelo começaram a aparecer, foram desenvolvidos modelos mais sofisticados, como o Modelo de Precificação por Arbitragem (APT) (Ross, 1976Ross, S. A. (1976). The arbitrage theory of capital asset pricing. Journal of Economic Theory, 13(3), 341-360.). Um modelo capaz de capturar muitas das anomalias não explicadas pelo CAPM é o modelo de três fatores de Fama e French (1992Fama, E. F., & French, K. R. (1992). The cross-section of expected stock returns. Journal of Finance, 47(2), 427-465., 1993Fama, E. F., & French, K. R. (1993). Common risk factors in the returns of stocks and bonds. Journal of Financial Economics, 33(1), 3-56.).

Mais interessante, no entanto, é o fato de as evidências contra o CAPM não terem impedido que ele se tornasse o modelo mais utilizado para a determinação do custo de capital no contexto de decisões de orçamento de capital (Graham & Harvey, 2001Graham, J. R., & Harvey, C. R. (2001). The theory and practice of corporate finance: Evidence from the field. Journal of Financial Economics, 60(2, 3)187-243.). Além disso, há apoio empírico a favor do CAPM para esse fim (Da et al., 2012Da, Z., Guo, R.-J., & Jagannathan, R. (2012). CAPM for estimating the cost of equity capital: Interpreting the empirical evidence. Journal of Financial Economics103(1), 204-220.).

A escolha do método dos mínimos quadrados ordinários (OLS) para a estimativa dos parâmetros do CAPM é natural, uma vez que é o melhor estimador linear não enviesado (best linear unbiased estimator - BLUE) sob as premissas de normalidade apresentadas pela teoria do CAPM. No entanto, um problema frequentemente negligenciado relacionado a ações e retornos do mercado ao optar pelo estimador OLS são as evidências esmagadoras de que esses retornos não são normalmente distribuídos (ver Mandelbrot [1963Mandelbrot, B. (1963). The variation of certain speculative prices. Journal of Business, 36(1), 3-27.] e Merton [1976Merton, R. (1976). Option pricing when underlying stock returns are discontinuous. Journal of Financial Economics , 3(1), 125-144.]) e exibem distribuições empíricas de cauda grossa, ou seja, as distribuições dos retornos de ações contêm valores discrepantes (outliers), observações que não pertencem à maioria dos dados (normalmente distribuídos). No contexto dos métodos de regressão, os outliers são, de acordo com Rousseeuw e Leroy (1987Rousseeuw, P. J., & Leroy, A. M. (1987). Robust regression and outlier detection. New York, NY: John Wiley & Sons.), pontos de dados (observações) que divergem da relação linear seguida pela maioria dos dados, levando em consideração tanto as variáveis ​​explicativas (X) quanto as variável de resposta (Y) simultaneamente. Portanto, valores extremos nas variáveis ​​Y e X não são considerados outliers, desde que estejam em conformidade com a relação linear da maior parte dos dados.

É amplamente sabido que o método OLS é extremamente sensível à presença de outliers nos dados (nas variáveis ​​X e Y). Pode-se provar que seu ponto de ruptura - “a menor fração de más observações que pode levar um estimador a assumir valores aberrantes arbitrariamente grandes” (Huber & Ronchetti, 2009Huber, P., & Ronchetti, E. (2009). Robust statistics (2a. ed.). Hoboken, NJ: John Wiley & Sons., p. 8) - é igual a 0%, indicando que uma única “má” observação pode causar distorções massivas na estimativa de parâmetros (Rousseeuw & Leroy, 1987Rousseeuw, P. J., & Leroy, A. M. (1987). Robust regression and outlier detection. New York, NY: John Wiley & Sons.).

Knez e Ready (1997Knez, P., & Ready, M. (1997). On the robustness of size and book-to-market in cross-sectional regressions. The Journal of Finance , 52(4), 1355-1382.) argumentam que os valores extremos não devem necessariamente ser vistos como observações a serem descartadas ou excluídas, nem que são observações irrelevantes. Pelo contrário, eles são vistos como “preciosos”, pois podem fornecer muitas informações sobre o processo de geração de dados e uma especificação de modelo adequada.

Portanto, a existência de outliers nas variáveis ​​de regressão motiva a seguinte questão de pesquisa: pode a aplicação de novos métodos estatísticos robustos para a análise e estimativa dos parâmetros dos modelos de precificação de ativos permitir a detecção e o tratamento dos dados discrepantes nos retornos financeiros, oferecendo estimativas mais confiáveis ​​de alfas e betas (parâmetros do modelo de precificação de ativos especificado na equação 11) de carteiras de ações?

Este trabalho consiste na aplicação do forward search (FS), um método robusto, no contexto de modelos de precificação de ativos. Mais especificamente, busca-se avaliar o impacto de outliers na estimativa de parâmetros nesses modelos e testar o desempenho de um novo estimador de FS ponderado (FSW) na estimativa de modelos de precificação de ativos. Para atingir esses objetivos, realizamos uma série de experimentos de simulação de Monte Carlo e comparamos o desempenho do FSW com o OLS e os mínimos quadrados aparados (LTS).

Além disso, aplicamos o estimador FSW em regressões de séries temporais das 25 carteiras de Fama e French (1993Fama, E. F., & French, K. R. (1993). Common risk factors in the returns of stocks and bonds. Journal of Financial Economics, 33(1), 3-56.). Até onde sabemos, é a primeira aplicação de estimadores com alta eficiência e alto ponto de ruptura nesse contexto, pois pesquisas anteriores, como Knez e Ready (1997Knez, P., & Ready, M. (1997). On the robustness of size and book-to-market in cross-sectional regressions. The Journal of Finance , 52(4), 1355-1382.) e Bailer (2005Bailer, H. M. (2005). Robust estimation of factor models in finance (Tese de Doutorado). University of Washington, Washington.), se concentraram no impacto de outliers em regressões de seção transversal utilizando métodos eficientes ou robustos.

O artigo está organizado da seguinte forma. Na Seção 2, realiza-se uma revisão da literatura. Na Seção 3, o novo estimador FSW é apresentado e definido. Na Seção 4, o novo método é aplicado a dados simulados e dados reais de mercado, e os resultados das estimativas são apresentados. Por fim, a Seção 5 apresenta nossas considerações finais, limitações da pesquisa, contribuições e possíveis extensões.

2. REVISÃO DA LITERATURA

Nesta seção, apresenta-se uma revisão da literatura sobre precificação de ativos - CAPM e modelos multifatoriais - e sobre o uso de estimadores robustos nesse contexto.

2.1. CAPM

Os fundamentos teóricos do CAPM foram estabelecidos pelos trabalhos seminais de Sharpe (1964Sharpe, W. F. (1964). Capital asset prices: A theory of market equilibrium under conditions of risk. Journal of Finance , 19(3), 425-442.) e Lintner (1965Lintner, J. (1965). The valuation of risk assets and the selection of risky investments in stock portfolios and capital budgets. Review of Economics and Statistics, 47 (1), 13-37.). Embora os dois autores tenham desenvolvido as bases matemáticas do modelo com base em premissas sobre mercados, retornos de ativos e funções de utilidade dos investidores, eles não desenvolveram estudos empíricos ou aplicações do modelo.

Black, Jensen e Scholes (1972Black, F., Jensen, M. C., & Scholes, M. (1972). The Capital Asset Pricing Model: Some empirical tests. Studies in the theory of capital marketsNew York, NY: Praeger.) desenvolveram uma das duas estruturas de referência para testar modelos de precificação de ativos, a saber, a abordagem de regressão de séries temporais. Os autores propuseram um teste simples do modelo: estimar alfas de um grande número de títulos e avaliar se as estimativas são estatisticamente iguais a 0, conforme previsto pela teoria.

Embora Black et al. (1972Black, F., Jensen, M. C., & Scholes, M. (1972). The Capital Asset Pricing Model: Some empirical tests. Studies in the theory of capital marketsNew York, NY: Praeger.) tenham desenvolvido testes transversais do CAPM, a abordagem de regressão transversal mais utilizada até hoje é a desenvolvida por Fama e MacBeth (1973Fama, E. F., & MacBeth, J. D. (1973). Risk, return, and equilibrium: Empirical tests. The Journal of Political Economy, 81(3), 607-636.). O chamado procedimento de Fama e MacBeth (1973Fama, E. F., & MacBeth, J. D. (1973). Risk, return, and equilibrium: Empirical tests. The Journal of Political Economy, 81(3), 607-636.) proposto pelos autores consiste em três etapas:

Regressão OLS de séries temporais da equação 1, obtendo-se estimativas de 𝛽 𝑖 para cada carteira i.

r i , t = α i + β i r M , t + ε i , t (1)

em que ri,t = Ri,t - Rf,t e rM,t = RM,t - Rf,t são, respectivamente, os retornos excedentes do ativo i e o retorno excedente do mercado (um índice de riqueza agregado negociado) sobre a taxa livre de risco rf,t no mês t, αi e βi são o alfa e o beta da ação i, e εi,t é o termo de erro de média zero e variância constante.

Para cada mês t, executar uma regressão transversal da equação 2, utilizando as estimativas de beta obtidas na etapa (i) como variáveis ​​independentes.

r i , t = γ 0 , t + γ 1 , t β ^ i , t - 1 + η i , t (2)

Como resultado da etapa (ii), obtém-se uma série temporal de estimativas dos coeficientes 𝛾 0, 𝑡 e 𝛾 1, 𝑡 e computam-se as médias das séries temporais e testes-t, pressupondo-se que ηi,t - termo de erro de média zero e variância constante - é independente dos regressores.

Embora Black et al. (1972Black, F., Jensen, M. C., & Scholes, M. (1972). The Capital Asset Pricing Model: Some empirical tests. Studies in the theory of capital marketsNew York, NY: Praeger.) e Fama e MacBeth (1973Fama, E. F., & MacBeth, J. D. (1973). Risk, return, and equilibrium: Empirical tests. The Journal of Political Economy, 81(3), 607-636.) estivessem interessados ​​em testar o CAPM utilizando um grande número de carteiras, suas conclusões basearam-se em estatísticas t específicas de carteira univariadas. À luz das limitações desses testes estatísticos, Gibbons, Ross e Shanken (1989Gibbons, M. R., Ross, S. A., & Shanken, J. (1989). A test of the efficiency of a given portfolio. Econometrica, 57 (5), 1121-1152.) propuseram uma estatística multivariada para testar se todos os interceptos são conjuntamente iguais a 0. Os autores demonstraram que a chamada estatística Gibbons Ross Shanken (GRS) possui uma distribuição F com graus de liberdade N e T - N - 1:

G R S = T - N - 1 N 1 + E T ( f ) σ ^ ( f ) 2 - 1 α ^ ´ Σ ^ - 1 α ^ ~ F N , T - N - 1 (3)

em que T é o número de observações para cada portfólio, N é o número de carteiras, ET (f) e 𝜎 (f) são, respectivamente, a média amostral e o desvio padrão do fator, 𝛼 é um vetor dos interceptos estimados, e Σ é a matriz de variância-covariância dos resíduos resultantes das N regressões. O teste pode ser facilmente estendido de modo a considerar mais de um fator, ou seja, para testar modelos multifatoriais de precificação de ativos (Cochrane, 2001Cochrane, J. H. (2001). Asset pricing. Princeton, NJ: Princeton University Press., p. 217). A estatística GRS é, ainda hoje, o teste padrão dos modelos de precificação de ativos.

Apesar das evidências empíricas apresentadas por Fama e MacBeth (1973Fama, E. F., & MacBeth, J. D. (1973). Risk, return, and equilibrium: Empirical tests. The Journal of Political Economy, 81(3), 607-636.) sobre a relação linear de risco-retorno postulada pela teoria, a literatura de precificação de ativos logo se voltou para o desenvolvimento de modelos multifatoriais, os quais serão discutidos na próxima seção.

2.1. Modelos Multifatoriais

Ross (1976Ross, S. A. (1976). The arbitrage theory of capital asset pricing. Journal of Economic Theory, 13(3), 341-360.) desenvolveu a teoria da precificação por arbitragem (APT), que leva em consideração explicitamente a possibilidade de que o retorno das ações possa ser gerado por um modelo multifatorial da forma:

r i , t = r f , t + β i , 1 f 1 , t + + β i , k f k , t + ε i , t (4)

Embora a APT represente uma generalização do CAPM, ela deixa a desejar quanto à determinação ou fornecimento de evidências de quais fatores são (ou deveriam ser) considerados pelos investidores.

Roll (1988Roll, R. (1988). R²The Journal of Finance, 43(3), 541-566.) comparou o poder explicativo do CAPM e um modelo de APT de cinco fatores na explicação de retornos de ações específicos. Seus resultados indicam que o modelo multifatorial forneceu um R2 médio mais alto (ajustado para graus de liberdade) do que o modelo de fator único; mas, para sua decepção, o R2 médio geral foi de apenas 0,20 para retornos diários e 0,35 para retornos mensais.

Fama e French (1992Fama, E. F., & French, K. R. (1992). The cross-section of expected stock returns. Journal of Finance, 47(2), 427-465., 1993Fama, E. F., & French, K. R. (1993). Common risk factors in the returns of stocks and bonds. Journal of Financial Economics, 33(1), 3-56.) estenderam a análise de Roll (1988Roll, R. (1988). R²The Journal of Finance, 43(3), 541-566.) a retornos de carteiras. Fama e French (1992Fama, E. F., & French, K. R. (1992). The cross-section of expected stock returns. Journal of Finance, 47(2), 427-465.) utilizaram tamanho, beta de mercado, alavancagem, lucro/preço e patrimônio líquido/valor de mercado (BE/ME) como variáveis ​​explicativas da secção transversal dos retornos médios das ações. Os resultados obtidos por Fama e French (1992Fama, E. F., & French, K. R. (1992). The cross-section of expected stock returns. Journal of Finance, 47(2), 427-465.) com base no procedimento de duas etapas de Fama e MacBeth (1973Fama, E. F., & MacBeth, J. D. (1973). Risk, return, and equilibrium: Empirical tests. The Journal of Political Economy, 81(3), 607-636.) indicam que, usadas em combinação, duas variáveis - tamanho e BE/ME - parecem explicar a secção transversal dos retornos médios, absorvendo o poder explicativo de outras variáveis, como beta de mercado, alavancagem e lucro/preço. Além disso, seus resultados não sustentam a idéia central do CAPM de que os retornos médios estão positivamente relacionados ao beta de mercado. Na verdade, eles argumentam que essa relação não está presente no período de 1963-1990 e é muito fraca no período mais longo de 1941-1990.

Em um artigo posterior, Fama e French (1993Fama, E. F., & French, K. R. (1993). Common risk factors in the returns of stocks and bonds. Journal of Financial Economics, 33(1), 3-56.) concentraram-se na identificação de fatores de risco comuns nos retornos de ações e títulos. Diferentemente de Fama e French (1992Fama, E. F., & French, K. R. (1992). The cross-section of expected stock returns. Journal of Finance, 47(2), 427-465.), sua análise baseia-se na abordagem de regressão de séries temporais de Black et al. (1972Black, F., Jensen, M. C., & Scholes, M. (1972). The Capital Asset Pricing Model: Some empirical tests. Studies in the theory of capital marketsNew York, NY: Praeger.), em vez do procedimento de Fama e MacBeth (1973Fama, E. F., & MacBeth, J. D. (1973). Risk, return, and equilibrium: Empirical tests. The Journal of Political Economy, 81(3), 607-636.). Com relação à análise dos retornos de ações, os autores testam o poder explicativo de três fatores de risco (mercado, tamanho e BE/ME) nos retornos de 25 carteiras classificadas por tamanho-BE/ME. Seus principais resultados indicam que os fatores tamanho e BE/ME podem explicar as diferenças nos retornos médios das ações, mas a diferença entre os retornos médios das ações e dos títulos de dívida soberana com vencimento em um mês é explicada pelo fator mercado.

Apesar das fortes evidências fornecidas por Fama e French (1992Fama, E. F., & French, K. R. (1992). The cross-section of expected stock returns. Journal of Finance, 47(2), 427-465., 1993Fama, E. F., & French, K. R. (1993). Common risk factors in the returns of stocks and bonds. Journal of Financial Economics, 33(1), 3-56.) contra o CAPM e a favor do modelo de três fatores, seus resultados foram recebidos com relativo ceticismo por outros pesquisadores. Kothari, Shanken e Sloan (1995Kothari, S. P., Shanken, J., & Sloan, R. (1995). Another look at the cross-section of expected stock returns. The Journal of Finance , 50(185), 185-224.) argumentaram que o premium de BE/ME em Fama e French (1992Fama, E. F., & French, K. R. (1992). The cross-section of expected stock returns. Journal of Finance, 47(2), 427-465.) foi superestimado, devido a um viés de sobrevivência nos dados utilizados do Compustat, o que provavelmente incluiria empresas em dificuldades que sobreviveram e excluiria aquelas que faliram. Além disso, eles fornecem evidências empíricas a favor do CAPM, uma vez que seus resultados indicam a existência de um premium de risco de mercado estatisticamente significativo quando os betas são computados nos retornos anuais, e não mensais.

Fama e French (1996Fama, E. F., & French, K. R. (1996). Multifactor explanations of asset pricing anomalies. The Journal of Finance, 51(1), 55-84.) testaram a hipótese de que o premium de BE/ME era espúrio por meio da aplicação do modelo de três fatores a vários conjuntos de dados. Seus resultados confirmaram a existência do premium de BE/ME e sua significância estatística. Além disso, os autores oferecem evidências de que o modelo de três fatores explica muitos dos padrões nos retornos de ações - as chamadas anomalias - que não são capturados pelo CAPM. No entanto, o modelo de três fatores não é capaz de capturar a anomalia de continuação de retorno de curto prazo, atualmente conhecida como anomalia de momentum, posteriormente analisada por Carhart (1997Carhart, M. M. (1997). On persistence in mutual fund performance. The Journal of Finance, 52(1), 57-82.).

2.2. Estimativa Robusta de Modelos de Precificação de Ativos

A aplicação de métodos robustos de regressão no contexto dos modelos de precificação de ativos remonta ao trabalho de Sharpe (1971Sharpe, W. F. (1971). Mean-absolute-deviation characteristic lines for securities and portfolios. Management Science , 18(2), 1-13.), no qual o método do desvio médio absoluto (mean absolute deviation - MAD) foi aplicado para estimar os parâmetros do CAPM. Seus resultados mostram que os dois métodos fornecem estimativas de beta semelhantes, mas estimativas de alfa bastante diferentes quando aplicadas a ações ou carteiras não diversificadas. No entanto, o autor conclui que os ganhos do MAD sobre o OLS são modestos.

Cornell e Dietrich (1978Cornell, B., & Dietrich, J. K. (1978). Mean-absolute-deviation versus least-squares regression estimation of beta coefficients. The Journal of Financial and Quantitative Analysis, 13(1), 123-131.) também desenvolveram uma análise comparativa de MAD versus OLS, a fim de testar a estabilidade dos coeficientes beta ao longo do tempo. Semelhantemente às conclusões de Sharpe (1971Sharpe, W. F. (1971). Mean-absolute-deviation characteristic lines for securities and portfolios. Management Science , 18(2), 1-13.), os autores consideram “decepcionante ... que a técnica MAD não represente uma melhoria em relação ao OLS”.

Chan e Lakonishok (1992Chan, L. K. C., & Lakonishok, J. (1992). Robust measurement of beta risk. The Journal of Financial and Quantitative Analysis27(2), 265-282.) compararam o desempenho de vários métodos robustos de estimativa em dados simulados e de mercado. Os autores apresentam o desempenho de cada método no caso nulo, onde não existem outliers nos dados, e também quando os retornos das ações são de cauda pesada. Seus resultados confirmam o fraco desempenho do MAD. Por outro lado, os autores relataram que o uso de estimadores de quantil de regressão aparada resulta em perda de eficiência de apenas cerca de 10% no caso nulo e em ganhos de eficiência de até 80% na alternativa em que a variável dependente é de cauda pesada, fornecendo fortes evidências a favor da aplicação de métodos robustos para a estimativa de beta. Os autores concentram suas análises na estimativa de beta, deixando de lado o desempenho dos métodos com relação à estimativa de alfa.

Bowie e Bradfield (1998Bowie, D. C., & Bradfield, D. J. (1998). Robust estimation of beta coefficients: Evidence from a small stock market. Journal of Business Finance & Accounting, 25(3, 4), 439-454.) estenderam o trabalho de Chan e Lakonishok (1992Chan, L. K. C., & Lakonishok, J. (1992). Robust measurement of beta risk. The Journal of Financial and Quantitative Analysis27(2), 265-282.) ao avaliar o desempenho relativo de uma gama mais ampla de estimadores robustos quando aplicados à estimativa do beta de títulos negociados na Bolsa de Johanesburgo. Seus resultados, com base em medidas jackknife de eficiência, indicam que os métodos robustos são menos sensíveis do que o OLS para modelar erros de especificação - como extremos retornos de mercado em excesso - e que a eficiência superior dos estimadores robustos era causada pela não normalidade na distribuição de resíduos.

Até onde sabemos, Knez e Ready (1997Knez, P., & Ready, M. (1997). On the robustness of size and book-to-market in cross-sectional regressions. The Journal of Finance , 52(4), 1355-1382.) foram os primeiros a estudar os impactos da aplicação de tais técnicas em regressões transversais (segunda etapa do procedimento de Fama e MacBeth [1973Fama, E. F., & MacBeth, J. D. (1973). Risk, return, and equilibrium: Empirical tests. The Journal of Political Economy, 81(3), 607-636.]). Os autores aplicam o LTS nos dados de regressão transversal usados ​​em Fama e French (1992Fama, E. F., & French, K. R. (1992). The cross-section of expected stock returns. Journal of Finance, 47(2), 427-465.) e analisam os premiums de risco nos fatores tamanho e book-to-market. Os autores mostram que a relação negativa entre retornos médios e tamanho obtida por Fama e French é causada por apenas algumas empresas influentes. Na verdade, seus resultados indicam que aparar 1% das observações mais extremas a cada mês leva a uma relação positiva entre retornos médios e tamanho. Os autores restringem sua análise aos fatores tamanho e book-to-market, e não utilizam betas de mercado como variável explicativa para a seção transversal dos retornos médios. Além disso, os autores não aplicam o LTS para a estimativa de betas “pré-ranking” e “pós-ranking”.

Bailer (2005Bailer, H. M. (2005). Robust estimation of factor models in finance (Tese de Doutorado). University of Washington, Washington.) estendeu ainda mais a análise de Knez e Ready (1997Knez, P., & Ready, M. (1997). On the robustness of size and book-to-market in cross-sectional regressions. The Journal of Finance , 52(4), 1355-1382.) em pelo menos quatro direções. Primeiro, ele utiliza o estimador MM em vez do LTS. Segundo, ele introduz betas de mercado (assim como tamanho e book-to-market) como variável explicativa dos retornos médios. Terceiro, ele aplica métodos robustos tanto na primeira quanto na segunda etapas do procedimento de Fama e MacBeth (1973Fama, E. F., & MacBeth, J. D. (1973). Risk, return, and equilibrium: Empirical tests. The Journal of Political Economy, 81(3), 607-636.), bem como nas médias de séries temporais de estimativas transversais. Quarto, ele aplica a metodologia a períodos mais recentes. O autor conclui que os alfas do OLS tendem a ser excessivamente enviesados, e os betas clássicos são altamente sensíveis a outliers, enquanto os alfas e betas robustos são preditores superiores. O autor também conclui que os premiums de risco de beta e tamanho, considerados em Fama e French (1992Fama, E. F., & French, K. R. (1992). The cross-section of expected stock returns. Journal of Finance, 47(2), 427-465.) como respectivamente baixos e negativos, na verdade são baixos ou negativos para beta e positivos para tamanho quando apenas 1 a 3% dos dados são rejeitados, reconfirmando os resultados de Knez e Ready (1997Knez, P., & Ready, M. (1997). On the robustness of size and book-to-market in cross-sectional regressions. The Journal of Finance , 52(4), 1355-1382.).

Apesar da vasta literatura sobre a estimativa robusta de modelos de precificação de ativos, não temos conhecimento da aplicação de métodos com propriedades de elevado ponto de ruptura e elevada eficiência - como o FSW e o FSI - neste contexto, pois todos os métodos mencionados anteriormente apresentam elevada eficiência (estimador MM) ou elevado ponto de ruptura (LTS).

Na próxima seção, apresenta-se o FS - um estimador robusto de alta eficiência e alto ponto de ruptura.

2.3. O FS

O FS descrito por Atkinson e Riani (2000Atkinson, A. C., & Riani, M. (2000). Robust diagnostic regression analysis. New York, NY: Springer-Verlag.) é um método robusto que fornece gráficos úteis, permitindo entender a estrutura real dos dados que estão sendo analisados ​​e avaliar a concordância entre os dados e o modelo. Diferentemente dos métodos atrasados, o FS é imune aos conhecidos efeitos de mascaramento e swamping (Atkinson & Riani, 2000Atkinson, A. C., & Riani, M. (2000). Robust diagnostic regression analysis. New York, NY: Springer-Verlag.).

Os conceitos básicos do algoritmo do FS remontam ao trabalho de Hadi (1992Hadi, A. S. (1992). Identifying multiple outliers in multivariate data. Journal of the Royal Statistical Society B, 54(3), 761-771.), onde foi introduzida a ideia de ajustar um modelo a subconjuntos de tamanhos crescentes. Hadi e Simonoff (1993Hadi, A. S., & Simonoff, J. S. (1993). Procedures for the identification of multiple outliers in linear models. Journal of the American Statistical Association, 88(424), 1264-1272.) o utilizaram em uma estrutura de regressão, enquanto Atkinson (1994Atkinson, A. C. (1994). Fast very robust methods for the detection of multiple outliers. Journal of the American Statistical Association, 89(428), 1329-1339.) e Hadi (1994Hadi, A. S. (1994). A modification of a method for the detection of outliers in multivariate samples. Journal of the Royal Statistical Society B, 56(2), 393-396.) o aplicaram a dados multivariados. Atkinson e Riani (2000Atkinson, A. C., & Riani, M. (2000). Robust diagnostic regression analysis. New York, NY: Springer-Verlag.) e Atkinson, Riani e Cerioli (2004Atkinson, A. C., Riani, M., & Cerioli, A. (2004). Exploring multivariate data with the forward search. New York, NY: Springer-Verlag .) publicaram livros que discutem profundamente como o FS pode ser aplicado nos contextos de regressão e análise multivariada, respectivamente.

O FS é composto de 3 etapas:

  1. escolha do subconjunto inicial;

  2. adição de observações durante a busca;

  3. monitoramento de quantidades-chave durante a busca.

A primeira etapa foi concebida para identificar um subconjunto dos dados livre de outliers - um conjunto de dados limpo (CDL). Isto se faz utilizando-se um estimador robusto de elevado ponto de ruptura, como a menor mediana dos quadrados ou a LTS. O estimador LTS é dado por (Rousseeuw e Leroy, 1987Rousseeuw, P. J., & Leroy, A. M. (1987). Robust regression and outlier detection. New York, NY: John Wiley & Sons.):

Min β ^ i = 1 h ( e 2 ) i : n (5)

em que (e2)1:n ≤ … ≤ (e2)n:n são os resíduos dos quadrados ordenados. O vetor do parâmetro estimado ( 𝛽 ) é, portanto, o vetor que minimiza a soma dos h (de n) menores resíduos quadrados.

Na etapa inicial do FS, o modelo é ajustado para m0 = p observações e h = (n+p+1)2 , resultando no ponto de ruptura mais elevado (50%) que pode ser alcançado pelo método LTS, em que p representa o número de parâmetros a serem estimados.

A minimização na equação 5 é realizada apenas aproximadamente, buscando-se em um grande número (geralmente 10.000 ou mais) de subconjuntos de tamanho p escolhidos aleatoriamente. Este procedimento fornece um subconjunto livre de outliers. Assim, o subconjunto inicial é o subconjunto de tamanho p que produz o valor mínimo da soma na equação 5. A estimativa de parâmetro que minimiza a equação 5 é 𝛽 𝑚 0 .

A segunda etapa foi concebida para adicionar sucessivamente observações ao subconjunto inicial, por sua proximidade com a maior parte dos dados, à medida que a pesquisa evolui. Dado um subconjunto S(m) de dimensão m ≥ p, a pesquisa avança para encontrar o subconjunto S(m+1) ao selecionar as observações m + 1 com os menores resíduos quadrados escalonados ei,S(m) 2 . Os resíduos ei,S(m) são calculados como

e i , S m = y i - x i ' β ^ m (6)

em que 𝛽 𝑚 é obtido aplicando-se o OLS nas observações que formam o subconjunto S(m), para m > m0.

Na maioria dos movimentos de m para m + 1, apenas uma observação entra para o subconjunto, mas o método permite a inclusão de mais de uma observação quando uma ou mais deixam S(m). A segunda etapa se repete até m = n, e todas as observações são incluídas em S(m).

O terceiro passo é o monitoramento de quantidades-chave. Durante a busca, várias quantidades são monitoradas e registradas, para que possam ser produzidos e analisados gráficos informativos.

Um aspecto importante é que as estimativas de σ2 não são constantes durante a busca. Para cada subconjunto S(m), uma estimativa 𝑠 𝑆 (𝑚) 2 é produzida e, à medida que m aumenta, 𝑠 𝑆 (𝑚) 2 aumenta suavemente se não houver outliers nos dados. Uma mudança abrupta na trajetória de 𝑠 𝑆 (𝑚) 2 em m = m’ é uma indicação de que um outlier entrou no subconjunto.

Uma propriedade interessante do FS é que ele é insensível ao subconjunto inicial - desde que este seja livre de outliers - e as trajetórias das quantidades monitoradas durante a busca convergem, de modo que (aproximadamente) o último terço das observações a entrar na busca são as mesmas, independentemente do subconjunto inicial (Atkinson, Riani e Cerioli, 2006Atkinson, A. C., & Riani, M. (2006). Distribution theory and simulations for tests of outliers in regression. Journal of Computational and Graphical Statistics, 15(2), 460-476.).

Embora o método tenha sido originalmente desenvolvido para diagnóstico de dados, ele foi estendido recentemente, tornando-se um procedimento robusto automático.

Riani, Atkinson e Cerioli (2009Riani, M. , Atkinson, A. C., & Cerioli, A. (2009). Finding an unknown number of multivariate outliers. Journal of the Royal Statistical Society, 71(2), 4-466.) desenvolveram um método de rejeição rigoroso com base no algoritmo descrito por Atkinson e Riani (2000Atkinson, A. C., & Riani, M. (2000). Robust diagnostic regression analysis. New York, NY: Springer-Verlag.), onde a detecção de outliers é baseada em envelopes de resíduos excluídos mínimos (simulada ou aproximada), de acordo com as seguintes regras:

  1. na parte central da busca, três valores consecutivos de rmin (m,n) excedem o envelope de 99,99% ou um excede o limite de 99,999%;

  2. na parte final da busca, dois valores consecutivos de rmin (m,n) excedem 99,9% e um excede o limite de 99%;

  3. rmin (n - 2, n) excede o envelope de 99.9%;

  4. rmin (n - 1, n) excede o envelope de 99% e, neste caso, um único outlier é detectado, e o procedimento termina.

A parte final da busca é descrita como m n [13n2000.5.

Os autores consideram a quebra de qualquer uma das 4 regras como um sinal, que é posteriormente reconfirmado pela sobreposição de envelopes residuais de exclusão mínima. O procedimento visa fornecer um tamanho nominal de 1%, o que significa que o método deve identificar, em média, um sinal uma vez em cada 100 amostras livres de outliers.

Grossi e Laurini (2009Grossi, L., & Laurini, F. (2009). A robust forward weighted Lagrange multiplier test for conditional heteroscedasticity. Computational Statistics and Data Analysis, 53(6), 2251-2263.) desenvolveram um estimador robusto de ponderação suave baseado no FS descrito por Atkinson e Riani (2000Atkinson, A. C., & Riani, M. (2000). Robust diagnostic regression analysis. New York, NY: Springer-Verlag.). Seu método é baseado em envelopes de simulação, onde os resíduos estudentizados obtidos durante cada etapa da busca são comparados com os limites de envelope simulados. Se o resíduo estudentizado estiver fora do envelope, a distância entre o valor do resíduo e o limite do envelope mais próximo será calculada e utilizada para calcular o peso dessa observação, que será utilizado em uma regressão ponderada. Os envelopes são calculados em cada etapa da busca, com base em estimativas de parâmetros, que são calculadas utilizando as observações dentro do CDL.

Mais recentemente, Crosato e Grossi (2017Crosato, L., & Grossi, L. (2017). Correcting outliers in GARCH models: A weighted forward approach. Statistical Papers, 1-32.) estenderam o procedimento FSW de Grossi e Laurini (2009Grossi, L., & Laurini, F. (2009). A robust forward weighted Lagrange multiplier test for conditional heteroscedasticity. Computational Statistics and Data Analysis, 53(6), 2251-2263.), desenvolvendo uma nova abordagem para a identificação de outliers em dados dependentes, mais especificamente em modelos de heterocedasticidade condicional autoregressiva generalizada (generalized autoregressive conditional heteroskedasticity - GARCH).

3. UM NOVO ESTIMADOR FSW

O FSW combina o conceito de aparamento suave usado por Grossi e Laurini (2009Grossi, L., & Laurini, F. (2009). A robust forward weighted Lagrange multiplier test for conditional heteroscedasticity. Computational Statistics and Data Analysis, 53(6), 2251-2263.) e Crosato e Grossi (2017Crosato, L., & Grossi, L. (2017). Correcting outliers in GARCH models: A weighted forward approach. Statistical Papers, 1-32.) com o conceito de “parada antecipada” proposto por Riani et al. (2009Riani, M. , Atkinson, A. C., & Cerioli, A. (2009). Finding an unknown number of multivariate outliers. Journal of the Royal Statistical Society, 71(2), 4-466.). Enquanto o primeiro proporciona flexibilidade nas observações de peso reduzido, o segundo garante o elevado ponto de ruptura do método, permitindo que os pesos sejam calculados antes da inclusão de outliers no subconjunto. Além disso, o FSW é baseado em uma versão modificada dos envelopes de simulação propostos por Atkinson (1981Atkinson, A. C. (1981). Two graphical displays for outlying and influential observations in regression. Biometrika, 68(1), 13-20.), que são construídos para cada subconjunto S(m), sujeitos a 𝑛+𝑝+1 2 ≤ m ≤ m*. Quando m = m*, isto é, quando qualquer das 4 regras utilizadas no método de aparamento duro desenvolvido por Riani et al. (2009Riani, M. , Atkinson, A. C., & Cerioli, A. (2009). Finding an unknown number of multivariate outliers. Journal of the Royal Statistical Society, 71(2), 4-466.) é quebrada, a busca é interrompida e os pesos são calculados antes que qualquer outlier seja incluído no subconjunto.

3.1) Envelopes de Simulação

Os envelopes de simulação são utilizados há muito tempo para a detecção de outliers (ver Atkinson [1981Atkinson, A. C. (1981). Two graphical displays for outlying and influential observations in regression. Biometrika, 68(1), 13-20.] e Flack e Flores [1989Flack, V., & Flores, R. (1989). Using simulated envelopes in the evaluation of normal probability plots of regression residuals. Technometrics, 31(2), 219-225.]). No contexto do FS, os envelopes de simulação refletem a distribuição dos resíduos estudentizados em um subconjunto de tamanho específico m da busca.

Os envelopes propostos por Atkinson (1981Atkinson, A. C. (1981). Two graphical displays for outlying and influential observations in regression. Biometrika, 68(1), 13-20.) são gerados em 4 etapas:

  1. simular M vetores Z de dimensão (n x 1) a partir da distribuição normal padronizada;

  2. regredir cada um desses vetores na matriz X e obter M vetores simulados de resíduos estudentizados Rz(i) ;

  3. ordenar os elementos de cada vetor simulado de resíduos estudentizados;

  4. para cada i = 1,… n, selecionar li = min rz(i) e ui = max rz(i) . Esses valores inferior e superior para a estatística de i-ésima ordem dos M vetores de resíduos simulados formam os limites inferior e superior dos envelopes de diagnóstico, respectivamente.

Definindo-se M = 19, obtêm-se limites de envelope correspondentes ao 5o e 95o percentis da distribuição da estatística de i-ésima ordem do vetor de resíduo externamente estudentizado, dado X.

A metodologia acima é imediatamente aplicável quando as regressões OLS são executadas no conjunto completo de observações. Entretanto, dado que o FS começa com o tamanho de subconjunto m = p, o envelope é obtido simulando-se M vetores Z e executando um FS para cada um desses M vetores na matriz X, tal como em Atkinson e Riani (2006Atkinson, A. C., Riani, M., & Cerioli, A. (2006). Random start forward searches with envelopes for detecting clusters in multivariate data. In Zani, S., Cerioli, A., Riani, M., & Vichi M. (Eds.). Data analysis. Classification and the forward search (pp. 163-171). Berlin: Springer-Verlag.), permitindo que os envelopes sejam independentes do subconjunto inicial do FS.

Os envelopes são construídos de acordo com as seguintes etapas:

  1. simular M vetores Z de dimensão (n x 1) a partir da distribuição normal padronizada;

  2. conduzir um FS de cada um desses vetores na matriz X e obter para cada subconjunto de tamanho m, M vetores simulados de resíduos estudentizados rz ;

  3. para cada subconjunto de tamanho m, ordenar os elementos de cada vetor de resíduos simulados estudentizados, obtendo M vetores simulados de resíduos estudentizados ordenados 𝑟 𝑧 ∗ . Agrupando-se todos esses vetores, obtém-se, para cada subconjunto m, uma matriz R com dimensão (M x n), preenchida com elementos r(i,j) ;

  4. para cada subconjunto de tamanho m, dispor cada coluna da matriz R de modo que o valor mais baixo dos resíduos nessa coluna seja alocado na 1ª linha, e o valor mais alto seja alocado na última linha, obtendo-se a matriz R*, com os elementos 𝑟 (𝑖,𝑗) ∗ ;

  5. para obter limites de envelope de 5% e 95%, selecionar para cada subconjunto de tamanho m, elementos li = 𝑟 (𝑖,0.05𝑀) ∗ e ui = 𝑟 (𝑖,0.95𝑀) ∗ , para i = 1,…n. Esses valores superior e inferior para a estatística de i-ésima ordem dos M vetores de resíduos simulados formam os limites superior e inferior dos envelopes de diagnóstico, respectivamente.

3.2) Ponderação das Observações

Para cada m ≥ h, constroem-se os envelopes e calcula-se a distância dos resíduos estudentizados aos envelopes.

A distância para a observação i no subconjunto de tamanho m é calculada por:

π m ( i ) = 0 , i f l i r i u i l i - r i , i f r i < l i ( r i - u i ) , i f r i > u i (7)

No final da busca, a distância média de cada resíduo ao envelope é usada para determinar os pesos de cada observação na regressão ponderada. A distância média geral da observação i, calculada quando a busca é interrompida, é dada por:

π i = m = ( n + p + 1 ) 2 m * π m ( i ) m * - ( n + p + 1 ) 2 (8)

O peso atribuído à observação i é então calculado como:

w i = e - π i (9)

Finalmente, são estimados os parâmetros estimados através de uma regressão ponderada:

β ^ = X ' W X - 1 X ' W Y (10)

Observe nas equações 8 e 10 que, mesmo que a busca seja interrompida antes da inclusão de todas as observações no subconjunto (i.e., m* < n), todas as observações são usadas para a estimativa de 𝛽 .

4. ANÁLISE DOS DADOS

Nesta seção, o desempenho do FSW é avaliado com dados simulados, e o novo estimador é aplicado a dados de mercado.

4.1) Aplicação a Dados Simulados

Nesta seção, realizamos simulações de Monte Carlo para avaliar as propriedades do estimador FSW em uma série de experimentos especialmente concebidos para reproduzir premissas usuais e fatos estilizados sobre os modelos e dados utilizados ​​no contexto da precificação de ativos. Também comparamos o desempenho do FSW com os estimadores OLS e LTS, tanto para dados livres de outliers quanto para dados contaminados. O LTS está ajustado para aparar 30% das observações dos dados.

Simulamos pares de retornos de ativos e fatores com base nos parâmetros verdadeiros (beta), e depois estimamos os parâmetros do modelo a partir dos dados simulados.

Para avaliar o viés, discrepância média e eficiência comparativa de cada estimador, calculamos estatísticas descritivas da distribuição transversal (nas N replicações). As estatísticas são o intercepto médio estimado (α) e as inclinações médias estimadas (βk ), juntamente com a discrepância média transversal (desvio quadrático médio [RMSE]) dos parâmetros estimados, distante de seus valores reais. Também computamos a eficiência relativa (r.e) de cada estimador, determinada como a razão quadrática entre o RMSE das estimativas OLS e o RMSE do procedimento robusto RMSEOLSRMSERobust2 de maneira semelhante à análise realizada por Chan e Lakonishok (1992Chan, L. K. C., & Lakonishok, J. (1992). Robust measurement of beta risk. The Journal of Financial and Quantitative Analysis27(2), 265-282.). Além disso, apresentamos estatísticas de Diebold-Mariano (DM) para a hipótese nula de que o método robusto e o OLS possuem igual acurácia preditiva na previsão dos parâmetros verdadeiros utilizados ​​nas N simulações.

Todas as nossas experiências são baseadas no seguinte processo geral de geração de retorno:

r i , t = α + β 1 f 1 , t + + β k f k , t + ε i , t ; i = 1 , , N ; t = 1 , , T ; k = 1 , , K . (11)

Definimos N = 1.000 simulações e relatamos resultados para T = 60, 180, 300.

O experimento de Monte Carlo consiste em amostrar números aleatórios para cada um dos K fatores e para o termo de erro da equação 11. As distribuições a partir das quais os números aleatórios são amostrados - conforme detalhado abaixo - são designadas para replicar a média e o DP dos fatores e do termo do erro.

Em cada experimento, seguimos Grossi e Laurini (2011Grossi, L., & Laurini, F. (2011). Robust estimation of efficient mean-variance frontiers. Advanced Data Analysis and Classification, 5(1), 3-22.) e substituímos aleatoriamente 30% dos valores das variáveis ​​dependentes e independentes por valores extraídos de uma distribuição com maior variância. Esse procedimento resulta em distribuições de cauda pesada para as variáveis ​​dependentes e independentes, que são consistentes com retornos sobre ações ou carteiras. A variância dos dados contaminados foi definida em cinco vezes a variância original da variável.

Definindo K = 3, ou seja, o processo de geração de retorno é o modelo de três fatores de Fama e French (1992Fama, E. F., & French, K. R. (1992). The cross-section of expected stock returns. Journal of Finance, 47(2), 427-465., 1993Fama, E. F., & French, K. R. (1993). Common risk factors in the returns of stocks and bonds. Journal of Financial Economics, 33(1), 3-56.), onde os fatores 1, 2 e 3 representam, respectivamente, os retornos excessivos de mercado, tamanho (pequeno menos grande [SMB]) e BE/ME (alto menos baixo [HML]). Em cada simulação i, os retornos em excesso de mercado são extraídos de uma distribuição normal com média 0,43% e DP 4,54% - esses valores foram extraídos de Fama e French (1993Fama, E. F., & French, K. R. (1993). Common risk factors in the returns of stocks and bonds. Journal of Financial Economics, 33(1), 3-56.) -, e os resíduos εt são extraídos de uma distribuição normal com média 0 e DP 2,5%, e foram concebidos para reproduzir o R2 médio de aproximadamente 75% obtido pelos mesmos autores. O fator 2 é extraído de uma distribuição normal com média 0,27% e DP 2,89%, e o fator 3 é extraído de uma distribuição normal com média 0,40% e DP de 2,54%. Por fim, α, β1 , β2 , e β3 são definidos como 0 e 1, 1,5 e 0,5, respectivamente.

A Tabela 1 apresenta os resultados obtidos quando os dados não estão contaminados: todos os métodos são sem viés, e o FSW é altamente eficiente quando os dados não estão contaminados, mostrando uma eficiência de pelo menos 98%, em contraste com o LTS, cuja eficiência é de aproximadamente apenas 40% . Os resultados do teste de DM indicam que se deve rejeitar, ao nível de significância de 5%, a hipótese nula de que os métodos FSW e OLS possuem acurácia preditiva igual, quando T = 180 e T = 300. Quando T = 60, não se pode rejeitar que o FSW e o OLS possuem acurácia preditiva igual. No entanto, deve-se rejeitar a hipótese nula de que o LTS e o OLS têm acurácia preditiva igual para todo T.

Tabela 1.
Simulação de Monte Carlo - modelo de três fatores: resultados de dados limpos utilizando a simulação de Monte Carlo em três tamanhos de amostra alternativos

A Tabela 2 apresenta os resultados obtidos quando os dados são contaminados por outliers: o FSW e o LTS oferecem proteção contra os outliers introduzidos nos dados, pois apresentam RMSE muito menor do que o OLS. No entanto, o FSW apresenta maior eficiência do que o LTS. Novamente, todos os métodos fornecem estimativas sem viés tanto para o intercepto quanto para as inclinações. No nível de significância de 5%, as estatísticas do DM indicam a rejeição da hipótese nula de que os métodos LTS e FSW têm a mesma acurácia preditiva do método OLS; as estatísticas de DM indicam níveis mais altos de rejeição para o FSW do que para o LTS.

Tabela 2.
Simulação de Monte Carlo - modelo de três fatores: resultados de dados contaminados utilizando a simulação de Monte Carlo em três tamanhos de amostra alternativos

Os resultados das simulações de Monte Carlo sustentam o uso de FSW para a estimativa de parâmetros de modelos de precificação de ativos. Na próxima seção, esses estimadores são aplicados a dados reais do mercado.

4.2. Aplicação a Dados Financeiros

Nesta seção, aplicamos o FSW à estrutura de regressões de séries temporais desenvolvida por Black et al. (1972Black, F., Jensen, M. C., & Scholes, M. (1972). The Capital Asset Pricing Model: Some empirical tests. Studies in the theory of capital marketsNew York, NY: Praeger.) e utilizada por Fama e French (1993Fama, E. F., & French, K. R. (1993). Common risk factors in the returns of stocks and bonds. Journal of Financial Economics, 33(1), 3-56., 1996Fama, E. F., & French, K. R. (1996). Multifactor explanations of asset pricing anomalies. The Journal of Finance, 51(1), 55-84.).

As variáveis ​​dependentes utilizadas em nossos testes são os retornos excessivos das conhecidas 25 carteiras de Fama-French aplicados ao mercado de ações dos Estados Unidos (Fama & French, 1993Fama, E. F., & French, K. R. (1993). Common risk factors in the returns of stocks and bonds. Journal of Financial Economics, 33(1), 3-56.), enquanto as variáveis ​​independentes consideradas são SMB, HML e retornos excessivos do mercado. Realizamos testes GRS para determinar se os interceptos estimados de maneira robusta e não robusta de todas as carteiras são conjuntamente iguais a 0, e apresentamos resultados com base no CAPM e nos modelos de três fatores.

Também estimamos o modelo em dados anuais, pois segundo Kothari et al. (1995Kothari, S. P., Shanken, J., & Sloan, R. (1995). Another look at the cross-section of expected stock returns. The Journal of Finance , 50(185), 185-224.), há pelo menos três razões para o uso de retornos de intervalo de medição mais longos em testes de precificação de ativos: (i) o CAPM não fornece orientações explícitas sobre a escolha do intervalo para avaliação do poder explicativo do beta; (ii) o uso de retornos de intervalo mais longo atenua vieses nas estimativas de beta devido a fricções de negociação e negociações assíncronas; (iii) utilizar dados anuais é uma maneira de contornar as complicações estatísticas criadas pela sazonalidade nos retornos mensais.

Dada a menor disponibilidade de dados anuais (ou seja, menor tamanho de amostra), nossos testes baseiam-se no período mais longo de 1927 a 2012, produzindo séries temporais de 86 observações. As estimativas dos dados mensais são baseadas no período de julho/1963 a dezembro/1991, como em Fama e French (1993Fama, E. F., & French, K. R. (1993). Common risk factors in the returns of stocks and bonds. Journal of Financial Economics, 33(1), 3-56.).

O CAPM estimado e os modelos de três fatores seguem as especificações das equações 12 e 13, respectivamente:

r i , t - r f , t = a i + b i r M , t - r f , t + ε i , t ; i = 1 , , 25 ; t = 1 , , T . (12)

r i , t - r f , t = a i + b i r M , t - r f , t + s i S M B t + h i H M L t + ε i , t i = 1 , , 25 ; t = 1 , , T . (13)

em que T = 86 para dados anuais e T = 342 para dados mensais.

No modelo de fator único, as estimativas de intercepto do FSW obtidas para cada carteira individual com dados mensais são semelhantes às obtidas por Fama e French (1993Fama, E. F., & French, K. R. (1993). Common risk factors in the returns of stocks and bonds. Journal of Financial Economics, 33(1), 3-56.) com o OLS. Os sinais das 25 estimativas de intercepto são idênticos nos dois métodos, e todos os interceptos significativos (|estatística t|> 2) obtidos com o OLS são significativos quando estimados com o FSW.

As estimativas do FSW de três fatores também são semelhantes às obtidas com o OLS. Todas as 4 estatísticas t com valores absolutos maiores que 2 obtidas com OLS também apresentaram valores absolutos maiores que 2 quando estimadas com o FSW. Além disso, os valores absolutos das estatísticas t de duas dessas carteiras são consideravelmente mais altos quando estimados com o FSW. Ademais, uma carteira adicional apresenta estatísticas t com valor absoluto maior que 2 quando o FSW é utilizado. No geral, os resultados baseados em testes t independentes sugerem um poder explicativo pior do modelo de três fatores quando se utilizam estimativas robustas.

As figuras 1 e 2 mostram resultados adicionais obtidos ao aplicar o FSW em dados anuais, a saber, os pesos atribuídos a cada observação do conjunto de dados e os resíduos estudentizados das observações, juntamente com os envelopes de simulação.

Figura 1.
Pesos atribuídos pelo forward search ponderado (FSW): Carteira 2, modelo de três fatores

A Figura 1 apresenta o peso wi - definido na equação 9 - de cada observação, obtido como resultado do procedimento de estimativa ponderada. Os resultados mostram que 7 observações, isto é, as observações 6, 7, 9, 10, 12, 13 e 17, tiveram seus pesos severamente reduzidos pelo FSW, enquanto outras duas, as observações 1 e 2, receberam pesos entre 0,2 e 0,6. A redução observada do peso resulta do fato de essas observações se encontrarem fora dos limites dos envelopes da simulação durante a busca.

A Figura 2 mostra a distribuição dos resíduos estudentizados ordenados quando m* = 77, isto é, quando a busca é interrompida.

Figura 2.
Resíduos estudentizados ordenados e envelopes de simulação

As curvas sólidas superior e inferior representam os limites do envelope de simulação. Existem 9 observações situadas fora do envelope inferior, na parte inferior esquerda do gráfico, corroborando os resultados apresentados na Figura 1. Essas 9 observações são as que apresentam os pesos mais baixos na Figura 1. Quanto maior a distância de uma observação da a maior parte dos dados - situada dentro dos limites do envelope - menor o seu peso.

4.2.1 Observações influentes

Nesta seção, analisamos as observações que tiveram o peso reduzido pelo FSW. A Figura 3 mostra a “discrepância” [“outlyingness”] média - definida como um menos wi obtido de acordo com a equação 9 - de cada observação nas 25 carteiras para dados mensais.

Figura 3.
Discrepância média nas 25 carteiras: dados mensais

Quanto maior a barra de uma observação na Figura 3, maior o seu grau de discrepância. Três conclusões podem ser obtidas imediatamente a partir da Figura 3: (i) a discrepância média é maior na configuração de fator único do que na de três fatores; (ii) as observações mais discrepantes na configuração de três fatores também mostram um alto grau de discrepância na configuração de fator único, ou seja, há observações influentes comuns nas carteiras em ambas as configurações; (iii) existe um cluster de observações influentes por volta do ano de 1974.

As quatro observações mais discrepantes (barras mais altas) em ambas as configurações são circunscritas ao período de setembro de 1973 a janeiro de 1976. Curiosamente, o período corresponde à conhecida quebra do mercado de ações de 1973-1974 (ver Shiller [2015Shiller, R. (2015). Irrational exuberance. Princeton, NJ: Princeton University Press.]).

Vale ressaltar que nem todas as observações identificadas como influentes estão relacionadas a valores extremos de um fator específico (variável dependente). Por exemplo, fevereiro de 1976, que é a quarta e a sétima observação mais discrepante, respectivamente, nas configurações de fator único e de três fatores, corresponde apenas a um retorno em excesso de mercado de 0,32%. Além disso, o valor mais extremo do retorno em excesso de mercado - que é de 23,24% e corresponde a outubro de 1987 - não está entre as dez observações mais influentes.

A Figura 4 mostra a discrepância média de cada observação nas 25 carteiras para dados anuais.

Figura 4.
Discrepância media nas 25 carteiras: dados anuais

Ao contrário da Figura 3, agora o modelo de três fatores mostra uma discrepância média mais elevada do que na configuração de fator único. A Figura 4 revela a presença de grupos de observações influentes: por volta de 1933 e por volta de 2000, que correspondem, respectivamente, ao final da recessão de quatro anos após a quebra da bolsa de 1929 (1935 e 1936 correspondem à implementação Política do New Deal, de Franklin Roosevelt) e ao colapso da bolha das empresas “.com”. Uma comparação entre as figuras 3 e 4 sugere que os fatores SMB e HML são capazes de explicar retornos extremos, que são considerados outliers em uma configuração de fator único para dados mensais, mas não para dados anuais.

Embora o ano de 1933, da observação mais discrepante, seja de fato o retorno em excesso mais extremo do fator 1, o ano de 1954 - segundo retorno mais extremo - não se destaca como um ano discrepante.

Nossos resultados também corroboram os achados de Knez e Ready (1997Knez, P., & Ready, M. (1997). On the robustness of size and book-to-market in cross-sectional regressions. The Journal of Finance , 52(4), 1355-1382.) e Bailer (2005Bailer, H. M. (2005). Robust estimation of factor models in finance (Tese de Doutorado). University of Washington, Washington.) de que janeiro é, de fato, um mês influente. Na configuração de fator único, a discrepância média do mês de janeiro nas 25 carteiras é 3,6 vezes a discrepância média de outubro, o segundo mês mais discrepante, enquanto na configuração de três fatores, a discrepância média do mês de janeiro é 1,43 vezes a discrepância média de setembro, o segundo mês mais discrepante.

4.2.2 Testes GRS

Para testar se todos os interceptos são conjuntamente iguais a 0, calculamos as estatísticas GRS (1989) e os valores-p. Os resultados são apresentados na Tabela 3.

Tabela 3.
Teste de Gibbons Ross Shanken (GRS): dados mensais e anuais

Os resultados relativos aos dados mensais indicam que o modelo de três fatores - estimado com OLS - é marginalmente rejeitado ao nível de 0,95, enquanto o CAPM é rejeitado ao nível de 0,99, concordando com os resultados de Fama e French (1993Fama, E. F., & French, K. R. (1993). Common risk factors in the returns of stocks and bonds. Journal of Financial Economics, 33(1), 3-56.). Nossos resultados também mostram que a utilização de estimativas robustas obtidas com o FS leva a um aumento do nível de rejeição de ambos os modelos. Em particular, o nível de rejeição do modelo de três fatores muda de 0,9620 para 0,9979.

Utilizando-se dados anuais, não há diferença significativa entre o uso de OLS ou de estimativas robustas tanto no modelo de fator único quanto no de três fatores, mas as estimativas robustas aumentam o nível de rejeição do modelo de fator único e diminuem o nível de rejeição do modelo de três fatores.

5. CONSIDERAÇÕES FINAIS

Nosso objetivo neste artigo é avaliar o impacto de outliers na estimativa de modelos de precificação de ativos e em testes estatísticos associados. Para isso, propomos um novo estimador robusto ponderado, que foi desenvolvido e aplicado para a estimativa de modelos de precificação de ativos. A comparação entre os desempenhos do FSW, OLS e LTS em dados simulados indica que o método FSW fornece estimativas mais confiáveis ​​na presença de outliers, ao mesmo tempo em que é quase tão eficiente quanto o OLS quando os dados são livres de outliers. Deve-se notar também que a precisão das estimativas de interceptos aumenta muito quando os métodos FS são utilizados ​​em dados contaminados.

Uma contribuição da pesquisa é a aplicação do FSW - eficiente e robusto - às 25 carteiras de Fama e French (1993Fama, E. F., & French, K. R. (1993). Common risk factors in the returns of stocks and bonds. Journal of Financial Economics, 33(1), 3-56.), que são uma referência frequentemente utilizada na literatura. O FSW nos permitiu identificar que muitas dessas carteiras contêm observações discrepantes, tanto nas configurações de modelo único quanto nas de três fatores. Os níveis de rejeição nos testes GRS aumentaram com a utilização de estimativas robustas, indicando que a rejeição marginal do modelo de três fatores é influenciada pela presença de outliers nas carteiras. Isso está de acordo com pesquisas anteriores, que indicam que as estimativas dos modelos de precificação de ativos são altamente sensíveis a alguns retornos influentes.

Outra contribuição deste trabalho é a estimativa do modelo de três fatores de Fama e French (1993Fama, E. F., & French, K. R. (1993). Common risk factors in the returns of stocks and bonds. Journal of Financial Economics, 33(1), 3-56.) em dados anuais. Nossos resultados indicam que o modelo não apresenta um desempenho tão bom quanto nos dados mensais na explicação da secção transversal dos retornos esperados. Além disso, mais observações discrepantes são detectadas no modelo de três fatores do que no CAPM de fator único. Isso contrasta com nossos resultados em dados mensais. Os resultados dos testes GRS apóiam a rejeição da hipótese de que os interceptos das carteiras sejam conjuntamente 0, tanto para o CAPM quanto para o modelo de três fatores.

Também fornecemos evidências de que algumas observações são comumente consideradas outliers, tanto no modelo único quanto no de três fatores. É possível relacionar essas observações a eventos particularmente relevantes da economia, como quebras do mercado financeiro, crises econômicas e bolhas de preços de ativos. Essa é uma direção que deve ser mais explorada.

As limitações da pesquisa incluem o pressuposto de que os coeficientes beta e os premiums de risco são constantes ao longo do tempo. Esses pressupostos poderiam ser relaxados, e poder-se-ia explorar até que ponto os resultados do CAPM condicional, como os apresentados por Jagannathan e Wang (1996Jagannathan, R., & Wang, Z. (1996). The Conditional CAPM and the cross-section of expected returns. The Journal of Finance , 51(1), 3-53.), são influenciados pela presença de outliers.

Outro caminho possível e promissor para pesquisas futuras seria estender os trabalhos de Jensen (1967Jensen, M. C. (1967). The performance of mutual funds in the period 1945-1964. Journal of Finance , 23(2), 389-416.) e Carhart (1997Carhart, M. M. (1997). On persistence in mutual fund performance. The Journal of Finance, 52(1), 57-82.) sobre o desempenho de fundos mútuos.

REFERENCES

  • Atkinson, A. C. (1981). Two graphical displays for outlying and influential observations in regression. Biometrika, 68(1), 13-20.
  • Atkinson, A. C. (1994). Fast very robust methods for the detection of multiple outliers. Journal of the American Statistical Association, 89(428), 1329-1339.
  • Atkinson, A. C., & Riani, M. (2000). Robust diagnostic regression analysis. New York, NY: Springer-Verlag.
  • Atkinson, A. C., & Riani, M. (2006). Distribution theory and simulations for tests of outliers in regression. Journal of Computational and Graphical Statistics, 15(2), 460-476.
  • Atkinson, A. C., Riani, M., & Cerioli, A. (2004). Exploring multivariate data with the forward search. New York, NY: Springer-Verlag .
  • Atkinson, A. C., Riani, M., & Cerioli, A. (2006). Random start forward searches with envelopes for detecting clusters in multivariate data. In Zani, S., Cerioli, A., Riani, M., & Vichi M. (Eds.). Data analysis. Classification and the forward search (pp. 163-171). Berlin: Springer-Verlag.
  • Bailer, H. M. (2005). Robust estimation of factor models in finance (Tese de Doutorado). University of Washington, Washington.
  • Black, F., Jensen, M. C., & Scholes, M. (1972). The Capital Asset Pricing Model: Some empirical tests. Studies in the theory of capital marketsNew York, NY: Praeger.
  • Bowie, D. C., & Bradfield, D. J. (1998). Robust estimation of beta coefficients: Evidence from a small stock market. Journal of Business Finance & Accounting, 25(3, 4), 439-454.
  • Carhart, M. M. (1997). On persistence in mutual fund performance. The Journal of Finance, 52(1), 57-82.
  • Chan, L. K. C., & Lakonishok, J. (1992). Robust measurement of beta risk. The Journal of Financial and Quantitative Analysis27(2), 265-282.
  • Cochrane, J. H. (2001). Asset pricing. Princeton, NJ: Princeton University Press.
  • Cornell, B., & Dietrich, J. K. (1978). Mean-absolute-deviation versus least-squares regression estimation of beta coefficients. The Journal of Financial and Quantitative Analysis, 13(1), 123-131.
  • Crosato, L., & Grossi, L. (2017). Correcting outliers in GARCH models: A weighted forward approach. Statistical Papers, 1-32.
  • Da, Z., Guo, R.-J., & Jagannathan, R. (2012). CAPM for estimating the cost of equity capital: Interpreting the empirical evidence. Journal of Financial Economics103(1), 204-220.
  • Fama, E. F., & French, K. R. (1992). The cross-section of expected stock returns. Journal of Finance, 47(2), 427-465.
  • Fama, E. F., & French, K. R. (1993). Common risk factors in the returns of stocks and bonds. Journal of Financial Economics, 33(1), 3-56.
  • Fama, E. F., & French, K. R. (1996). Multifactor explanations of asset pricing anomalies. The Journal of Finance, 51(1), 55-84.
  • Fama, E. F., & French, K. R. (2008). Dissecting anomalies. The Journal of Finance , 63(4), 1653-1678.
  • Fama, E. F., & MacBeth, J. D. (1973). Risk, return, and equilibrium: Empirical tests. The Journal of Political Economy, 81(3), 607-636.
  • Flack, V., & Flores, R. (1989). Using simulated envelopes in the evaluation of normal probability plots of regression residuals. Technometrics, 31(2), 219-225.
  • Gibbons, M. R., Ross, S. A., & Shanken, J. (1989). A test of the efficiency of a given portfolio. Econometrica, 57 (5), 1121-1152.
  • Graham, J. R., & Harvey, C. R. (2001). The theory and practice of corporate finance: Evidence from the field. Journal of Financial Economics, 60(2, 3)187-243.
  • Grossi, L., & Laurini, F. (2009). A robust forward weighted Lagrange multiplier test for conditional heteroscedasticity. Computational Statistics and Data Analysis, 53(6), 2251-2263.
  • Grossi, L., & Laurini, F. (2011). Robust estimation of efficient mean-variance frontiers. Advanced Data Analysis and Classification, 5(1), 3-22.
  • Hadi, A. S. (1992). Identifying multiple outliers in multivariate data. Journal of the Royal Statistical Society B, 54(3), 761-771.
  • Hadi, A. S. (1994). A modification of a method for the detection of outliers in multivariate samples. Journal of the Royal Statistical Society B, 56(2), 393-396.
  • Hadi, A. S., & Simonoff, J. S. (1993). Procedures for the identification of multiple outliers in linear models. Journal of the American Statistical Association, 88(424), 1264-1272.
  • Huber, P., & Ronchetti, E. (2009). Robust statistics (2a. ed.). Hoboken, NJ: John Wiley & Sons.
  • Jagannathan, R., & Wang, Z. (1996). The Conditional CAPM and the cross-section of expected returns. The Journal of Finance , 51(1), 3-53.
  • Jensen, M. C. (1967). The performance of mutual funds in the period 1945-1964. Journal of Finance , 23(2), 389-416.
  • Knez, P., & Ready, M. (1997). On the robustness of size and book-to-market in cross-sectional regressions. The Journal of Finance , 52(4), 1355-1382.
  • Kothari, S. P., Shanken, J., & Sloan, R. (1995). Another look at the cross-section of expected stock returns. The Journal of Finance , 50(185), 185-224.
  • Lintner, J. (1965). The valuation of risk assets and the selection of risky investments in stock portfolios and capital budgets. Review of Economics and Statistics, 47 (1), 13-37.
  • Mandelbrot, B. (1963). The variation of certain speculative prices. Journal of Business, 36(1), 3-27.
  • Merton, R. (1976). Option pricing when underlying stock returns are discontinuous. Journal of Financial Economics , 3(1), 125-144.
  • Riani, M. , Atkinson, A. C., & Cerioli, A. (2009). Finding an unknown number of multivariate outliers. Journal of the Royal Statistical Society, 71(2), 4-466.
  • Roll, R. (1988). R²The Journal of Finance, 43(3), 541-566.
  • Ross, S. A. (1976). The arbitrage theory of capital asset pricing. Journal of Economic Theory, 13(3), 341-360.
  • Rousseeuw, P. J., & Leroy, A. M. (1987). Robust regression and outlier detection. New York, NY: John Wiley & Sons.
  • Sharpe, W. F. (1963). A simplified model for portfolio analysis. Management Science, 9(2), 277-293.
  • Sharpe, W. F. (1964). Capital asset prices: A theory of market equilibrium under conditions of risk. Journal of Finance , 19(3), 425-442.
  • Sharpe, W. F. (1971). Mean-absolute-deviation characteristic lines for securities and portfolios. Management Science , 18(2), 1-13.
  • Shiller, R. (2015). Irrational exuberance. Princeton, NJ: Princeton University Press.
  • *
    Artigo apresentado no XLIII Encontro da ANPAD, São Paulo, SP, Brasil, outubro de 2017.

Datas de Publicação

  • Publicação nesta coleção
    31 Jan 2020
  • Data do Fascículo
    Sep-Dec 2020

Histórico

  • Recebido
    18 Fev 2019
  • Revisado
    18 Mar 2019
  • Aceito
    06 Set 2019
Universidade de São Paulo, Faculdade de Economia, Administração e Contabilidade, Departamento de Contabilidade e Atuária Av. Prof. Luciano Gualberto, 908 - prédio 3 - sala 118, 05508 - 010 São Paulo - SP - Brasil, Tel.: (55 11) 2648-6320, Tel.: (55 11) 2648-6321, Fax: (55 11) 3813-0120 - São Paulo - SP - Brazil
E-mail: recont@usp.br