Universidade do Estado do Rio de Janeiro Centro Biomédico Instituto de Biologia Roberto Alcântara Gomes

Lélis Antonio Carlos Júnior

Análise da variação na composição das comunidades marinhas dos costões rochosos da Baía da Ilha Grande e investigação dos potenciais agentes promotores da biodiversidade.

Rio de Janeiro 2017

Lélis Antonio Carlos Júnior

Análise da variação na composição das comunidades marinhas dos costões rochosos da Baía da Ilha Grande e investigação dos potenciais agentes promotores da biodiversidade.

Tese apresentada como requisito parcial para obtenção do grau de Doutor ao Programa de Pós Graduação em Ecologia e Evolução da Universidade do Estado do Rio de Janeiro.

Orientador: Prof. Dr. Joel Christopher Creed Coorientadores: Prof. Dr. Timothy Peter Moulton Prof. Dr. Matthew Spencer

Rio de Janeiro 2017

CATALOGAÇÃO NA FONTE UERJ / REDE SIRIUS / BIBLIOTECA CTC-A

C284 Carlos Junior, Lélis Antonio. Tese Análise da variação na composição das comunidades marinhas dos costões rochosos da Baía da Ilha Grande e investigação dos potenciais agentes promotores da biodiversidade / Lélis Antonio Carlos Júnior. – 2017. 201 f. : il. Orientador: Joel Christopher Creed Coorientadores: Timothy Peter Moulton e Matthew Spencer. Tese (Doutorado em Ecologia e Evolução) - Universidade do Estado do Rio de Janeiro, Instituto de Biologia Roberto Alcântara Gomes. 1. Biodiversidade marinha - Ilha Grande, Baia de (RJ) - Teses. I. Creed, Joel Christopher. II. Mounton, Timothy Peter. III. Spencer, Mathew. IV. Universidade do Estado do Rio de Janeiro. Instituto de Biologia Roberto Alcantara Gomes. III. Título. CDU 574(815.3)

Rinaldo Magallon – CRB-7/5016 – Responsável pela elaboração da ficha catalográfica.

Autorizo para fins acadêmicos e científicos, a reprodução total ou parcial desta tese, desde que citada a fonte.

______Assinatura Data

Lélis Antonio Carlos Júnior

Análise da variação na composição das comunidades marinhas dos costões rochosos da Baía da Ilha Grande e investigação dos potenciais agentes promotores da biodiversidade. Tese apresentada como requisito parcial para a obtenção do grau de Doutor ao Programa de Pós-Graduação em Ecologia e Evolução da Universidade do Estado do Rio de Janeiro. Aprovada em __ de ______de 2017.

Orientador: ______Prof. Dr. Joel Christopher Creed Instituto de Biologia Roberto Alcântara Gomes - UERJ

Banca Examinadora:

______Profª. Dra. Eugenia Zandoná Instituto de Biologia Roberto Alcantara Gomes - UERJ

______Prof. Dr. Bruno Henrique Pimentel Rosado Instituto de Biologia Roberto Alcantara Gomes - UERJ

______Prof. Dr. Jean Louis Valentin Universidade Federal do Rio de Janeiro

______Prof. Dr. Roberto Campos Villaça Universidade Federal Fluminense

Rio de Janeiro 2017

DEDICATÓRIA

Aos meus pais e aos pais (e mães) deles, sempre. À Lalada que se foi, mas, como toda flor, deixou seu perfume.

AGRADECIMENTOS

Em primeiro lugar, mais uma vez preciso agradecer aos meus pais. Minha mãe pela dedicação ininterrupta e amor incondicional, que agora se estende à netinha, e meu pai por todo o apoio e conselhos que só um pai pode prover. Obrigado de novo. Sem vocês nada teria acontecido.

Aos tios/tias, primos/primas, sogro/sogra e cunhado/cunhada muito obrigado pela força e preocupação. À minha avó, que torce tanto por mim, mesmo sem saber no que. À minha irmã, obrigado pelo companheirismo (nem sempre tão amigável, mas sempre sincero) e pela Alice, que deu outra luz à vida dessa família. Fechando a família, agradeço a Biba por ter estado presente (inclusive agora) durante boa parte da escrita dessa tese, deitada sobre meu pé e (quase) sempre sem interesse em ganhar um petisco em troca.

Agradeço a Rayssa pelo amor e pelo apoio em todas as minhas decisões, mesmo aquelas que tornam tudo tão mais difícil para nós dois. Te amo.

Aos meus orientadores. Joel pelos incentivos, ensinamentos e até pelo empréstimo de um quarto mais recentemente (obrigado também Arthur!). Tim pelas conversas inspiradoras, conselhos amigáveis e pelos artigos que tantas vezes me envia, preocupado. Matt pela hospitalidade, por tornar a vida em um país estranho mais fácil, pelo empréstimo do piano e, principalmente, por incutir em mim a semente do ceticismo crítico em tudo que faço e não tomar nada como certo.

Aos membros da banca Eugenia, Bruno, Jean e Roberto por tão gentilmente aceitarem a tarefa de revisarem um texto às vésperas do carnaval, enquanto muitos estão descansando. Agradeço a Eugenia pela revisão dupla, sobretudo por ter tempo de fazê-lo nesse momento!

Aos co-autores de todos os artigos que deram origem a esse trabalho.

Aos amigos da UERJ, agradeço por tudo sem citar nomes para não cometer injustiças.

Aos professores, em especial Bia, Maja e Bruno pelas ideias trocadas. À Gisele, por além de tudo não ter me deixado desistir no início do doutorado e ter me dado tanto suporte.

Aos amigos do Lab ECOLMAR, em especial Amanda, Marcelo, Fernanda, Juliana e Larissa que me ajudaram bastante, principalmente resolvendo pepinos enquanto estive fora. Aos amigos do Rio, Byron e Fernando pela camaradagem. Ao Alexandre e Gabi pela ajuda e apoio nos momentos difíceis.

Aos companheiros de vida da biologia da UFMG, valeu demais por estarem sempre me lembrando que não devemos nos levar tão a sério. Um abraço em especial aos mais próximos Xexéu (a.k.a. Menotti 1), Goiarirairaira (a.k.a. Menotti 2), Pedrão (a.k.a Menotti 3, Rata, Donyzetti, Pepa e Gordo na Noruega), Manguaça e Pomarola.

Aos amigos de Liverpool, sem exceção: Jon, Kate, Rob, Kath, Clare, James, Steph, Alice, Maddie... Em especial, muito obrigado a Olive pela amizade, horas compartilhadas na cozinha e até abrigo, Ananza & Wallace pelas risadas e ajuda, Gabriel pelos passeios de bike, Fiona pelas aulas de direção, Becky por ouvir a mesma apresentação mil vezes, Dave e Marcelo pelos debates futebolísticos, Tom pelas ideias e por me ensinar sobre rugby, Ricardo por ser um amigo para todas as horas, Vicky pela aula de surfe que nunca houve, Hannah por não me deixar sem falar português e Ruth por fazer companhia no turno da noite.

Às agências de financiamento, CAPES e CNPq pelas bolsas de doutorado e doutorado sanduíche.

À secretaria do PPGEE, Sônia e Verusca, por tantos pepinos causados, mas todos devidamente compensados com chocolate (espero eu).

A todos que contribuíram diretamente, indiretamente ou apenas perguntando se eu só estudava ou trabalhava também, dedico este TRABALHO a todos.

RESUMO CARLOS-JÚNIOR, Lélis Antonio. Análise da variação na composição das comunidades marinhas dos costões rochosos da Baía da Ilha Grande e investigação dos potenciais agentes promotores da biodiversidade. 2017. 201f. il. Tese (Doutorado em Ecologia e Evolução) - Instituto Roberto Alcântara Gomes, Universidade do Estado do Rio de Janeiro, 2014. O que faz comunidades ecológicas serem diferentes dentro de uma metacomunidade? Compreender os mecanismos causadores da variação da biodiversidade persiste como desafio. Além disso, os estudos de sistemas marinhos em geral são tradicionalmente defasados em relação aos sistemas terrestres, mais acessíveis e investigados há mais tempo. A questão dos agentes promotores da variação entre comunidades locais, incialmente denominada diversidade beta (β), foi historicamente atrelada à da teoria de nicho. Nela, as comunidades eram associações de espécies determinadas por condições ambientais dos habitats e interações bióticas. Este conjunto de condições definiriam assim quais espécies seriam capazes de ocupar quais regiões e em qual extensão, de forma a minimizar sobreposições entre os nichos das espécies de uma mesma região. Posteriormente, tanto a influência de outros processos locais não ligados ao nicho, como a extinção local aleatória, como de fatores alheios à comunidade local e ligados à escala regional, por exemplo a imigração, foram também incorporados à explicação da estruturação das comunidades. Buscou-se compreender melhor a biodiversidade marinha dos costões rochosos da Baía da Ilha Grande (BIG), bem como investigar a ação de processos, ligados ou não ao nicho das espécies, para explicar os mecanismos que levam à diversidade beta entre locais estudados. A presença/ausência de 773 espécies em seis grupos taxonômicos: macroalgas bentônicas (110 espécies), (26), Echinodermata (27), Crustacea (61), Mollusca (374) e peixes recifais (175) coletados na BIG anteriormente foi utilizada para responder tais questões. Primeiramente, demonstrou-se que as comunidades marinhas da BIG apresentam alta taxa de variação entre os locais e que tal variação observada é marcada principalmente pela substituição de espécies em um gradiente espacial. Padrões de substituição de espécies podem estar ligados à ação de gradientes ambientais ou processos estocásticos. Por isso, a ação das mudanças nas condições ambientais sobre as variações na composição das comunidades foi investigada através da utilização de regressões logísticas. Ficou demonstrado que as variações nas comunidades de organismos bentônicos de substrato consolidado e peixes recifais eram parcialmente estruturadas pela profundidade e que tais comunidades eram divididas em um gradiente Leste-Oeste. Enquanto isso, a variações em organismos de substrato não consolidado não respondiam a qualquer variável explanatória disponível. Para todos os grupos, no entanto, a maior parte da variação não pode ser explicada. Na sequência, com o auxílio dos métodos de randomização de matrizes, foi possível constatar que a competição não é um dos fatores determinantes na composição das comunidades, embora esteja presente em casos específicos. Na maioria das vezes os locais amostrados não diferiram do esperado ao acaso quanto ao número de espécies compartilhadas, o que significa que tais locais não são mais distintos do que o esperado ao acaso. Em suma, foi possível constatar que a maior parte da variação das comunidades marinhas da BIG parece variar de maneira estocástica. Uma alternativa ao uso das análises canônicas em estudos de comunidade foi testada e demonstrou melhor desempenho. Palavras-chave: Ecologia de Comunidades. Modelos nulos e determinísticos. Baía da Ilha Grande.

ABSTRACT

CARLOS-JÚNIOR, Lélis Antonio. An assessment of the variation of composition in marine rocky shore communities in Ilha Grande Bay and the potential drivers of biodiversity change. 2017. 201f. il. Tese (Doutorado em Ecologia e Evolução) – Instituto Roberto Alcantara Gomes, Universidade do Estado do Rio de Janeiro, 2014. What makes communities different within a metacommunity? Understanding the drivers of biodiversity variation remains a challenge. Moreover, marine systems are usually understudied when compared to their terrestrial counterparts, which, being more accessible, have been investigated for much longer. The question around the mechanisms underpinning community variation within a system, called beta diversity (β), has been historically linked to the development of niche theory. The communities were considered species associations controlled mainly by the environmental conditions and biotic interactions found at the site. Therefore, this set of conditions was thought to restrict which species were capable of getting established and thrive in which regions in a way that minimise niche overlapping. Later, the influence of other local factors not related to niche, such as local random extinction, as well as processes not connected to the local communities but rather dependent on regional- scale constrictions, like immigration, were recognise as further drivers of diversity. It was our goal to better understand the marine rocky shore community structure from Ilha Grande Bay (BIG in the Portuguese acronym), Brazil, and relate the observed patterns to their potential causes, whether linked to niche or not. The presence/absence data from 773 species of six taxonomic groups, benthic macroalgae (110 species), Cnidaria (26), Echinodermata (27), Crustacea (61), Mollusca (374) and reef fish (175) previously collected in the bay, was used to address those questions. First, it was shown that marine communities in BIG had a high variation rate between sites (β diversity) and such variation was mainly due to species turnover in the spatial gradient. Turnover patterns are usually related to the submission of the species’ distributions to environmental gradients or stochastic processes. Thus, we assessed how change in the environmental condition acted upon these communities’ variation using logistic regression in a Generalised Linear Models (GLMs) approach. It was demonstrated that variation in the hard bottom benthic species and reef fish communities could be partially explained by depth differences across the bay, making these communities depict a big scale east-west gradient. Meanwhile, variation in soft bottom organisms’ communities could not be explained by any given environmental variable. For all six taxonomic groups, most of variation also remained unexplained. After this, using algorithms capable of generating matrix randomisations it was possible to verify that competition was not one of the key factors driving community composition, although it was observed for some specific situations. Furthermore, most of the sites sampled did not differ from random expectations in regard of number of shared species between sites, meaning they were no more different than expected by chance. In summary, it was possible to find that most of variation among these marine rocky shore communities at BIG could not be explained by any measured deterministic driver and apparently change in community composition is random at this scale. An alternative to the usage of the traditional canonical analysis for community ecology studies was tested and was found to perform better. Key-words: Community Ecology. Null and deterministic models. Ilha Grande Bay.

LISTA DE TABELAS

Tabela 1: Diversidade beta total e componentes aninhamento e substituição ...... 33

Tabela 2 - Variáveis selecionadas para os modelos Ambiental (MA) e espacial (ME) para cada um dos seis grupos taxonômicos amostrados na Baía da Ilha grande...... 50

Tabela 3 - Resultados da randomização executada pelos métodos curve ball e trial-swap ...... 62

Tabela 4 - Descrição dos pares de espécies que co- ocorrerram na Baía da Ilha Grande com menor frequência que o esperado ao acaso ...... 65

Tabela 5 - Pares de locais que compartilharam menos espécies que o esperado ao acaso na Baía da Ilha Grande ...... 69

Tabela 6 - Possíveis cenários para simulação dos três conjuntos de dados ...... 80

Tabela 7 - Proporções de acertos e erros do Tipo I e II para os métodos GLM/AIC e RDA/FW ...... 85

LISTA DE FIGURAS

Figura 1 - Mapa da Baía da Ilha Grande com pontos amostrados ...... 21

Figura 2 - Características ambientais da Baía da Ilha Grande ...... 22

Figura 3 - Curvas de acumulação das espécies ...... 27

Figura 4 - Riqueza e Singularidade dos grupos marinhos da Baía da Ilha Grande ...... 30

Figura 5 - Gráficos triangulares da diversidade beta dos grupos marinhos da Baía da Ilha Grande ...... 33

Figura 6 - Riqueza e Singularidade de corais sem espécies exóticas ...... 36

Figura 7 - Esquema de construção do método PCNM ...... 46

Figura 8 - Ganho em variação explicada de cada um dos modelos testados para organismos marinhos da Baía da Ilha Grande ...... 49

Figura 9 – Análise dos Componentes Principais (PCA) das variáveis ambientais da Baía da Ilha Grande...... 50

Figura 10 - Profundidade e Fosfato na Baía da Ilha Grande ...... 50

Figura 11 - Estruturações espaciais das comunidades marinhas da Baía da Ilha Grande ...... 51

Figura 12 - Distribuição de Corbula sp. e Chrysallida somersi na Baía da Ilha Grande 66

Figura 13 - Distribuição dos pares de peixes que apresentaram competição interespecífica na Baía da Ilha Grande ...... 66

Figura 14 - Conexões entre os 34 pares de locais que compartilhavam menos espécies que o esperado ao acaso na Baía da Ilha Grande ...... 70

Figura 15 - Comparação dos desempenhos gerais entre os métodos GLM/AIC e RDA/FW ...... 82

Figura 16 - Comparação dos desempenhos entre os métodos GLM/AIC e RDA/FW sob diferentes condições de escala espacial ...... 86

SUMÁRIO

INTRODUÇÃO GERAL: OS PROCESSOS QUE CONTROLAM (OU NÃO) A COMPOSIÇÃO DAS COMUNIDADES ECOLÓGICAS ...... 14 1 OS PAPÉIS RELATIVOS DA PERDA E SUBSTITUIÇÃO DE ESPÉCIES E SINGULARIDADE NAS COMUNIDADES DOS COSTÕES ROCHOSOS DA BAÍA DA ILHA GRANDE ...... 18 1.1 Introdução ...... 18 1.2 Materiais e Métodos ...... 20 1.2.1 Área de estudo ...... 20 1.2.2 Coleta de dados ...... 23 1.2.3 Definindo áreas “únicas” ...... 25 1.2.4 Aninhamento × substituição como componentes da diversidade beta ...... 26 1.3 Resultados...... 26 1.3.1 Geral ...... 26 1.3.2 Padrões de riqueza e singularidade por grupo taxonômico ...... 35 1.4 Discussão...... 37

2 OS AGENTES DETERMINANTES DA DIVERSIDADE BETA NAS COMUNIDADES DE COSTÕES ROCHOSOS DA BAÍA DA ILHA GRANDE . 42 2.1 Introdução ...... 42 2.2 Métodos...... 43 2.2.1 Área de estudo e coleta de dados ...... 43 2.2.2 Variáveis ambientais ...... 44 2.2.3 Descritores espaciais: o modelo PCNM ...... 44 2.2.4 Modelando os agentes Ambientais e Espaciais da variação nas comunidades da BIG ...... 47 2.3 Resultados...... 48 2.4 Discussão...... 54

3 INVESTIGAÇÃO DO PAPEL DA COMPETIÇÃO INTERESPECÍFICA E DA ESTOCASTICIDADE NA ESTRUTURAÇÃO DAS COMUNIDADES MARINHAS DA BAÍA DA ILHA GRANDE ...... 58 3.1 Introdução ...... 58 3.2 Métodos...... 61 3.2.1 Duas maneiras de se computar matrizes nulas ...... 61

3.2.2 Gerando matrizes binárias nulas para os dados de presença/ausência da BIG ...... 63 3. 3 Resultados...... 64 3.4 Discussão...... 70

4 MODELOS LINEARES GENERALIZADOS (GLMs) SUPERAM EM DESEMPENHO O MÉTODO COMUMEMNTE UTILIZADO DE ANÁLISE CANÔNICA PARA ESTIMAR ESTRUTURA ESPACIAL DE DADOS DE PRESENÇA/AUSÊNCIA ...... 75 4.1 Introdução ...... 75 4.2 Materiais e Métodos ...... 77 4.2.1 Dados das comunidades originais ...... 77 4.2.2 Simulando comunidades com estrutura espacial pré-estabelecida ...... 78 4.2.3 RDA e GLM ...... 80 4.2.4 Comparando a seleção de modelos dos métodos RDA e GLM...... 81 4.3 Resultados...... 82 4.4 Discussão...... 87

DISCUSSÃO E CONCLUSÃO GERAIS ...... 90 REFERÊNCIAS...... 96

APÊNDICE A – LISTA DE VARIÁVEIS FÍSICO-QUÍMICAS COLETADAS NA BAÍA DA ILHA GRANDE ...... 105

APÊNDICE B – EDIÇÃO DE PCNMs E MEMs PARA DADOS CONTENDO DISTÂNCIAS SUBAQUÁTICAS...... 106

APÊNDICE C – ROTINA PARA ANÁLISES DE GENERALISED LINEAR MODELS (GLMs) PARA DADOS DE COMPOSIÇÃO DE ESPÉCIES ...... 108

APÊNDICE D – ROTINA PARA ALEATORIZAÇÃO DAS MATRIZES DE COMUNIDADE DO CAPÍTULO 3 ...... 110

APÊNDICE E – EXEMPLOS DE ESTRUTURA DOS RESÍDUOS DE REGRESSÃO UTILIZANDO- SE O ARCABOUÇO RDA OU GLM ...... 114

APÊNDICE F – ROTINA PARA SIMULAÇÕES DE COMUNIDADES COM ESTRUTURA ESPACIAL CONHECIDA PARA COMPARAÇÃO DOS MÉTODOS RDA vs. GLM DO CAPÍTULO 4 ...... 116

APÊNDICE G – TEXTOS ORIGINAIS EM INGLÊS DOS QUATRO CAPÍTULOS PRESENTES NESTE DOCUMENTO ...... 122 14

INTRODUÇÃO GERAL: OS PROCESSOS QUE CONTROLAM (OU NÃO) A COMPOSIÇÃO DAS COMUNIDADES ECOLÓGICAS

Como as comunidades ecológicas se formam? A questão que sobreviveu ao século XX ainda persiste na mente do ecólogo do século XXI. Desde o início, a questão levantou controvérsia, desde a noção sinecológica de que as comunidades eram como superorganismos, com limites bem definidos e identidades (Clements 1916) até a explicação alternativa liderada pelo ecólogo de vegetação Gleason (1926). Para ele, “a uniformidade estrutural... não existe” e as associações entre as espécies não eram um organismo, mas sim fruto de “meras coincidências” (Gleason 1926; Götzenberger et al. 2012). Curiosamente, o debate sobre processos estocásticos versus determinísticos governando as associações entre espécies evoluiria e persistiria desde então. Hoje em dia, entretanto, o consenso é que as duas visões são extremos de um gradiente conceitual em que ambos contribuem em maior ou menor grau dependendo do contexto para a formação das comunidades (Lortie et al. 2004; Vergnon et al. 2009; Götzenberger et al. 2012).

Tradicionalmente, as diferenças na composição de espécies entre locais dentro de um mesmo sistema foram denominadas diversidade beta por Whittaker (1960, mas veja a evolução do termo em Tuomisto 2010 e Anderson et al. 2011 e veja também o Capítulo 1 abaixo). Estas variações eram inicialmente consideradas consequência direta das peculiaridades nas condições ambientais de cada região. Assim, a variação de uma ou mais variáveis ambientais importantes ao longo de um gradiente espacial determinava a diversidade beta. O papel do gradiente ambiental na estruturação da comunidade, inclusive, está inserido na definição original de diversidade beta de Whittaker (1960). Assim, as espécies se distribuiriam localmente de acordo com suas determinações ambientais. De maneira geral, portanto, a diversidade da comunidade varia paralelamente à variação das condições ambientais locais (Ricklefs 1987). Consequentemente, locais com condições similares, mesmo que distantes geograficamente, apresentariam convergência na composição das comunidades e seriam mais semelhantes entre si que regiões com condições distintas, porém mais próximas (Schutler 1986). Tais condições locais poderiam ser tanto físico-químicas (temperatura, pH, salinidade, altitude) como biológicas, como a presença de predadores, parasitos e/ou competidores. O papel da competição, em especial, na estruturação das comunidades naturais foi durante muitos anos fortemente destacado. 15

Tais conceitos determinísticos da distribuição dos organismos se basearam na ideia das espécies serem limitadas por seu nicho local (Hutchinson 1957; Hutchinson 1959; Hutchinson 1961) e se tornou muito popular durante todo o século XX. A ideia básica é que as comunidades locais estariam saturadas, com as espécies presentes dividindo todo o gradiente de recursos, e a adição de novas espécies necessariamente implica em exclusão de outras. Além disso, variações na diversidade regional, chamada de gama (γ) por Whittaker (1960), teriam pouca ou nenhuma influência na diversidade local (chamada também diversidade alfa, α). Contudo, alguns estudos contemporâneos do modelo de saturação já destacavam a importância da relação entre diversidade regional e local na composição das comunidades e a não saturação das comunidades locais, suscitando assim dúvidas quanto à exclusividade do modelo determinístico de competição na estruturação das comunidades (Ricklefs and Cox 1978; Cornell 1985; Cornell and Lawton 1992).

Concomitante à evolução do debate, houve o incremento das ferramentas para testar as hipóteses de estruturação das comunidades. Pode-se resumir de forma geral em dois tipos as abordagens não manipulativas/experimentais mais comumente utilizadas (Chun Yi Chang and Marshall 2016). A primeira busca quantificar os papeis relativos de processos estocásticos e de interações abióticas, como o efeito de gradientes ambientais, na variação das composições das comunidades. A segunda abordagem mede a importância relativa de interações bióticas, como competição, na estruturação das comunidades (Chun Yi Chang and Marshall 2016).

Para a análise da variação da comunidade ao longo de gradientes ambientais e espaciais foram adaptadas análises multivariadas como a Análise de Redundância (RDA, Ter Braak and Prentice 1988; Legendre et al. 2005). A RDA é capaz de desempenhar, em uma matriz resposta (locais × espécies) de composição multivariada (i.e. composta de múltiplas espécies), regressões com as variáveis explanatórias (geralmente descritores ambientais e espaciais) e então plotar os valores ajustados da regressão em um espaço reduzido. O método busca aproximações lineares que descrevam a contribuição relativa dos fatores ambientais e espaciais na estrutura das comunidades (Borcard et al. 1992, e veja abaixo no Capítulo 4). Mais recentemente, alguns novos modelos têm sido propostos para atacar o problema sem a necessidade de aceitação da premissa de linearidade feita pelo uso da RDA (ver Capítulos 2 e 4 abaixo para mais detalhes). 16

De maneira similar, diversos avanços teóricos e computacionais permitiram a exploração do papel da competição na estruturação das comunidades naturais. Os modelos crescentemente sofisticados de aleatorização permitem que se compare os padrões de ocorrências das espécies com situações hipotéticas simuladas, nas quais a variável de interesse (no caso, a competição) é isolada (Gotelli and Graves 1996 e veja Capítulo 3).

Se a determinação dos mecanismos de controle da biodiversidade não está ainda definida para os ambientes terrestres, largamente estudados, a carência de estudos sistemáticos para ambientes marinhos faz com que estas questões sejam ainda mais obscuras (Clarke and Lidgard 2000; Greenstreet et al. 2007). Estudos que busquem entender as diretrizes que promovem a variação nas associações de espécies são ainda escassos.

Dessa maneira, os métodos supracitados foram utilizados com o objetivo principal de se estabelecer os mecanismos responsáveis pela variação na estrutura de comunidades (presença/ausência) de alguns grupos taxonômicos marinhos observados na Baía da Ilha Grande (BIG), Rio de Janeiro, Brasil. Apesar de não serem as únicas (Vellend et al. 2014), as formas supracitadas são ainda hoje os métodos recomendados para a determinação dos processos reconhecidos como os mais comumente envolvidos na estruturação das comunidades biológicas dentro de um sistema (embora também não sejam os únicos candidatos, veja p.ex. Leibold et al. 2004; Ricklefs 2011).

São, portanto, nossos objetivos específicos:

a) Explorar os padrões ainda não conhecidos da composição e diversidade beta dos grupos marinhos da BIG, de modo a gerar insights e hipóteses acerca de eventuais mecanismos causadores de tais padrões. Este tema será abordado no Capítulo 1. b) Investigar o papel dos gradientes ambientais e espaciais na determinação das comunidades marinhas da BIG. Este é o foco do Capítulo 2. Como o debate metodológico está em um momento importante, estipulou-se posteriormente também o objetivo de se estabelecer uma forma de comparação de métodos alternativos à análise de gradientes, que será abordado no Capítulo 4. c) Averiguar o papel da competição interespecífica como agente organizador dos padrões de co- ocorrências de espécies encontrados na BIG e d) avaliar também a partir de modelos nulos a possibilidade da associação de espécies entre locais serem 17

frutos de combinações fortuitas de subgrupos do pool regional de espécies. Este é o tema do Capítulo 3.

Embora essa lista de objetivos não seja exaustiva em relação ao tema e, portanto, não o encerre, a elucidação dessas perguntas pode esclarecer os principais mecanismos de determinação da biodiversidade marinha da BIG.

Haja vista a diversidade de habitats com características abióticas bastante distintas na BIG (Creed et al. 2007) e a presumida importância de fatores ambientais na estruturação das comunidades marinhas, espera-se, portanto, que hajam padrões identificáveis de distribuição dos diferentes grupos marinhos na região. Além disso, é de se esperar que estes padrões sejam ao menos parcialmente, mas de forma direta, explicados pelos gradientes ambientais notados na baía, como diferenças de profundidade e temperatura. Além disso, o ambiente marinho (em especial o bentônico) é notadamente marcado pela disputa por espaço. Dado que em teoria as espécies possuem competências competitivas diferentes, espera- se que a competição seja um importante regulador das comunidades marinhas, especialmente entre os bentos. Se assim for, é presumível que as associações de espécies na BIG não seja meras combinações fortuitas das espécies que compõem o pool regional da baía. Ao contrário, espera- se que certas combinações de espécies (competidoras) não ocorram ou ocorram menos que o esperado por um sistema que fosse organizado ao acaso.

18

1 OS PAPÉIS RELATIVOS DA PERDA E SUBSTITUIÇÃO DE ESPÉCIES E SINGULARIDADE NAS COMUNIDADES DOS COSTÕES ROCHOSOS DA BAÍA DA ILHA GRANDE1

1.1 Introdução

Com avanços em teoria, incremento em capacidade computacional e com a profusão de ferramentas de estatística multivariada, as opções para análise de dados ecológicos aumentou substancialmente nos últimos trinta anos (Zuur et al. 2010). Infelizmente, o progresso algumas vezes veio associado a negligencia com aspectos interessantes dos dados, que poderiam ser investigados diretamente através de análise descritiva preliminar dos dados (Jeffers 1994). Exploração dos dados deveria vir separado do teste de hipóteses (assim evitando o efeito de “data dredging”) e é útil para a detecção de outliers, revelar a distribuição dos dados e possíveis correlações e ainda permite aos pesquisadores a visualização dos padrões. Além disso, é possível que a análise desperte questões que podem ser exploradas posteriormente pela abordagem de modelagem adequada, que é determinada pelo conhecimento prévio adquirido sobre o sistema a ser estudado (Burnham & Anderson 2002, capítulo 1).

Para ambientes marinhos, é ainda mais crucial a revelação de padrões de biodiversidade, dado que uma parcela significativa de nosso conhecimento de tais sistemas ainda provém de extrapolações do conhecimento sobre sistemas terrestres, assim levando a importantes lacunas em assuntos como o que estimula a variação em padrões de diversidade nos sistemas marinhos (Clarke and Lidgard 2000; Cornell et al. 2007; Soininen 2014).

Um traço importante de comunidades biológicas é a relação entre diversidade local (α) e regional (γ). “A quantidade de variação na composição da comunidade” estimada a partir destas duas métricas de diversidade foi originalmente denominada diversidade beta (β) (Whittaker 1960a), embora uma miríade de outras definições tenham sido propostas subsequentemente (Tuomisto 2010b; Anderson et al. 2011; Baselga 2012).

1 Texto original em inglês desenvolvido em co-autoria com Joel Creed, Matthew Spencer, Tim Moulton, Danilo Neves, Carlos Eduardo Ferreira, Fernanda Casares, Simone Pszczol, Renato Ventura, Cristiane Serejo, Clóvis Castro e Débora Pires. Texto original disponível no Apêndice G. 19

Além de sua importância inerente na descrição de comunidades naturais, compreender a diversidade beta permite que os ecólogos destrinchem dois processos que causam variação na composição das comunidades: aninhamento e substituição espacial (traduzidos livremente do inglês nestedness e spatial turnover, respectivamente) (Harrison et al. 1992; Baselga 2010). No primeiro, a variação observada entre dois ou mais locais ocorre através da perda ou ganho de espécies, de forma que locais mais pobres em espécies sejam subgrupos dos locais mais ricos. Por outro lado, substituição espacial descreve a variação causada pela reposição de algumas espécies por outras, usualmente associada a filtros ambientais e/ou espaciais (incluindo impactos e estressores Qian et al. 2005; Baselga 2010), bem como processos estocásticos. Dessa forma, analisar a diversidade beta ajuda também a se reconhecer potenciais causadores da diferenciação da diversidade entre locais de uma metacomunidade, definida aqui como um conjunto de comunidades locais significativamente conectadas pela dispersão de múltiplas espécies (Leibold et al. 2004).

Paralelo às considerações acerca dos padrões de diversidade beta no ambiente marinho, foi também interesse desse trabalho a identificação de áreas incomuns, caracterizadas por faunas e floras compostas de espécies menos frequentes. O desafio foi propor um simples mecanismo capaz de identificar áreas com alta “raridade” na composição de espécies em comparação com os outros locais da mesma metacomunidade. A identificação de tais locais é relevante para guiar ações de manejo e conservação, já que as atividades antrópicas alteram a disponibilidade de habitat e modifica a composição de espécies (Pauly et al. 2005; Halpern et al. 2008). Ainda, nosso objetivo foi a obtenção de um indicador capaz de ser tanto facilmente interpretável, sobretudo por um público não especialista, quanto tivesse significado real (isto é, evitando uso de valores muito arbitrários). Além disso, era também importante manter a subjetividade ao mínimo possível na designação matemática do que “raridade” significa neste contexto, já que a clareza do conceito permite a reprodutibilidade do indicador para outras situações.

Como estudos representativos de comunidades de costões rochosos tropicais são sub-representados (Kaehler and Williams 1996) quando comparados a algumas observações de longo prazo feitas em costões ou recifes temperados (p.ex. Mieszkowska et al. 2006), foram feitas diversas análises descritivas das comunidades marinhas dos costões rochosos da Baía da Ilha Grande, Rio de Janeiro, Brasil. Nosso objetivo foi 20 investigar os padrões de biodiversidade em diferentes grupos taxonômicos e destacar áreas distintas em termos de composição de espécies. Além disso, ao escrutinizar os papéis relativos dos componentes da diversidade, aninhamento e substituição, foi possível identificar possíveis fatores estruturadores da variação na comunidade.

1.2 Materiais e Métodos

1.2.1 Área de estudo

A Baía da Ilha Grande (BIG) está localizada no estado do Rio de Janeiro, sudeste do Brasil. A baía é considerada um hotspot local de diversidade cobrindo uma área aproximada de 150000 ha e situada entre as duas regiões mais urbanizadas do país: Rio de Janeiro e São Paulo. Esta localização traz múltiplas pressões antropogênicas que ameaçam a diversidade única da baía. Esta peculiaridade resulta da geomorfologia distinta da região, que abriga diferentes tipos de habitats terrestres, de água doce e marinhos, o que acarreta em uma biota singular (Creed et al. 2007; Bastos and Callado 2009). Usando cartas náuticas, 42 locais foram pré-escolhidos para que a amostragem na baía fosse feita de maneira mais ou menos igualitária ao longo da costa e entre as muitas ilhas da região (Figura 1). A exata localização dos locais foi marcada por GPS no momento de chegada a cada ponto de amostra. A maioria destes locais nunca foi estudada anteriormente.

21

Figura 1 - Mapa da Baía da Ilha Grande com pontos amostrados

Legenda: Os 42 locais amostrados (pontos vermelhos) na Baía da Ilha Grande, sudeste do Brasil, como destacado no canto esquerdo superior.

A principal característica oceanográfica da plataforma sul/sudeste do Brasil é a influência sazonal da ACAS (Água Central do Atlântico Sul) com suas águas frias e ricas em nutrientes que afeta todas as comunidades de fundo da região (Soares-Gomes and Pires-Vanin 2003). Em todos os 42 locais foram coletadas informações sobre as propriedades físico-químicas da água, bem como atributos sobre sedimentologia e geomorfologia (Creed et al. 2007, capítulos 4 e 5). No total, 32 variáveis ambientais foram coletadas, resumidas no Apêndice A. Em resumo, esta região se caracteriza por águas rasas na porção oeste da baía, enquanto águas mais profundas podem ser encontradas na região do Canal Central e na face externa da Ilha Grande. As temperaturas de fundo coletadas nesses locais também variaram consideravelmente. A parte oeste mostrou quantidades mais altas de alguns tipos de sedimentos, como compostos nitrogenados, o que tem provavelmente ligação com o fato de que esta região é a área de drenagem de vários rios. Esta parte é a menos afetada pela ação de ondas (calculado pelo índice de acordo com Thomas 1985), que são mais intensas na parte externa da ilha principal e em alguns pontos expostos ao longo do canal central (Figura 2 a-d).

22

Figura 2 - Características ambientais da Baía da Ilha Grande

23

Legenda: Algumas características ambientais da Baía da Ilha Grande; a) profundidade do fundo, b) temperatura da água, c) concentração de nitrito e d) índice de exposição de ondas. Legendas mostram valores mínimos, médios e máximos de cada variável.

1.2.2 Coleta de dados

Os dados de composição (presença/ausência) foram coletados por especialistas usando os protocolos desenvolvidos para a metodologia Rapid Assessment Program (RAP). Foram estudados três grupos bentônicos de substrato consolidado (Macroalgas- daqui para frente chamadas de algas por brevidade-, Cnidaria – chamados aqui pelo termo genérico corais – e Echinodermata), dois grupos bentônicos de substrato não consolidado 24

(Mollusca e Crustacea) e peixes recifais (Creed et al. 2007)2. Toda a amostragem foi feita através de mergulho autônomo (i.e. com equipamento SCUBA). A metodologia RAP consiste em pequenas expedições lideradas por especialistas para locais de importância biológica com o intuito de se examinar o status da biodiversidade da região e a saúde dos ecossistemas locais, propondo por fim estratégias de manejo. Embora não seja especificamente desenvolvida para habitats aquáticos, essa metodologia vem sendo extensivamente utilizada para a avaliação de ambientes marinhos por todo mundo pela Conservação Internacional, sendo nesses casos chamada de Marine Rapid Assessment Program (MRAP) (p.ex. McKenna and Allen 2002; Dutra et al. 2005; McKenna et al. 2009).

Para os bentos de substrato consolidado e peixes, a avaliação foi feita através de censo visual em transectos de aproximadamente 100m postos paralelamente à linha de costa. Cada censo foi feito entre a franja do litoral até a profundidade na qual o substrato mudava de rocha para não- consolidado. Como os locais de amostra variavam consideravelmente quanto à profundidade (Figura 2a), o que tem um efeito no tempo total de mergulho, cada mergulho ficou restrito a um mínimo de 45 e um máximo de 90 minutos de maneira a evitar diferenças muito consideráveis no esforço amostral. Para detalhes sobre o método de coleta veja os capítulos 6, 7 e 11 em Creed et al. (2007). Devido a imprevistos, corais não puderam ser avaliados no ponto 17. Por esse motivo, apenas 41 amostras estão disponíveis para corais. Por outro lado, peixes recifais foram amostrados em um local adicional, somando 43 pontos amostrados. Contudo, com o intuito de manter os grupos comparáveis, para a maioria das análises considerou-se 42 pontos amostrados para peixes (mas veja capítulo 3). Foram usadas curvas de acumulação e rarefação de espécies (Gotelli and Colwell 2001; Ugland et al. 2003; Colwell et al. 2004; Kindt et al. 2006) para todos os grupos taxonômicos amostrados como forma de assegurar a adequação do esforço de coleta.

Os organismos bentônicos de substrato não consolidado foram amostrados utilizando um corer de sedimentos. Em cada local, cinco amostras (100mm de diâmetro × 150mm de altura) foram coletadas em duas estações, uma próxima e outra a 100m

2 Originalmente dados de poliquetas também foram coletados, porém devido a problemas taxonômicos insuperáveis encontrados nas tabelas de composição foram descartados de análises posteriores 25 distante do costão. O sedimento foi filtrado e a fauna identificada. Para mais detalhes, consulte os capítulos 8 e 10 em Creed et al. (2007).

1.2.3 Definindo áreas “únicas”

Para que se pudesse identificar áreas distintas, isto é, regiões com mais espécies incomuns em sua composição, nós desenvolvemos uma medida chamada aqui de “Singularidade”, baseada no número de espécies raras presentes em um dado local dentro de uma metacomunidade. É importante salientar que “raro” neste contexto não se refere nem a distribuição geral nem ao status de conservação das espécies. Aqui, o conceito se refere unicamente à frequência da distribuição de dada espécies dentro da região de interesse amostrada. Aqui, considerou- se “raro” quaisquer espécies que ocorreram em menos da metade dos locais visitados, já que esta foi a proposição mais objetiva (embora potencialmente permissiva, veja abaixo) para a designação de raridade. Portanto, em cada local, foram avaliadas quantas espécies de cada um dos grupos taxonômicos i eram consideradas raras em proporção ao número total de espécies naquele local:

푛° 푑푒 푒푠푝푒푐푖푒푠 푟푎푟푎푠 푑표 푔푟푢푝표 푡푎푥표푛표푚푖푐표 푖 푠 = (1) 푖 푛° 푑푒 푒푠푝푒푐푖푒푠 푑표 푔푟푢푝표 푡푎푥표푛표푚푖푐표 푖

Depois, o objetivo foi estimar para cada local seu valor geral de distinção calculada pelo Indicador de Singularidade para cada local j para n grupos taxonômicos distintos como:

푆푗 = ∑ 푠푖 ∗ 푞푖 (2) 푖=1 onde 푠푖 é a proporção de espécies raras do grupo taxonômico i encontradas na equação 1 e 푞푖 é a proporção do grupo i na riqueza total de espécies daquele local. Foram consideradas proporções para que os cálculos fossem independentes da riqueza de espécies em cada local e também do desequilíbrio na riqueza entre os diferentes grupos taxonômicos. Analogamente, a Riqueza geral (considerando todos os grupos taxonômicos presentes) de cada local j foi determinada por 26

푅푗 = ∑ 푟푖 ∗ 푞푖 (3) 푖=1 em que 푟푖 ej a riqueza proporcional do grupo i no local j em relação ao pool regional de i e 푞푖 e n são os mesmos calculados na equação 2.

1.2.4 Aninhamento × substituição como componentes da diversidade beta

Os padrões de diversidade beta (sensu Baselga 2010, 2012) ao longo da baía foram explorados pela decomposição dos seus dois elementos aninhamento e substituição, como exposto por outros trabalhos (Baselga 2010; Baselga 2012). Usando operações de frações simples é possível decompor diversidade beta total, calculada como o índice de dissimilaridade de Sørensen 훽푆푂푅 em dois componentes aditivos. O primeiro é o índice de Simpson 훽푆퐼푀 que descreve substituição espacial sem interferência de gradientes de riqueza. O segundo é 훽푁퐸푆 que descreve a variação na composição devido a perda ou ganho de espécies (para detalhes e desenvolvimentos posteriores do conceito, veja Baselga 2010, 2012, 2013). Assim,

훽푆푂푅 = 훽푆퐼푀 + 훽푁퐸푆 (4)

onde 훽푆푂푅 e os componentes variam entre 0 e 1. Os cálculos foram realizados utilizando- se o pacote betapart (Baselga and Orme 2012) no ambiente R (R Core Team 2014). Foram também calculados os mesmos componentes considerando apenas comparações par a par, gerando-se 861 pares de locais para análise da diversidade beta de cada grupo. Para corais, apenas 41 pontos foram considerados (o que gerou 820 pares de locais) e para as medidas integradas entre os diversos grupos, como 푆푗 e 푅푗, foram considerados o número de corais igual a zero no ponto 17. Dessa forma, requere- se cuidado ao interpretar os resultados deste ponto amostral em específico.

1.3 Resultados

1.3.1 Geral

27

Foram reportadas 768 espécies nos 42 locais visitados: 110 algas bentônicas, 26 cnidários ( e Hydrozoa), 27 equinodermas de todas as cinco Classes, 374 moluscos, 61 crustáceos e 170 espécies de peixes recifais. Para algas, este número é equivalente a um quarto de toda a diversidade conhecida do estado do Rio de Janeiro. Quase metade (40%) dos crustáceos identificados representaram novos registros para a BIG ou para o estado do Rio. A amostragem foi satisfatoriamente suficiente, como é possível aferir das curvas de acumulação de espécies para cada grupo taxonômico, embora os grupos de infauna (moluscos e crustáceos) pareceram estar ainda levemente sub-representados (Figura 3 a-e).

Figura 3 - Curvas de acumulação das espécies

28

29

Legenda: Curva de acumulação de espécies para os seis grupos taxonômicos amostrados em 42 localidades na baía da Ilha Grande. Os boxplots mostram as curvas de rarefação, com médias e desvios padrões para a riqueza esperados após 1000 permutações. a) algas; b) corais; c) equinodermas; d) moluscos; e) crustáceos; f) peixes recifais. Embora a riqueza proporcional apresentasse uma correlação fraca marginalmente significativa com os valores de Singularidade (RS Spearman = 0.29, p=0.06), um modelo linear usando a riqueza proporcional se mostrou um mau preditor da singularidade (p=0.73, com um R² ajustado = -0.022). Excluindo- se os três valores maiores de singularidade da análise, a riqueza se torna um preditor um pouco melhor de singularidade (p=0.003 e R²=0.19). A correlação entre singularidade e riqueza proporcional também se aumenta sob esse cenário (RS Spearman = 0.38; p=0.02).

Em geral, a porção oeste da baía demonstrou uma riqueza geral maior e maior singularidade quando são considerados todos os grupos taxonômicos conjuntamente (Figura 4a). Cada um dos 42 locais teve em média 23% da riqueza total e 57% dessas espécies eram “raras” em média. Uma localidade específica, Ilha Tanhangá, no lado oeste (ponto 14 na Fig.1) teve a menor riqueza proporcional (menor que 10%) porem a maior proporção de espécies raras (75%). Em um outro ponto próximo, riqueza proporcional foi 13% enquanto a singularidade alcançou 62%. Houve também alguns valores altos de singularidade na parte externa da Ilha Grande, onde os locais amostrados eram em geral também ricos em espécies. Por outro lado, a maior parte dos pontos localizados na parte central da baía demonstraram em geral um valor baixo (Figura 4a-e). Veja abaixo para uma análise da riqueza e singularidade para cada grupo taxonômico.

30

Figura 4 - Riqueza e Singularidade dos grupos marinhos da Baía da Ilha Grande

31

32

Legenda: Riqueza (tamanho da bolinha) e Singularidade (cores) das 42 localidades visitadas na baía da Iha Grande. A riqueza proporcional e singularidade são mostradas para os seis grupos taxonômicos em a). A riqueza total e singularidade são mostradas para algas (b), corais (c), equinodermas (d), moluscos (e), crustáceos (f) e peixes recifais (g). Como riqueza = singularidade para crustáceos, a legenda neste caso não é mostrada (veja o texto para mais detalhes). As legendas mostram sempre os valores mínimos, médios e máximos de cada medida. Todos os seis grupos taxonômicos amostrados exibiram um valor elevado de diversidade beta total, em torno de 0.9, quase totalmente composto pela substituição espacial de espécies (Tabela 1). O mesmo padrão de dominância de substituição espacial na composição da diversidade beta se fez presente na distribuição dos valores retirados para todos os valores de dissimilaridade calculados por pares de locais (Figura 5). 33

Tabela 1: Diversidade beta total e componentes aninhamento e substituição

Diversidade beta BETA SUBSTITUIÇÃO ANINHAMENTO TOTAL

algas 0.93 0.90 0.03 Epifauna/flora corais 0.90 0.82 0.07 equinodermas 0.89 0.81 0.07

Infauna moluscos 0.94 0.91 0.03 crustáceos 0.97 0.95 0.02

Pelágico peixes 0.93 0.89 0.04 recifais

Legenda: Diversidade beta total (índice de Sørensen) de todos os locais amostrados e seus dois componentes (aninhamento e substituição) calculados para os seis grupos marinhos amostrados na Baía da Ilha Grande. Devido a aproximações, a soma dos dois componentes pode ser levemente diferente do resultado total de beta. Figura 5 - Gráficos triangulares da diversidade beta dos grupos marinhos da Baía da Ilha Grande

34

35

Legenda: Gráficos ternários mostrando a diversidade beta total (índice de Sørensen, eixo x) e seus componentes substituição (eixo y) e aninhamento (eixo z) calculados para todos os pares possíveis de locais (pontos azuis) para todos os seis grupos amostrados na Baía da Ilha Grande (a designação das letras segue a da Fig.3). Todos os eixos mostram proporções (%). O ponto vermelho e os destaques nos eixos marcam os centroides de cada distribuição.

1.3.2 Padrões de riqueza e singularidade por grupo taxonômico

Além dos aspectos gerais encontrados para a biodiversidade marinha da BIG destacados acima, algumas considerações específicas dos grupos taxonômicos merecem destaque:

1. Algas (Figura 4b) O lado oeste da baía concentra a vasta maioria dos locais mais ricos em espécies e mais singulares. Em outras áreas, alguns locais na costa sul da Ilha Grande também demonstram valores consideravelmente altos de singularidade. 2. Corais (Figura 4c) Corais mostraram um padrão interessantemente diferente daquele observado para a maioria dos outros grupos. Embora alguns pontos do oeste da baía sejam também considerados ricos e singulares, os locais mais idiossincráticos em composição foram encontrados na parte central da baía. Interessantemente, se forem excluídas da análise as espécies exóticas (as duas congêneres coccinea e T. tagusensis e mais uma encontrada e considerada não nativa da baía, Millepora alcicornis) alguns pontos do Canal Central deixam de apresentar alta singularidade, enquanto outros a mantém (Figura 6). As regiões mais 36

empobrecidas em espécies e compostas por espécies mais comuns foram encontradas na parte externa da Ilha Grande e na região próxima à usina nuclear de Angra dos Reis.

Figura 6 - Riqueza e Singularidade de corais sem espécies exóticas

Legenda: Mapa de riqueza e singularidade das espécies de corais da Baía da Ilha Grande excluindo- se a presença das espécies exóticas Tubastraea coccinea, T. tagusensis e Millepora alcicornis.

3. Equinodermas (Figura 4d)

Os equinodermos, assim como as algas, apresentaram vários locais peculiares em composição na parte ocidental da baía e na parte externa da Ilha Grande. Além disso, toda a costa continental apresentou valores notavelmente mais altos de riqueza e singularidade.

4. Moluscos (Figura 4e)

Inferências gerais acerca da singularidade e riqueza de moluscos são mais difíceis, já que os locais mais singulares estão distribuídos por toda a baía, embora, assim como corais, alguns deles se concentrem na parte central da BIG. Alguns locais mais ricos (e singulares) estão situados na costa continental central assim como na face externa da Ilha Grande.

5. Crustáceos (Figura 4f)

Os crustáceos demonstraram o padrão mais incomum entre todos os grupos amostrados. Todas as 61 espécies estavam ausentes em mais da metade das 37

localidades, com apenas duas espécies sendo encontradas em mais de cinco pontos. Assim, para crustáceos, singularidade é igual a riqueza e, consequentemente, os locais mais ricos também são os mais singulares. Estes estão localizados na parte ocidental da baía com alguns outros pontos adicionais em torno da Ilha Grande.

6. Peixes recifais (Fig. 4g)

A distribuição de peixes de recifes lembra muito fortemente àquela de algas, com locais mais incomuns em composição concentrados na parte oeste da região e o canal central abrigando comunidades constituídas de menos espécies, mais comuns à baía toda.

1.4 Discussão

A abordagem do RAP aqui descrita foi a mais completa investigação da biodiversidade marinha da região da BIG já feita. Os grupos amostrados apresentaram um considerável número de espécies, com vários novos registros para o estado e a região. Embora para a maioria do esforço amostral tenha sido adequado, seria bastante benéfica a implementação de novas expedições, em especial para organismos de substrato não consolidado.

Nosso método desenvolvido para computar a raridade nas composições (i.e., a baixa frequência dentro da metacomunidade) mostrou que a diversidade marinha da baía pode ser resumida grosso modo em três regiões. O centro da baía, entre a Ilha Grande e o continente, consiste de localidades que apresentam diferentes níveis de riqueza, porém em geral constituídas de espécies comumente encontradas. Esta pode ser a indicação de ambientes mais inóspitos, já que esta região está sob o maior estresse antropogênico da área (Creed et al. 2007). Tais locais sob estresse tendem a abrigar certos tipos de organismos, o que restringe a habitação na área, como já observado para macroalgas em ambientes bentônicos (Villaça et al. 2010). As espécies capazes de viver no canal central da baía são também aquelas ubíquas a toda região amostrada. A extensão na qual uma espécies consegue se adaptar a uma ampla gama de condições ambientais influencia sua distribuição geográfica (Holt 2003; mas veja tambem Carlos-Junior et al. 2015). Por outro lado, o lado ocidental da costa apresentou regiões com as maiores relações entre 38 singularidade e riqueza (que podem ser vistas como pequenos pontos vermelhos na Fig. 4). Dessa maneira, esta porção é composta de espécies não comumente vistas em outros locais, demonstrando uma considerável variação, ou seja, alta 훽푆푂푅 , até mesmo entre os locais dentro dessa área. Estas comunidades são ainda diferentes de outras comunidades incomuns encontradas na BIG, em torno da Ilha Grande. Nestas localidades, alta singularidade está associada a também altos valores de riqueza. O ambiente destes pontos (especialmente nas áreas da face externa da Ilha Grande, mais profundas) contém espécies comuns assim como outras restritas a estes locais.

Essas discrepâncias entre as três macrorregiões de diversidade identificáveis têm também implicações potencialmente relevantes às estratégias atuais e futuras de conservação. Algumas áreas protegidas contínuas devem ser capazes de abarcar a maior parte das diferentes comunidades do centro da baía. Em contrapartida, as comunidades marinhas do lado oeste da costa e os entornos da Ilha Grande (especialmente na sua face exposta ao oceano) estariam melhor protegidas através de diferentes áreas conectadas, para que toda a distinção das composições observadas nos locais possa ser contemplada. Interessantemente, a Reserva Ecológica de Tamoios já protege uma série de ilhas ao longo de toda a porção oeste da BIG, juntamente com outras unidades de conservação como a Área de Proteção Ambiental de Cairuçu e Mamanguá. Alguns locais estudados recentemente na Reserva Tamoios mostraram de fato uma diversidade considerável de macroalgas (Koutsoukos et al. 2015). Os resultados aqui mostrados sugerem que o fortalecimento destas unidades deve ser incentivado, bem como estratégias para incremento da conectividade entre elas devem ser desenvolvidas.

Embora alguns padrões gerais possam ser examinados, a exploração dos padrões de cada grupo taxonômico também aponta discrepâncias interessantes. Para os bentos de substrato consolidado, a maior parte replicou de forma geral o padrão de três regiões, de forma notável por algas e equinodermas, enquanto corais exibiram um desenho de certa forma oposto. Para esses organismos, muitas comunidades idiossincráticas se encontraram no canal central, com exceção de alguns pontos próximos à usina nuclear de Angra dos Reis. Como visto, isto se deve ao menos parcialmente à presença de duas espécies exóticas, Tubastraea coccinea e T. tagusensis, que foram provavelmente introduzidas a partir do Canal Central (Silva et al. 2014). A retirada dessas espécies das análises retorna o padrão para algo um pouco mais similar ao observado para algas e equinodermas, embora alguns locais da parte central da baía ainda se mantenham 39 destacados em termos de singularidade. Os moluscos também apresentaram locais bastante distintos em composição na região central, com alguns outros dispersos através de toda a metacomunidade. A presença quase ubíqua de comunidades incomuns por toda a baía se confirma pelo fato que a amostragem de moluscos pelo RAP na BIG demonstra porque a região é um hotspot de diversidade desse grupo no estado do Rio de Janeiro. Já os crustaceos exibiram um padrão peculiar de distribuição, com nenhuma espécie sendo encontrada ubiquamente e apenas uma espécie ocorrendo em mais de 10 locais (Tiburonella viscana foi vista em 14 amostras). Além disso, havia poucas espécies presentes em cada um dos locais. Isto pode ser parcialmente explicado por uma possível insuficiência no esforço amostral do grupo, indicado pela Figura 3, embora seja improvável que seja a causa única, já que neste caso, as espécies mais comuns estariam mais presentes, o que não ocorreu. Dessa maneira, é sensato concluir que este é senão um atributo real dessas comunidades, para as quais a escala espacial investigada pode ser grande o suficiente para que sejam diversas comunidades locais desconectadas umas das outras. Por último, os padrões dos peixes refletiram àquele de algas e equinodermas, bem como o padrão global. Estes três grupos podem, portanto, ser restritos geograficamente pelos mesmos fatores estruturadores. Outra hipótese é que talvez um grupo esteja influenciando a distribuição do outro, como já visto recentemente em outros estudos envolvendo algas, equinodermas e peixes (Parnell 2015).

A análise da diversidade beta da BIG revelou que a variação na composição das espécies de todos os grupos (Tabela 1 e Figura 5) foi considerada alta quando comparada a outros sistemas estudados, incluindo diferentes grupos taxonômicos de florestas úmidas tropicais (p.ex. Baselga et al. 2012; Tonial et al. 2012). Em geral, por volta de 90% da composição de espécies varia de um local a outro na metacomunidade, o que significa que não é possível predizer a composição de um local na BIG tendo informação a priori de outra localidade. Isto tem implicações diretas para a conservação, já que não é possível abarcar a diversidade regional total com algumas áreas de proteção restritas geograficamente. Mais interessante ainda é o fato de que quase toda a variação observada nas comunidades se deve à substituição espacial das espécies, com quase nenhuma contribuição da perda e ganho de espécies. O mesmo foi observado dentro de cada grupo taxonômico individualmente, como visto pelos valores dos centroides da Figura 5 a-e, embora seja possível ver uma variação grande de valores, o que de certa forma está de acordo com críticas prévias feitas ao uso de médias de valores par a par com o intuito de 40 se fazer inferências gerais (Baselga 2012; Baselga 2013). Maior contribuição de substituição de espécies já foi observado previamente para outras áreas de baixas latitudes (abaixo do paralelo 37, Baselga et al. 2012; Bishop et al. 2015 mas veja também Oliveira- Filho et al. in press) e pode estar relacionado a diversas causas associadas a constritores espaciais e/ou históricos além de diferentes filtragens ambientais e processos estocásticos. Estas possibilidades levantadas por esta análise exploratória serão exploradas na sequência, como forma a investigar os fatores causadores da variação aqui exposta (ver capítulos 2 e 3). Outra hipótese levantada pela revelação dos padrões feita aqui é que os altos valores de 훽푆푂푅 e seu componente principal 훽푆퐼푀 podem indicar que os gradientes que levam à variação de espécies nas comunidades marinhas podem atuar em escalas de espaço mais finas, levando a variações mais abruptas geograficamente.

O método aqui descrito para computar raridade foi adequado para identificar áreas com composições incomuns. Além de ser consistente com outros indicadores para o cálculo de endemismo (resultados não mostrados aqui), a métrica tem a vantagem de não ser sensível à riqueza. Independência da riqueza é uma característica desejável para um indicador desenhado para capturar estruturas na composição da comunidade que não são necessariamente o resultado da simples acumulação de diferentes espécies. Na realidade, os resultados mais interessantes são em geral aqueles com baixa riqueza e alta singularidade, ou vice-versa, que são justamente os valores que tendem a quebrar a correlação de singularidade × riqueza. Além disso, o arcabouço proposto aqui fornece valores numéricos que são interpretáveis e com significado. Por exemplo, um local com

푆푖 = 0.5 tem metade de suas espécies consideradas “raras” para a região amostrada e é duas vezes mais singular que um local com 푆푖 = 0.25. Interpretabilidade e significado são propriedades essenciais de uma medida de diversidade útil (Jost 2006), que pode ser compreendida e aplicada até mesmo por não ecólogos, como a maior parte dos tomadores de decisão e políticos. No entanto, deve ser salientado que testar a métrica aqui proposta sob diferentes cenários e diferentes escalas espaciais pode resultar em melhorias à sua aplicabilidade. Por exemplo, aqui foram consideradas “raras” todas as espécies que ocorreram em menos da metade das unidades amostrais. Este foi o conceito mais objetivo de raro que pudemos imaginar. Embora seja presumivelmente permissivo (considerando que a maioria das comunidades segue uma distribuição log-normal onde a maioria das espécies ocorre em poucos locais), este conceito funcionou bem para nosso sistema, mostrando resultados similares a outros indicadores (resultados não mostrados aqui). 41

Contudo, dependendo do sistema em questão, a objetividade do conceito pode ter que ser desfavorecida para que se possa gerar um valor de corte menos permissivo (mesmo que mais subjetivo) para raridade. Outro problema pode aparecer em comunidades com um número incomumente alto de espécies raras, como ocorreu para nossos dados de crustáceos da BIG. Nestes sistemas, os valores de singularidade se aproximarão (ou, como no nosso caso, serão iguais) a 1, se tornando um proxy da riqueza e perdendo sua utilidade. Assim, a simplificação de qualquer sistema natural leva a decisões que potencialmente levam à perda de realismo do modelo adotado. Cabe, como sempre, aos pesquisadores o papel de relativização desses vieses e adoção das simplificações menos deletérias possíveis.

Em resumo, através de um processo de análises descritivas simples, foi possível reconhecer padrões interessantes da diversidade marinha da BIG. Além disso, algumas pistas dos eventuais causadores da variação na diversidade foram desvendadas, bem como hipóteses relevantes surgiram dos padrões revelados. Identificar quais são estes agentes causadores deve ser o próximo passo mais natural (veja capítulos 2 e 3). Quanto às outras hipóteses levantadas, ainda permanece a ser testado se os padrões de diversidade beta observados para a BIG de fato sugerem que gradientes no ambiente marinho agem em menores escalas. E ainda, se estes valores altos aqui observados são incomuns ou típicos de sistemas aquáticos tropicais/ de baixas latitudes. Dessa forma, as análises aqui fornecidas podem ser úteis a responder outras questões ecológicas mais amplas.

42

2 OS AGENTES DETERMINANTES DA DIVERSIDADE BETA NAS COMUNIDADES DE COSTÕES ROCHOSOS DA BAÍA DA ILHA GRANDE3

2.1 Introdução

Dentro de uma região geográfica, as comunidades locais estão conectadas pela dispersão de múltiplas espécies (Hubbell 2001; Cottenie 2005). Tradicionalmente, a variação na composição entre locais conectados (comumente e aqui denominado diversidade beta, Anderson et al. 2011) foi considerada resultado direto da diferenciação do nicho (Hutchinson 1957) das espécies constituintes. Em poucas palavras, “tudo está em todo lugar, mas, o ambiente seleciona” (tradução livre da frase clássica de Baas Becking 1934). Assim, as espécies não seriam limitadas por dispersão, mas seriam impedidas de se desenvolver em condições ambientais que não as favorecessem, um processo chamado filtragem ambiental (tradução de environmental filtering). Mais recentemente, explicações alternativas têm sugerido que a dispersão poderia de fato ser um fator limitante e que as diferenças nas composições poderiam resultar de processos neutros (i.e. independente da diferenciação de nichos), como estocasticidade demográfica; ou outros fatores não relacionados a filtragem ambiental (Hubbell 2001; Chave 2004; Leibold et al. 2004).

De maneira a identificar os causadores da variação na composição de espécies, tornou- se evidente a importância de estimar os fatores responsáveis pela estrutura espacial nas comunidades ecológicas, que foi por muito tempo considerada “ruído” em dados ecológicos (Legendre 1993). A partir de então, houve diversos esforços para se modelar corretamente estrutura espacial (p.ex. Borcard et al. 1992; Borcard & Legendre 2002; Blanchet et al. 2008) e incorpora-la (explicitamente ou não) às questões ecológicas (Hubbell 2001; Chave and Leigh 2002). Em ambientes aquáticos, a incorporação de tal organização espacial se torna ainda mais desafiadora, já que o fluxo e correntes de água complica a interação espacial entre locais (Blanchet et al. 2008; Blanchet et al. 2011).

3 Texto original em inglês desenvolvido em co-autoria com Joel Creed, Matthew Spencer, Tim Moulton, Carlos Eduardo Ferreira, Renato Ventura, Cristiane Serejo, Clóvis Castro e Débora Pires. Texto original disponível no Apêndice G.

43

Após a incorporação das variáveis espaciais e ambientais como potenciais explicadores da diversidade beta, alguns estudos têm buscado desvendar os causadores da variação em diversidade das comunidades ecológicas (Borcard et al. 1992; Peres Neto et al. 2006). Tais esforços, entretanto, ainda não são comuns na ecologia marinha (mas veja exemplos em Chust et al. 2013; Navarro et al. 2015; Quattrini et al. 2016; Rishworth et al. 2016). Compreender os fatores que sustentam a distribuição espacial em comunidades marinhas é uma questão central não apenas para corretamente esclarecer os padrões de diversidade mas também para ajudar na tomada de decisões informadas em manejo e conservação (Morfin et al. 2012; Chust et al. 2013). Sistemas de costões rochosos tropicais, comparados aos ambientes temperados, são relativamente mal conhecidos, apesar do fato de estarem sob intensa pressão antropogênica vinda de múltiplas fontes.

Os métodos padrões atuais mais comumente utilizados para a estimativa de agentes ambientais e espaciais das comunidades ecológicas vêm sendo criticados. Uma das abordagens mais usadas, a seleção coordenadas principais de matrizes vizinhas (PCNMs, do inglês principal coordinates of neighbour matrices) por algum tipo de algoritmo de regressão canônica, como o algoritmo linear da Análise de Redundância (RDA), tem demonstrado produzir erros do Tipo I inflados (Gilbert and Bennett 2010). Adicionalmente, a relação entre as estruturas espaciais descritas por PCNMs e a dispersão de organismos não é intuitiva e clara como por exemplo a relação unimodal entre dispersão e distância euclidiana (Vellend et al. 2014). Por último, ela não é capaz de superar alguns pressupostos lineares no lido com dados ecológicos, geralmente não lineares (veja Capítulo 4 e Gilbert & Bennett 2010; Warton et al. 2012; O'hara et al 2011). Após constatar tais problemas para os dados da Baía da Ilha Grande (Capítulo 4), nosso objetivo foi combinar diferentes alternativas metodológicas para formular um arcabouço de análise de variação em composição de comunidade para dados ecológicos multivariados. Depois, analisamos os dados descritos no Capítulo 1 para investigar a estruturação espacial e averiguar os agentes da diversidade beta (sensu Anderson et al. 2011) da BIG.

2.2 Métodos

2.2.1 Área de estudo e coleta de dados 44

Foram utilizados aqui os dados coletados pelo método RAP descritos no Capítulo 1. Dessa forma, os dados de comunidades são as tabelas de presença/ausência de 768 espécies divididos em três grupos de bentos de substrato consolidado, algas (110 espécies), corais (26) e equinodermas (27); os dois grupos de infauna coletados por corers, moluscos (374) e crustáceos (61); e peixes recifais (170).

Como variáveis ambientais, foram utilizadas as 32 variáveis citadas no capítulo 1 e listadas no Apêndice A.

2.2.2 Variáveis ambientais

Para evitar a sobreparametrização (overfitting) dos modelos (Babyak 2004), foram usados os componentes principais (PCs) de uma análise dos componentes principais (PCA) das 32 variáveis centradas como as variáveis ambientais para regressão. Os sete primeiros PCs foram selecionados de acordo com os critérios Kaiser- Guttman e broken stick (Jackson 1993; Borcard et al. 2011). Os sete PCs representam aproximadamente 70% da variação dos 32 parâmetros ambientais, sendo esta uma quantidade julgada suficiente para as análises posteriores.

2.2.3 Descritores espaciais: o modelo PCNM

Como descritores espaciais foram utilizados o método padrão de PCNMs como descrito por Borcard & Legendre (2002) e apenas os autovetores descrevendo autocorrelação positiva foram mantidos como variáveis explanatórias (Borcard and Legendre 2002; Dray et al. 2006). As PCNMs surgiram como alternativa à construção de polinômios de coordenadas geográficas (trend surface analysis, Borcard et al. 2011, capítulo 7) e vêm sendo amplamente utilizadas para a construção de variáveis espaciais ortogonais. Posteriormente, as PCNMs foram reconhecidas como um caso especial baseado em distância de “Moran’s eigenvector maps” (MEMs) (Dray et al. 2006), um conjunto de ferramentas de álgebra linear capazes de descrever padrões espaciais entre pontos de várias maneiras (Borcard et al. 2011; Dray et al. 2012). No método PCNM, os autovalores maiores criados estão associados a escalas espaciais mais amplas, enquanto valores menores representam estruturas espaciais mais finas. Dessa forma, essa 45 ferramenta produz um conjunto de variáveis que descrevem a relação entre os pontos amostrados de maneira a representar múltiplas escalas (Borcard & Legendre 2002; Dray et al. 2006). Um esquema representando a criação das PCNMs está mostrado na Figura 7. Em suma, a partir de uma matriz de distâncias entre os pontos amostrais se estabelece a menor distância capaz de unir todos os pontos, sem que nenhum fique sem ao menos uma conexão. O resultado de todas as distâncias menores ou iguais ao limiar definido unindo todos os pontos amostrados é chamado de Minimum Spanning Tree (MST). Todas as distâncias maiores que este limiar estabelecido são então descartadas da matriz original de distâncias, mantendo- se apenas aquelas iguais ou menores que o limiar. Desta matriz truncada é calculada a PCoA, cujos autovetores são descrições espaciais em várias escalas entre os pontos amostrados. Os valores positivos desses autovetores são mantidos e dados em ordem decrescente, como dito acima, onde os primeiros descrevem escalas amplas de organização dos pontos, enquanto os últimos representam escalas finas de estruturação espacial (veja na fig.1 a diferença entre PCNM1 e PCNM11).

Apesar de alguns estudos sugerirem que outros tipos de MEMs podem funcionar melhor para dados ecológicos (Borcard et al. 2011), estudos comparativos não mostraram que não há diferenças significativas e que todos produzem problemas semelhantes (Gilbert and Bennett 2010). Outros tipos de MEMs requerem além da distância entre os pontos, uma segunda matriz descrevendo um “peso” da relação par a par entre os pontos. Para isso, eles trazem matrizes espaciais simétricas de peso em que a influência do local i no local j é igual à influência de j em i, o que é improvável nos casos de sistemas aquáticos, com hidrodinamismo (veja Blanchet et al. 2011). Dessa forma, optou-se pela utilização de descritores simples baseados em distância entre os pontos (as PCNMs) em detrimento de uma matriz de conectividade com pesos.

46

Figura 7 - Esquema de construção do método PCNM

Legenda: Esquema de construção de PCNMs da Baía da Ilha Grande a partir de uma matriz de distância entre os 42 pontos amostrados. Primeiramente, de uma matriz de distância D entre todos os pontos acha- se a menor distância d capaz de unir todos os pontos (no caso acima, d=9.9 km), formando uma Minimum Spanning Tree (a). Depois, mantêm- se em D apenas as distâncias menores ou iguais a d, formando D* (b). Após a PCoA de D*, os autovetores com valores positivos se tornam descritores espaciais em múltiplas escalas. Na figura c, bolinhas de valores positivos são pretas, negativos são brancas e quanto maior a bolha, mais longe de zero é o valor absoluto da bolinha. Veja no texto para mais detalhes sobre o método. 47

Para o caso específico das comunidades marinhas da BIG, foi nosso objetivo testar a possível existência de descritores espaciais que capturassem a ação da hidrodinâmica da baía. Descritores espaciais que levam em consideração a direção do curso d’água são já são conhecidos, embora somente para aqueles com movimento unidirecional de água ( Blanchet et al. 2008; Blanchet et al. 2011). A ideia incialmente atraente de se modelar o hidrodinamismo da BIG e usá-lo como variável explanatória na regressão foi entretanto descartada. Diversas tentativas de modelar o sistema de fluxo de água da BIG (e.g. Ikeda & Stevenson 1980, 1982, Signorini 1980a,b), demonstraram que os padrões persistentes de médio/longo termo da região são considerados bastante complexos e altamente instáveis (Stevenson et al. 1998). Mesmo assim, foi tentada uma outra estratégia para este trabalho.

Como já dito, as PCNMs descrevem um tipo de interação entre os pontos baseado em uma distância limiar entre eles. O resultado final fornece múltiplas formas de se organizar os pontos de maneira conectada. Como nosso sistema de interesse consiste de um conjunto de pontos conectados debaixo d’água, nós acrescentamos uma etapa final ao processo de formulação das PCNMs. Após a formulação da MST (Figura 7a) com as distâncias vizinhas retidas, foram retiradas da matriz final todas as distâncias que cruzassem a terra acima de um determinado limiar previamente estabelecido. Assim, estabeleceu-se um comprimento máximo em que cada uma das linhas que conectam um ponto a outro na MST poderia cruzar em terra. É possível ver no Apêndice B, no entanto, que se se permitir que uma qualquer um dos conectores tenha até 4.65km de comprimento sobre a terra, apenas uma das ligações originais vistas na Figura 7a foi eliminada. Limiares menores (p.ex. 1 km), que ao nosso entendimento teriam mais significado ecológico e considerando que os organismos envolvidos são pequenos, deixam MST intacta. Dessa forma, consideramos que o modelo original de MST é um bom descritor das distâncias subaquáticas da BIG e mantivemos as PCNMs originais como nossas variáveis espaciais. Somamos também às PCNMs as coordenadas geográficas dos pontos como variáveis espaciais a serem usadas para regressão.

2.2.4 Modelando os agentes Ambientais e Espaciais da variação nas comunidades da BIG

48

Após a constatação da não adequabilidade da RDA e o bom desempenho de Generalised Linear Models (GLMs) (ver capítulo 4), foi usada a função manyglm do pacote mvabund (Wang et al. 2012) para ajustar modelos GLM binomiais em nossos dados multivariados de presença/ausência. Para cada grupo taxonômico separadamente, começou-se pelo modelo nulo (isto é, sem nenhuma variável explanatória inclusa) e então foi sendo acrescentada uma variável explanatória (ambiental ou espacial) por vez até que não houvesse mais incremento na soma do Akaike Information Criterion (AIC, Akaike 1973; Wagenmakers & Farrell 2004) sobre cada uma das variáveis resposta (espécies). Apesar de seleção progressiva ser também alvo de críticas (Freedman et al. 1992; Westfall et al. 1998; Babyak 2004), o modelo aqui usado baseado em AIC se mostrou eficiente em controlar erros dos tipos I e II (Capítulo 4). Este método criado para as análises da BIG está disponível com o nome da função de mod.selec no script disponível no Apêndice C.

O poder explanatório dos modelos foi estimado pelo coeficiente de determinação para modelos de regressão logística chamado Coeficiente de Discriminação (valor-D daqui em diante, Tjur 2009). Esta métrica tem uma interpretação simples análoga àquela do bem conhecido R-quadrado (R2) usado para modelos lineares. Através dele, calculou- se o quanto da composição da comunidade poderia ser explicado pelos modelos ambientais e espaciais em comparação ao modelo nulo, sem variáveis explanatórias (MN). Após a seleção dos PCs (ambientais) e das PCNMs (espaciais) pelo método de AIC supracitado, o valor-D foi calculado para o modelo ambiental (MA, contendo apenas as PCs selecionadas), assim como para o modelo espacial (ME, contendo apenas as PCNMs selecionadas). Depois, foi calculado o mesmo valor para o modelo final (MF), que continha todas as variáveis ambientais e espaciais selecionadas. O roteiro de todas as análises para o R está disponível no Apêndice C.

2.3 Resultados

A diversidade beta da epifauna (algas, corais e equinodermas) e de peixes foi explicada em certo grau pelas variáveis ambientais e espaciais, o que pode ser visto pelo ganho dos MA e ME em comparação ao MN (Figura 8). Com exceção às comunidades de algas, em geral, o ME teve uma maior contribuição em explicar a variação na comunidade que MA, especialmente para corais. Corais tiveram também a maior 49 proporção de variação da composição explicada por variáveis ambientais e espaciais, 31%. Dentre aqueles grupos com qualquer variável explanatória selecionada, os equinodermos mostraram o menor ganho em variação explicada quando comparados ao

MN, 10%. Para peixes, 푉푎푙표푟_푑푀퐴 + 푉푎푙표푟_퐷푀퐸 < 푉푎푙표푟_퐷푀퐹, possivelmente devido a interações dos efeitos de cada um dos fatores q e redundo unidos e redundância (p.ex. efeito de variáveis ambientais espacialmente estruturadas). Para peixes, a soma dos ganhos do MA e do ME comparados ao MN (0.09 e 0.23, respectivamente) é menor que o ganho do modelo final (0.26). Espécies de infauna (moluscos e crustáceos) não tiveram nenhuma variável ambiental nem descritor espacial selecionados.

Figura 8 - Ganho em variação explicada de cada um dos modelos testados para organismos marinhos da Baía da Ilha Grande

Legenda: Gráfico de barras mostrando para cada um dos seis grupos taxonômicos a proporção de variação não-explicada (azul claro) e a explicada pelos vários modelos: modelo ambiental (azul escuro), modelo espacial (vermelho) e modelo final (verde). O código da primeira letra de cada modelo: A= algas; Co= corais; E= equinodermas; P= peixes; M= moluscos; C= crustáceos. Código dos modelos: MA = Modelo Ambiental; ME= Modelo Espacial; FM= Modelo Final; TM= Todos os Modelos.

Em geral, a composição das espécies foi explicada pelo primeiro componente principal da PCA (Figura 9) (PC1), embora a PC5 também tenha sido selecionada como explicador da diversidade beta de algas (Tabela 2). As variáveis relacionadas à profundidade (como por exemplo profundidade de fundo) tiveram maior carga na determinação da PC1 enquanto PC5 esteve principalmente relacionada a conteúdo de 50 nutrientes (p.ex. fosfato) e produtividade da água (conteúdo de clorofila). O lado ocidental da baía tem as águas mais rasas e mais ricas em nutrientes (Figura 10).

Figura 9 – Análise dos Componentes Principais (PCA) das variáveis ambientais da Baía da Ilha Grande.

Legenda: As variáveis ambientais, representadas pelas setas vermelhas, estão listadas no Apêndice A.

Tabela 2 - Variáveis selecionadas para os modelos Ambiental (MA) e espacial (ME) para cada um dos seis grupos taxonômicos amostrados na Baía da Ilha grande.

Modelos MA ME Algas PC1; PC5 longitude Corais PC1 PCNMs 1,11,2,3,8 e long. Equinodermas PC1 Latitude, PCNM 4 Crustáceos - - Moluscos - - Peixes PC1 longitude, latitude, PCNMs 1,9

Figura 10 - Profundidade e Fosfato na Baía da Ilha Grande 51

Legenda: Mapa de calor demonstrando a) a variação da profundidade na Baía da Ilha Grande (BIG), com cores mais quentes mostrando águas mais rasas; b) concentração de fósforo na BIG, onde cores quentes mostram maiores concentrações.

Padrões de escalas espaciais amplas representadas pelas PCNMs 1, 2, 3 e 4, latitude e longitude estiveram sempre entre os descritores espaciais selecionados para os grupos taxonômicos que tiveram variáveis selecionadas (isto é, excluindo-se infauna). Entretanto, alguns descritores de escalas mais finas foram selecionados também na seleção de variáveis das comunidades de peixes e corais (Tabela 2). Essas PCNMs de ampla escala descrevem uma organização espacial formando dois grupos separados oeste- leste (ou subgrupos desta organização), enquanto as PCNMs 8, 9 e 11 mostram uma relação entre locais mais intrincada (Figura 11).

Figura 11 - Estruturações espaciais das comunidades marinhas da Baía da Ilha Grande 52

53

Legenda: Mapa mostrando diferentes organizações espaciais da Baía da Ilha Grande (BIG), onde o centro de cada bolinha é um dos 42 locais visitados da baía. As PCNMs mostradas são aquelas selecionadas como descritores espaciais da variação de composição nas comunidades de seis diferentes grupos taxonômicos amostrados na BIG. Valores positivos são mostrados por bolinhas pretas, valores negativos por bolinhas brancas e quanto maior a bolinha, mais afastado de zero é seu valor absoluto. Assim, as bolinhas podem se assemelhar mais umas às outras pela cor e/ou tamanho. A primeira figura, portanto, mostra dois grandes grupos de pontos mais semelhantes dentro de si que entre si, enquanto a ultima mostra padrões mais intricados de correlação espacial. 54

2.4 Discussão

Em termos gerais, a variação na composição de espécies observada para algas, corais, equinodermas e peixes recifais foi apenas parcialmente explicada por variéveis ambientais e descritores espaciais de ampla escala. As variáveis ambientais selecionadas foram aquelas relacionadas a diferenças de profundidade na BIG, enquanto a maior parte dos descritores espaciais descreviam diferenciações de ampla escala num gradiente leste- oeste ou variações (como diferenciação da costa oeste para a parte central e Ilha Grande, etc). No entanto, a maior parte da variação da composição de espécies da BIG não pode ser explicada por nenhuma variável (ambiental ou espacial) disponível.

A variação no agrupamento de algas bentônicas, corais, equinodermas e peixes de recifes foi parcialmente refletida por diferenças na profundidade ou por outros fatores a ela ligados. Maior variação (vista no Capítulo 1) foi encontrada em locais de águas mais rasas. O papel da profundidade na estruturação do agrupamento de espécies marinhas é bastante conhecido e descrito para diferentes grupos taxonômicos de diferentes lugares (Kendall and Haedrich 2006; Reiss et al. 2011; Navarro et al. 2015; Coll et al. 2016; Lauria et al. 2016; Quattrini et al. 2016). Para organismos que vivem no fundo, profundidade pode ser um fator relacionado à variação de várias condições físicas e químicas (p.ex. temperatura no fundo, disponibilidade de luz) na água que afetam a fisiologia e, assim, a distribuição dos organismos. Não surpreendentemente, profundidade e variáveis relacionadas ao fundo marinho são constantemente identificadas como relevantes na modelagem da extensão geográfica das espécies (Reiss et al. 2011). Em menor grau, a diferença na diversidade de algas também respondeu à disponibilidade de nutrientes, como a concentração de fósforo no fundo e de nitrito, além de também responder à quantidade de clorofila na água. Além disso, similarmente aos nossos resultados, a relação inversa entre profundidade e a diversidade de peixes de fundo tem sido demonstrada para outros sistemas no Atlântico. A profundidade pode ser especialmente relevante na região da BIG, já que a região está sujeita à fraca ressurgência esporádica de água fria e rica em nutrientes pela ação da ACAS (=Agua Central do Atlântico Sul), que penetra sob a superfície na baía e pode causar estratificação térmica, de salinidade e densidade expressivas bem como enriquecimento de nutrientes no fundo. A ação da ACAS é detectável mostrando diferenças de até 8-9°C na temperatura nos 20 primeiros metros de profundidade (Soares-Gomes & Pires-Vanin 2003; Creed et al. 55

2007). Dessa forma, a filtragem ambiental pela profundidade está parcialmente relacionada à alta taxa substituição de espécies (species turnover) evidenciado no capítulo anterior. Contudo, filtragem ambiental não pode ser a causa única, haja visto os baixos valores de MA em todos os grupos (ver abaixo).

Assim como observado para as varáveis ambientais, uma variável espacial, PCNM1, prevaleceu como a mais comumente afetando a maior parte da variação da comunidade que era explicada pelo ME. A exceção foram as algas, que tinham a longitude como o mais importante descritor espacial de sua composição. Tanto a PCNM1 quanto a longitude designam uma estrutura espacial ampla similar, dividindo a baía em duas bio- regiões. A partir da PCNM1, podemos dividir a baía em um lado ocidental com autocorrelação espacial negativa, resultando em comunidades mais idiossincráticas (maior variação em composição ou diversidade beta) e o lado oriental da baía mostrando autocorrelação positiva entre os locais. Este padrão foi consistente em quatro dos seis grupos taxonômicos estudados aqui e pode ser na verdade o resultado de filtragem ambiental, já que como visto acima, o lado oeste da costa possui águas menos profundas, o que segrega as comunidades de organismos da epifauna e peixes. O efeito da profundidade em várias escalas sobre comunidades de algas que, por sua vez, afeta a distribuição de equinodermas e processos ecológicos como predação de peixes já foi reportado anteriormente (Parnell 2015) e pode ser a explicação dos esquemas encontrados aqui. Para corais e peixes, alguns outros descritores espaciais mais complexos/ finos foram também selecionados, indicando a existência de subgrupos de habitats mais intrincados dentro dos dois grandes subgrupos espaciais mais amplos.

É relevante ressaltar que se os padrões espaciais são o resultado de algum filtro ambiental oculto ou a consequência direta observada de processos espaciais, como imigração diferencial de populações fonte ou restrições de dispersão, os padrões em si têm implicações importantes para conservação na área, como visto no capítulo anterior.

A variação na presença ou ausência de espécies de infauna (crustáceos e moluscos) não pôde ser explicada por nenhuma das variáveis ambientais ou espaciais disponíveis. Apesar do fato de as curvas de acumulação de espécies mostradas no capítulo 1 (Figura 3) mostrarem que ambos os grupos (e especialmente crustáceos) podem ter sido levemente sub-amostrados, a completa falta de agentes estruturadores sugere que estes grupos estão sujeitos a outros tipos de pressões ecológicas, quando comparados a bentos 56 ou peixes. Além disso, comunidades com poucas espécies, como observado para as comunidades de crustáceos com apenas oito espécies nos locais mais ricos, não estão geralmente submetido em demasia a gradientes ambientais (Blanchet et al. 2014).

A maior parte da variação observada na organização das espécies da BIG não foi explicada por nenhuma das variáveis candidatas, até mesmo para aqueles grupos que tiveram algum fator ambiental ou espacial selecionado. Embora possa parecer contra intuitivo, esse resultado está alinhado com a maioria de estudos similares em diferentes ecossistemas que mostram uma parcela considerável de variação não-explicada, incluindo para organismos marinhos (Cottenie 2005; Chust et al. 2013; Lewis et al. 2015; Navarro et al. 2015). Esta observação recorrente pode ser fruto de efeitos não capturados de variáveis explanatórias não medidas e/ou consideradas nos modelos, má qualidade das variáveis medidas (p.ex. amostras muito pontuais medidas para variáveis com alta instabilidade temporal Borcard et al. 1992, mas veja Økland 1999) ou até mesmo inexistência de barreiras ambientais/espaciais na escala estudada. Outro potencial complicador, aplicável no caso específico deste estudo, é a hidrodinâmica complexa da região (Stevenson et al. 1998), que pode acarretar em uma organização geográfica menos previsível nas distribuições das espécies. Apesar de todos esses fatores poderem de fato explicar os resultados (e provavelmente o fazem em alguma medida), esta mesma observação consistentemente em diversos sistemas naturais sugerem que grande parte da variação em composição seja de fato não causada por fatores determinísticos, como variáveis ambientais e espaciais. Ou ao menos, isto pode ser verdade para a escala de metacomunidade. Variação não-explicada pode ser a consequência de processos estocásticos ou outros processos neutros, ou seja, não determinados por filtros ambientais e diferenciação de nichos (Borcard et al. 1992; Hubbell 2001; Chave and Leigh 2002; Chave 2004; Chust et al. 2013; Vellend et al. 2014, mas veja Økland 1999). Assim, filtragem ambiental e outros processos determinísticos podem não ser essenciais para a determinação da presença e ausência das espécies na escala de metacomunidades em uma dada área, embora possam talvez controlarem suas abundâncias e/ou agir em escalas espaciais distintas. De fato, esse efeito diferencial de descritores espaciais e ambientais na determinação de abundâncias ou presença/ausência já foi recentemente destacado em outros estudos (Blanchet et al. 2014; Navarro et al. 2015). Esta possibilidade deve ser melhor explorada e pode revelar diferenças nas operações de agentes ecológicos (como 57 diferenciação de nicho) e biogeográficos (como imigração e extinção) na determinação de padrões de diversidade (abundância versus presença/ausência) em diferentes escalas.

Os Modelos Lineares Generalizados (GLMs) e a forma de raciocínio da modelagem estatística em geral têm sido amplamente utilizados para análises ecológicas univariadas (Bolker et al. 2009; Zuur et al. 2010, ver capítulo 4). Essas abordagens têm algumas propriedades desejáveis para a análise de dados ecológicos que não podem ser encontradas na maioria dos métodos aplicados e vistos em estudos de ecologia de comunidades (Warton et al. 2012; O’Neil and Schutt 2013; Warton et al. 2015). Todavia, apenas recentemente os avanços teoréticos e computacionais possibilitaram a extensão desses métodos para a investigação de dados resposta multivariados, como tabelas de comunidades com abundâncias e/ou presença/ausência de múltiplas espécies (Wang et al. 2012). O roteiro disponibilizado no Apêndice C foi uma das primeiras tentativas (Rishworth et al. 2016) de aplicar o arcabouço das GLMs para avaliar os agentes determinantes de comunidades marinhas. Futuros avanços nesses métodos são esperados para incrementar as ferramentas disponíveis para se atacar os problemas ecológicos mais comuns. Um primeiro desafio é encontrar uma maneira de particionar a variação explicada (de maneira similar ao que é feito para modelos lineares Borcard et al. 1992; Peres Neto et al. 2006) para se estimar a parcela dos efeitos isolados × combinados (sobrepostos) dos agentes ambientais e espaciais no total do valor-D. Isso permitiria aos pesquisadores examinar os papéis relativos da determinação dos agentes climáticos/ambientais dos processos espaciais na organização das comunidades. De posse dessas informações e de melhores modelos, será possível tomar medidas mais informadas no entendimento e na salvaguarda tão necessitada dos sistemas naturais marinhos.

58

3 INVESTIGAÇÃO DO PAPEL DA COMPETIÇÃO INTERESPECÍFICA E DA ESTOCASTICIDADE NA ESTRUTURAÇÃO DAS COMUNIDADES MARINHAS DA BAÍA DA ILHA GRANDE4

3.1 Introdução

O nicho de uma espécie no senso Grinnelliano (Grinnell 1917) pode ser definido como o conjunto das condições requeridas e como essa espécie responde (fisiológico e comportamentalmente) a estes fatores (Hutchinson 1957). Neste contexto, as interações bióticas com competidores possuem relevância na determinação do nicho, já que o próprio Grinnell, precursor do termo em estudos ecológicos, apontou que em suas observações em aves da Califórnia de que duas espécies estabelecidas em um mesmo habitat jamais possuem “precisamente as mesmas relações de nicho”, demonstrado formalmente mais tarde, também para aves (MacArthur 1957). Posteriormente, ainda foi demonstrado que a competição também se mostrava preponderante na determinação de organismos planctônicos sob condições controladas (Hutchinson 1957). Mais precisamente, a ideia é que a disputa por nutrição e/ou território era a principal motriz das interações competitivas, que determinava onde qual espécie prosperava.

Influenciado pela teoria de nicho, o desenvolvimento da disciplina acarretou na proposição de regras de montagem (tradução livre do original assembly rules) para explicar padrões observados nas co- ocorrências de espécies de aves (Diamond 1975). Essas regras descreviam as comunidades como a consequência de combinações não randômicas das espécies, determinadas pela competição interespecífica e sobreposição dos nichos. Alguns pares de espécies, especialmente as mais próximas evolutivamente como congêneres, seriam proibidos de coexistir no mesmo local devido a similaridades de seus requisitos ecológicos e atributos. Assim, a competição desempenharia um papel fundamental na estruturação das associações de espécies na natureza. Logo ficou evidente que a ideia deveria ser testada à luz de uma hipótese nula em que todos os atributos envolvidos na estrutura da comunidade com exceção do fator sendo estudado, no caso a

4 Texto original em inglês desenvolvido em co-autoria com Joel Creed, Matthew Spencer, Tim Moulton, Carlos Eduardo Ferreira, Renato Ventura, Cristiane Serejo, Clóvis Castro e Débora Pires. Texto original disponível no Apêndice G.

59 co- ocorrência não randômica das espécies constituintes, fossem mantidos fixos na comunidade em estudo (Connor and Simberloff 1979; Diamond and Gilpin 1982; Connor et al. 2013). Assim, a melhor forma de se testar a hipótese de competição era a criação de matrizes binárias (locais × espécies) de “comunidades nulas” (nula no sentido de ausência de interdependência entre as ocorrências das espécies, fruto de competição) e a posterior comparação da comunidade real observada com estas matrizes homólogas. Este tipo de “experimento natural” a partir de observações de comunidades reais (Gotelli and Graves 1996; Gotelli 2016) permite que os pesquisadores contrastem os padrões de co-ocorrência da comunidade observada real com aquelas comunidades idealizadas idênticas à original em todo o resto, porém onde as espécies ocorrem independentemente umas das outras.

Entretanto, ambos os passos, o primeiro de criar as matrizes de composição nulas que mantém propriedades ecológicas mas descartem co- ocorrências não randômicas e o segundo de se estabelecer parâmetros justos de comparação entre as matrizes nulas e a comunidade real observada, se mostraram desafios grandes (Connor et al. 2013; Sanderson and Pimm 2015). A criação de todas as possíveis matrizes nulas com a mesma probabilidade sem viés (chamada de equidistribuição) requer ferramentas matemáticas que podem ser bastante custosas em tempo de computação, eventualmente proibitivas para dados ecológicos grandes (Miklós and Podani 2004; Strona et al. 2014). Por um lado, matrizes nulas sem nenhuma restrição em sua configuração e nas somas totais de linhas e colunas rapidamente podem formar um número enorme de comunidades nulas pouco realistas, fazendo com que a hipótese nula seja artificialmente fácil de ser falseada. Por outro lado, restrições demais provavelmente acarretam em matrizes “nulas” que na verdade são apenas pequenas perturbações da matriz de comunidade original, fazendo ser quase impossível escapar de 퐻0(Gotelli 2000; Sanderson and Pimm 2015). Adicionalmente, a seleção do melhor parâmetro que forneça uma comparação justa entre as comunidades nulas e a real e o estabelecimento da existência ou não de não aleatoriedade nas ocorrências também é problemático. (Diamond and Gilpin 1982; Wright and Biehl 1982; Sanderson and Pimm 2015). Por exemplo, a análise indiscriminada de métricas que unem todos os pares possíveis de espécies ao invés daqueles mais provavelmente sujeitos à competição (ou seja, pares de espécies semelhantes), causa o “efeito diluidor” de possíveis padrões interessantes e tem sido criticada (Diamond and Gilpin 1982; Sanderson and Pimm 2015). Várias outras métricas foram então sendo propostas ao longo dos anos, produzindo às vezes resultados 60 contraditórios acerca da importância da competição na montagem das comunidades ecológicas (Wright and Biehl 1982; Harvey et al. 1983; Connor et al. 2013a; e veja o capítulo seis em Sanderson and Pimm 2015 para uma excelente revisão sobre métricas de conjunto- ensemble metrics- usadas na ecologia).

Após décadas de debate intenso, há um consenso razoável sobre o fato de que métodos que começam com uma matriz nula (aqui no sentido original da palavra em álgebra linear, ou seja, uma matriz composta somente por 0’s) e gradualmente preenchem-na com 1’s obedecendo a restrições pré-estabelecidas (p.ex. o método “tour do cavaleiro de Sanderson et al. 1998 e Gotelli and Entsminger 2001) são preferíveis àqueles algoritmos que começam pela matriz original de presença/ausência e modificam- na. Uma simples modificação do algoritmo swap, chamado de trial-swap, foi proposto por Miklós and Podani (2004) produzindo resultados satisfatórios, ou seja, distribuições equiprováveis das matrizes nulas. Mais tarde, um método de certa forma análogo chamado algoritmo curve ball também demonstrou ser capaz de produzir equidistribuições (Verhelst 2008; Strona et al. 2014; Carstens 2015). Seguindo o debate metodológico, Sanderson and Pimm (2015) propuseram recentemente uma medida par a par entre as espécies para análise comparativa das matrizes nulas com a da comunidade observada.

Dessa maneira, nós decidimos utilizar o vasto conhecimento acumulado por esse debate quase centenário para compreender o papel da competição na estruturação de comunidades marinhas de costões rochosos tropicais usando a abordagem das matrizes nulas. Embora a relevância de interações interespecíficas tenha sido demonstrada pela primeira vez para ambientes marinhos, especialmente mecanismos top-down (Paine 1966; Sutherland 1974; Connell 1978), a maior parte dos estudos com competição clássicos vêm de sistemas terrestres, deixando uma lacuna de conhecimento nos ambientes marinhos.

Nosso objetivo foi investigar se a presença de uma determinada espécie não afetava a presença/ausência de outra ou se de fato existiria quaisquer pares de espécies que ocorrem na Baía da Ilha Grande (BIG) menos frequentemente que o esperado. Mais especificamente, foi o objetivo saber se a presença de uma espécie em uma determinada unidade amostral tornaria menor a probabilidade de encontrar qualquer outra espécie do mesmo grupo taxonômico na BIG. Para isso, formulamos um arcabouço de estudo par a 61 par para investigar se as presenças eram independentes umas das outras para todos os pares de espécies encontrados possíveis.

Em segundo lugar, também queríamos saber se o número que se observa de espécies compartilhadas entre locais era compatível com o esperado se este número fosse determinado por mera chance. Assim, testamos a probabilidade de se encontrar comunidades randômicas (de mesmo tamanho da matriz original) com o mesmo número ou menos espécies compartilhadas que o observado, para cada par de local amostrado. Em outras palavras, investigou-se se os pares de locais visitados compartilhavam menos espécies (sendo assim mais diferentes entre si) que o esperado ao acaso.

3.2 Métodos

3.2.1 Duas maneiras de se computar matrizes nulas

Antes de decidir qual algoritmo usar para computar as matrizes nulas a partir dos dados composição (presença/ausência) dos grupos taxonômicos amostrados da BIG (seção 1.3.1), foram comparadas as performances das duas abordagens escolhidas: a já mais amplamente utilizada trial-swap como proposta por Miklós and Podani (2004) e o método relacionado “curve ball”5. O método trial-swap consiste em uma modificação de algoritmos de swap tradicionais, como o “tour do cavaleiro” (Sanderson et al. 1998; Gotelli and Entsminger 2001). Ele estabelece a priori o número de permutas (swaps) que serão feitas na matriz original. Apesar da proposta original ser provada como capaz de criar um conjunto equiprovável de matrizes nulas, ele é também dispendioso em tempo computacional, o que dificulta o uso para dados ecológicos, geralmente com muitas espécies, que requereriam muitas permutações. Assim, o método combina adicionalmente dois algoritmos mais rápidos para criar uma matriz nula inicial e daí o método trial-swap gera perturbações adicionais para criar equidistribuição nos resultados. Entretanto, a eficiência desses passos adicionados ainda precisa ser igualmente provada (Miklós and Podani 2004; Strona et al. 2014).

5 Um detalhe: como já dito, peixes foram originalmente amostrados em 43 e não 42 pontos. Como as análises desse capítulo são individuais para cada grupo taxonômico, ao contrário dos anteriores que comparava os resultados entre os grupos, o ponto adicional para peixes foi mantido aqui excepcionalmente 62

O algoritmo curve ball foi recentemente proposto como uma alternativa mais rápida ao trial-swap para estudos ecológicos (Strona et al. 2014), embora sua utilidade geral e eficiência em produzir matrizes binárias com distribuição uniforme já houvesse sido demonstrado previamente (Verhelst 2008). A prova da capacidade de equidistribuição foi mais recentemente demonstrada (Carstens 2015).

Não era nosso objetivo comparar sistematicamente os dois métodos, mas somente escolher qual dos dois para utilização em nossos estudos ecológicos. Assim, decidimos por uma maneira rápida de escolha. Similarmente ao que foi feito em outros estudos (Gotelli and Entsminger 2001; Miklós and Podani 2004; Sanderson and Pimm 2015), de uma única matriz binária 3 × 3 com ambos os totais de linhas e colunas fixos em (1,2,1) é possível construir cinco e somente cinco matrizes diferentes:

A B C D E 1 1 0 1 0 1 1 0 1 1 1 0 0 1 1 1 0 0 1 0 0 0 1 0 0 0 1 1 0 0 0 0 1 0 1 0 1 0 0 1 0 0 1 0 0

Começando por cada uma delas por vez, foram calculadas as proporções de cada um dos cinco possíveis resultados utilizando os dois métodos após 10000 iterações para cada um deles e o processo todo repetido 1000 vezes. Foi também calculado o tempo que o processo levou para cada uma das 10000 iterações dos dois métodos.

Os resultados (Tabela 3) sugerem que embora tenha levado mais tempo para o algoritmo curve ball fazer os cálculos, ele forneceu todos as cinco matrizes resultantes com a mesma probabilidade, sem vieses, enquanto o trial-swap teve desempenho levemente enviesado a produzir mais os tipos iguais à matriz inicial. Como equiprobabilidade na geração das matrizes resultantes, sem preferências, é a condição mais importante de um algoritmo de aleatorização e nossos dados não tinham um tamanho impeditivo para o maior tempo gasto pelo curve ball, foi decidido analisar nossos dados da BIG com este método.

Tabela 3 - Resultados da randomização executada pelos métodos curve ball e trial-swap 63 a)

Matriz Inicial Matriz A B C D E Resultante A 0.201 0.199 0.199 0.201 0.200 B 0.199 0.201 0.201 0.199 0.200 C 0.199 0.200 0.201 0.199 0.200 D 0.200 0.199 0.199 0.201 0.200 E 0.199 0.200 0.200 0.200 0.200 *Tempo médio de computação por iteração (10000 matrizes, 1000 vezes) = 5.13 ∓

0.11 푠푒푔푠 b)

Matriz Inicial Matriz A B C D E Resultante A 0.220 0.200 0.181 0.200 0.200 B 0.200 0.220 0.200 0.181 0.200 C 0.181 0.200 0.220 0.200 0.200 D 0.200 0.181 0.200 0.220 0.200 E 0.200 0.200 0.200 0.200 0.200 * Tempo médio de computação por iteração (10000 matrizes, 1000 vezes) = 0.43 ∓

0.04 푠푒푔푠

Legenda: Começando por cada uma das cinco possíveis matrizes binárias 3 × 3 com ambos os totais de linhas e colunas fixos em (1,2,1) e delas criou-se 10000 outras utilizando-se os métodos curve ball e trial-swap para se averiguar se ambos produziam todos os resultados possíveis com mesma probabilidade. Foram rodadas as iterações por 1000 vezes e cronometrado o tempo gasto para cada um produzir as 10000 matrizes binárias. a) algoritmo curve ball.; b) algoritmo trial-swap.

3.2.2 Gerando matrizes binárias nulas para os dados de presença/ausência da BIG

Para se testar se as presenças das espécies encontradas na BIG eram independentes umas das outras, foi usado o algoritmo curve ball em cada uma das matrizes binárias de composição descritas na seção 1.3.1 para cada grupo taxonômico separadamente. 64

Primeiro, estipulou-se todos os possíveis pares de espécies para os seis grupos taxonômicos: algas (5995 pares de espécies), corais (325), equinodermos (351), moluscos (69751), crustáceos (1830) e peixes de recife (15225). Para cada um desses pares, foram observados o número de co-ocorrências, ou seja, o número de locais nos quais ambas as espécies estavam presentes. Depois, foram geradas 10000 matrizes binárias usando os dados originais de composição e investigou-se a distribuição das co- ocorrências de cada um desses pares em cada iteração realizada. Assim, para um dado par de espécies observado, havia 10000 co-ocorrências simuladas. A seguir, foi avaliado onde o valor observado de co-ocorrência real se encaixava na curva de distribuição de co- ocorrências esperadas ao acaso daquele par e estimou-se a probabilidade de se encontrar na curva um número tão extremo como o observado na comunidade real. Como nosso interesse estava na potencial exclusão competitiva de uma espécie pela outra, foi avaliado a probabilidade de se achar na curva de distribuição um número igual ou menor que o observado. Resumidamente, buscou-se valores incomumente baixos de co- ocorrências entre os pares de espécies com um limiar de corte de 5% (0.05), por convenção. Essa abordagem de investigação de todos os pares individualmente foi recentemente proposta pelo livro de Sanderson and Pimm (2015). É uma alternativa às métricas de conjunto, às quais eles chamam de “cloaking metrics” que geralmente usam atributos gerais unindo todos os pares e escondendo anomalias interessantes em subconjuntos específicos dos dados. Para consideração do eventual aumento de erros do Tipo I causados pelo cálculo de milhares de probabilidades, foi calculada posteriormente a False Discovey Rate (FDR) na análise de cada conjunto de dados. A FDR controla para proporção esperada de descobertas (rejeições da hipótese nula) falsas (Benjamini and Hochberg 1995).

Todos os passos acima foram então repetidos, mas mudando de análise em modo- R para modo-Q, isto é, investigando pares de locais (as observações da matriz original) ao invés de pares de espécies (as variáveis da matriz). Foram examinadas a probabilidade de cada par de locais compartilharem o mesmo número de espécies que o observado ou menos. Assim, para os 861 pares de locais amostrados na BIG (903 para os dados de peixes) em cada grupo taxonômico, investigou-se a chance de se achar pares de locais que eram mais dissimilares (compartilhavam menos espécies) que o esperado ao acaso. A rotina para a análise completa está disponível no Apêndice D.

3. 3 Resultados

65

Apenas alguns poucos pares de espécies provenientes dos dados de moluscos e peixes de recife co-ocorreram na BIG com menos frequência do que esperado para comunidades randômicas. À parte de tais exceções, não houve evidência que sugira interdependência das ocorrências das espécies marinhas amostradas dentre os dados coletados.

Não houve valores incomumemente baixos de co- ocorrências para nenhum par nos grupos de bentos de substrato consolidado. Nenhum dos 5995 pares de espécies de algas, 325 de corais ou 351 de equinodermos foi encontrado co-ocorrendo na baía com menor frequência que o esperado para um limiar de 5%. O mesmo foi observado para o grupo de crustáceos de substrato não consolidado.

Um de 69751 pares de espécies de moluscos foi encontrado ocorrendo no mesmo local menos frequentemente que o esperado por 10000 aleatorizações dos dados de presença/ausência (Figura 12, Tabela 4a). A probabilidade de se encontrar o valor tão extremo quanto o observado nos dados reais está representado na última coluna da Tabela 4a.

Tabela 4 - Descrição dos pares de espécies que co- ocorrerram na Baía da Ilha Grande com menor frequência que o esperado ao acaso a)

Par selecionado de moluscos par n° sp1 sp2 observado #co- Probabilidade (sp1,sp2) ocu 1 Corbula sp. Chrysallida somersi 15,21 2 0.0000

b)

Reef fish unusual pairs of species par n° sp1 sp2 observado #co- Probabilidade (sp1,sp2) ocu 1 Chromis multilineata Serranus flaviventris 17,32 8 0.0000 2 Sphoeroides greeleyi Chromis multilineata 6,17 1 0.0000 3 Sphoeroides greeleyi Pareques acuminatus 6,32 3 0.0000 4 Eucinomostus gula Halichoeres poeyi 8,29 1 0.0000 5 Mycteroperca acutirostris Mycteroperca bonaci 15,23 0 0.0000 Legenda: Descrição dos pares de espécies que co-ocorrem na Baía da Ilha Grande (BIG) com menor frequência que o esperado pela randomização de 10000 matrizes binárias com soma das colunas e linhas fixas e iguais àquele observado para as comunidades (presença/ausência) reais de a) moluscos; b) peixes recifais. A primeira coluna representa a designação numérica do par, seguida dos nomes dos respectivos 66 componentes, o número de locais onde cada um foi encontrado na BIG, o número de locais onde as duas ocorrem juntas na BIG e a probabilidade de se encontrar o mesmo valor ou menor de co- ocorrências dentre as 10000 simulações.

Cinco pares de espécies de peixes, de 15255, foram encontradas ocorrendo juntas menos frequentemente que o esperado pelas 10000 matrizes aleatórias. Uma espécie habitante de fundo, o baiacu Sphoeroides greeleyi foi componente de dois desses pares: S. greeleyi × Chromis multilineata; S. greeleyi × Pareques acuminatus. A donzela Chromis multilineata também foi vista menos vezes que o esperado ocorrendo em conjunto com Serranus flaviventrus. Os outros dois pares foram Eucinostomus gula × Halichoeres poeyi e Mycteroperca acutirostris × M. bonaci (Fig. 13, Tabela 4b).

A distribuição espacial de todos os pares incomuns descritos está representada para moluscos na figura 12 e peixes na figura 13.

Figura 12 - Distribuição de Corbula sp. e Chrysallida somersi na Baía da Ilha Grande

Legenda: Mapa da Baía da Ilha Grande (BIG) mostrando os locais onde as duas espécies Corbula sp. e Chrysallida somersi ocorreram juntas (pontos verdes), onde somente Corbula sp. Ocorreu (pontos vermelhos) e onde apenas C. somersi ocorreu. Além disso, locais onde nenhuma das duas foi encontrada estão mostrados em amarelo. Figura 13 - Distribuição dos pares de peixes que apresentaram competição interespecífica na Baía da Ilha Grande 67

68

Legenda: Mapa da Baía da Ilha Grande (BIG) mostrando a distribuição dos pares de peixes recifais que ocorrem com menor frequência que o esperado ao acaso a) Chromis multilineata × Serranus flaviventrus; b) C. multilineata × Sphoeroides greeleyi; c) S. greeleyi × Pareques acuminatus; d) Eucynostomus gula × Halichoeres poeyi and e) Mycteroperca acutirostris × M. bonaci. De forma similar, entre a maioria dos grupos taxonômicos, não houve pares de locais que se afastou do esperado ao acaso no aspecto de número de espécies que eram compartilhadas. Apenas três pares de locais dividiam menos espécies que o esperado para algas bentônicas. Por outro lado, 34 pares de locais (3.7% de todos os pares possíveis) tinham menos espécies de peixes recifais em comum do que o esperado a um limiar de 5%. Tais locais estão listados na Tabela 5. É possível perceber que os componentes dos pares são em geral entre um ponto do lado oeste da baía e o outro de outros pontos (canal central e no entorno da Ilha Grande, Figura 14).

69

Tabela 5 - Pares de locais que compartilharam menos espécies que o esperado ao acaso na Baía da Ilha Grande

Pares de locais com números incomuns de espécies de peixes compartilhadas par n° Local 1 Local 2 # spp # compartilhadas Probabilidad (L1,L2) e 1 1 7 59,15 2 0.0000 2 1 11 59,29 7 0.0000 3 1 14 59,7 0 0.0001 4 1 20 59,10 1 0.0001 5 2 7 38,15 0 0.0000 6 2 11 38,29 4 0.0000 7 2 20 38,10 0 0.0000 8 4 7 36,15 2 0.0001 9 4 11 36,29 6 0.0000 10 7 9 15,41 2 0.0001 11 7 35 15,38 1 0.0000 12 7 37 15,24 1 0.0017 13 7 41 15,48 3 0.0005 14 7 43 15,47 3 0.0001 15 9 11 41,29 4 0.0000 16 9 14 41,7 0 0.0017 17 9 20 41,10 1 0.0018 18 11 22 29,28 5 0.0003 19 11 23 29,30 5 0.0001 20 11 30 29,33 6 0.0004 21 11 33 29,43 8 0.0008 22 11 35 29,38 3 0.0000 23 11 36 29,29 4 0.0000 24 11 37 29,24 3 0.0000 25 11 38 29,37 6 0.0002 26 11 39 29,65 8 0.0000 27 11 40 29,31 5 0.0002 28 11 41 29,48 7 0.0000 29 11 42 29,39 8 0.0016 30 11 43 29,47 4 0.0000 31 14 33 7,43 0 0.0014 32 14 39 7,65 0 0.0000 33 14 41 7,48 0 0.0009 34 14 43 7,47 0 0.0012 Legenda: Descrição dos pares de locais que compartilharam menos espécies de peixes recifais que o esperado após a randomização de 10000 matrizes nulas. A primeira coluna é a identificação numérica do par, seguida do nome dos locais componentes; o número de espécies de peixes encontrados em cada um; o número de espécies que os locais compartilhavam na BIG e a probabilidade de se encontrar um valor igual ou menor de espécies compartilhadas para o respectivo par dentre 10000 comunidades randomizadas.

70

Figura 14 - Conexões entre os 34 pares de locais que compartilhavam menos espécies que o esperado ao acaso na Baía da Ilha Grande

Legenda: Mapa da Baía da Ilha Grande (BIG) mostrando conexões (linhas vermelhas pontilhadas) entre todos os 34 pares de locais encontrados compartilhando menos espécies de peixes de recife que o esperado após randomização de 10000 matrizes nulas. A maior parte das linhas desenha uma segregação Leste-Oeste (veja o texto principal para detalhes)

3.4 Discussão

Em geral, a distribuição (presença/ausência) dos seis grupos taxonômicos investigados da BIG não indicou a existência de competição interespecífica (ou qualquer interação interespecífica negativa de efeito similar) como uma força motriz da composição das comunidades na escala espacial estudada. Entretanto, identificou-se que algumas espécies de fato não ocorrem independentemente de outras, sugerindo que a competição pode estar presente sob algumas circunstâncias peculiares. As poucas espécies que provavelmente estão restritas espacialmente na BIG por competição foram vistas nos dados de moluscos e, mais comumente, peixes recifais.

Para os grupos de bentos de substrato consolidado, algas, corais e equinodermas, não houve evidência de interdependência na co-ocorrência de nenhum par de espécies 71 estudado. Como visto no Capítulo 2, a maior parte da variação na composição entre essas comunidades também não respondeu a gradientes ambientais e espaciais na escala de metacomunidade. Interessante notar que as primeiras proposições de comunidades ecológicas dentro de uma metacomunidade não sendo montadas por processos de nicho como competição e filtragem ambiental (Hutchinson 1957) foram feitas usando organismos bentônicos marinhos como exemplo (Hubbell 1997). Essas comunidades poderiam ser fruto dos chamados processos neutros (no sentido de não serem relacionados ao nicho) e serem determinadas por limitação na dispersão e extinções locais (Hubbell 1997; Hubbell 2001; Chave 2004). É bastante óbvio para qualquer observador que espécies reais são diferentes e possuem nichos. Contudo, eles podem não ser relevantes no controle das presenças e ausências das comunidades em uma escala de metacomunidade, embora seja provável que são fundamentais como agentes da diversidade local, como já foi demonstrado diversas vezes pelos padrões de zonação observados em diversos sistemas bentônicos do planeta (Connell 1961; Paine 1966; Paine 1974; Kaehler and Williams 1996; Kaehler and Williams 1998; Duffy and Hay 2000). Em outras palavras, os processos que governam a biodiversidade em uma dada escala espacial não necessariamente são preponderantes em outras (Wiens 1989; Levin 1992; Schneider 2001).

Paralelo aos bentos de substrato consolidado, os resultados mostraram que as ocorrências dos crustáceos da infauna também não estavam restritas à competição entre espécies. Estes organismos exibiram um padrão peculiar de distribuição espacial (Capítulo 1), onde a maior parte dos locais tinham poucas espécies (em comparação com os outros grupos) e apenas poucas espécies ocorriam em mais de cinco locais amostrados. Assim, não é surpreendente que, na escala observada, a presença de competição entre essas espécies não pode ser observada.

Os resultados para o outro grupo da infauna, os moluscos, mostraram que embora a competição restrinja a distribuição de uma espécie comum da BIG, Corbula sp. ela não é um processo ubíquo entre as espécies. Até mesmo antes do cálculo de correção do FDR apenas 418 dos 69751 pares possíveis (0.6%) apresentaram co-ocorrências menores que o esperado. Contrariamente ao que se observa para os crustáceos, entretanto, os dados dos moluscos exibiram os maiores valores de riqueza dentre todos os grupos ecológicos estudados e apresentaram altos valores de diversidade por toda a baía (Capítulo 1). 72

O outro grupo que apresentou alguns pares com valores incomumente baixos de co- ocorrências foi peixes recifais, com cinco pares. Mais uma vez, embora considera- se este resultado insuficiente para se argumentar que a competição seja um agente relevante nessas comunidades, é importante salientar que parece ser um processo bastante considerável para alguns organismos específicos. Contudo, alguns dos fatores poderiam emergir devido a outros processos, que não competição, relacionados a peculiaridades das espécies envolvidas. Por exemplo, a espécie de baiacu Sphoeroides greeleyi parece ter uma distribuição especial bastante reduzida na baía, ocorrendo em habitats rasos da costa oeste da região. Assim, algumas outras espécies não tão restritas geograficamente (ou restritas a outros tipos de locais) podem raramente co- ocorrer com S. greeleyi. Este parece ser o caso da interação de S. greeley × Chromis multilineata e Pareques acuminatus (pares 2 e 3, Fig.13b-c). As distribuições espaciais desses pares não parecem ser claramente sobrepostas. A não coexistência entre duas espécies é um requisito necessário, mas não suficiente para que ocorra exclusão competitiva. Além de não ocorrerem, a extensão espacial dos habitats das duas espécies deve ser intercalada (Diamond and Gilpin 1982; Connor et al. 2013). Por exemplo, o par de moluscos mostrados na Figura 12 parece ter claramente habitats intercalados não sobrepostos, indício de distribuição restrita por competição. Portanto, examinando as distribuições dos pares de peixes de recife 1 e 2 citados acima, eles não necessariamente representam competidores reais, embora possa-se argumentar que dentro da metacomunidade da baía e considerando-se a mobilidade de peixes, todos os habitats são potencialmente acessíveis e, portanto, intercalados de alguma forma. Como reforço deste argumento, as espécies congêneres Mycteroperca acutitrostris e M. bonaci (Figura 14e) poderiam ser consideradas com habitats não intercalados, embora pareça claro que a falta de sobreposição espacial pode nesse caso ser fruto de exclusão competitiva local, que impede que uma espécie ocorra em toda a região onde a outra é encontrada. Elas foram comumente encontradas na baía (uma sendo registrada em 15 locais e a outra em 23, Tabela 4b) e jamais foram vistas ocorrendo juntas na mesma unidade amostral. Essas duas espécies de garoupa são predadores de fundo, que não costumam nadar grandes distâncias e são usualmente altamente territoriais. Assim, Mycteroperca spp. sugerem que padrões de tabuleiros de xadrez verdadeiros, ou seja, distribuições interpostas e total ausência de co-ocorrências, como originalmente propostos (Diamond 1975; Diamond and Gilpin 1982; Connor et al. 2013) podem ser encontrados na BIG, embora não comumente. 73

Os resultados mostraram que, com exceção de algumas situações, o número de espécies compartilhadas entre os locais não foi diferente das expectativas aleatórias. Isto foi consistente com resultados anteriores em que a maior parte da variação de espécies entre os locais não pode ser explicada por filtros ambientais ou descritores espaciais (Capítulo 2). O padrão de compartilhamento de espécies entre locais poderia ser o resultado de processos determinísticos, onde locais mais similares (em condições ambientais, por exemplo) teriam mais espécies em comum do que o esperado ao acaso (Schutler 1986). Alternativamente, as comunidades poderiam ser consequência de processos neutros, como estocasticidade demográfica, extinção local seguida de imigração aleatória, etc., que poderia levar o padrão de composição de espécies em um local indistinguível do que se espera de uma amostra aleatória do pool regional de espécies (Hubbell 2001). Entretanto, uma proporção pequena das comparações local por local demonstrou compartilhar menos espécies que o esperado para algas e peixes. O determinismo sutil para algas emergiu dos locais mais distintos em composição do lado oeste da baía (Capítulo 1) que são diferentes (de forma não aleatória) de outros locais da região. Também já demonstrada é a presença de águas mais rasas dessa porção ocidental da BIG, o que é parcialmente (mas ainda sim estatisticamente significativo) responsável pela variação nas comunidades de algas (Capítulo 2). Esse efeito sutil e parcial pode ser a explicação do padrão de espécies compartilhadas visto aqui. O mesmo processo pode explicar o padrão encontrado para os dados de peixe, consideravelmente mais explícito. Como visto na figura 14, a maioria dos pares de locais que possuem menos espécies em comum que o esperado exibiu uma diferenciação Leste-Oeste clara. Dessa forma, o resultado observado pode ser um artefato da filtragem longitudinal que ocorre na BIG.

Um último ponto digno de nota versa sobre a escolha do algoritmo para a aleatorização de matrizes. O método mais comumente utilizado trial-swap calculado pela função randomizeMatrix do pacote picante (Kembel et al. 2010) produziu uma distribuição de matrizes levemente enviesada, enquanto o curve ball (Strona et al. 2014) forneceu resultados equiprováveis. Esta pode ser a razão pela qual nenhum par de espécies foi selecionado pelo trial-swap com limiar de 5% para nenhum grupo taxonômico (resultados não mostrados), já que a matriz inicial afetou a distribuição das matrizes nulas, o que pode inflar erros do Tipo II. Por outro lado, contrário ao observado anteriormente (Strona et al. 2014), o algoritmo curve ball levou um tempo consideravelmente maior durante a análise dos dados. Investigações comparativas futuras 74 devem avaliar estas questões para fornecer a base teórica para melhores escolhas de métodos em estudos envolvendo análises de matrizes nulas.

Em suma, os resultados mostraram que embora evidências de exclusão competitiva e até de padrões de tabuleiro de xadrez pudessem ser observados sob algumas circunstâncias, a competição não é um processo onipresente nas comunidades naturais da BIG. A competição, bem como outras interações bióticas negativas, podem, portanto, não ser determinantes no controle da composição em uma escala de metacomunidade, embora possa ser relevante na estruturação da diversidade local e/ou no controle das abundâncias (e não na presença/ausência) das espécies. Essa mesma sugestão foi observada para a baixa resposta dos organismos estudados a gradientes ambientais vistos no capítulo 2. Dessa forma, talvez seja possível para a BIG que processos ecológicos, ligados aos nichos das espécies, ajam em escalas distintas dos processos biogeográficos como imigração e extinção e flutuações estocásticas das populações.

75

4 MODELOS LINEARES GENERALIZADOS (GLMs) SUPERAM EM DESEMPENHO O MÉTODO COMUMEMNTE UTILIZADO DE ANÁLISE CANÔNICA PARA ESTIMAR ESTRUTURA ESPACIAL DE DADOS DE PRESENÇA/AUSÊNCIA6

4.1 Introdução

Muitas comunidades ecológicas tendem a ser espacialmente estruturadas em resposta a gradientes ambientais que, por sua vez, também são organizados no espaço ou ainda a processos espacialmente contíguos como crescimento, dispersão e interações interespecíficas (Peres-Neto and Legendre 2010; Legendre and Legendre 2012). Dessa forma, identificar a variação espacial e as diferentes escalas de organização no espaço das comunidades naturais se torna uma questão central na Ecologia (Legendre 1993). Para explorar tais processos se faz necessária a construção de variáveis explanatórias que reflitam as relações espaciais entre os locais estudados (Dray et al. 2006).

Dentre algumas alternativas propostas, uma abordagem popular aplicada a sistemas ecológicos é chamada de coordenadas principais de matrizes vizinhas (PCNMs na sigla em inglês, Borcard & Legendre 2002; Dray et al. 2006). Este método cria variáveis explanatórias espaciais a partir dos autovetores de uma análise de coordenadas principais (PCoA, Gower 1966) calculada de uma matriz truncada de distancias entre os locais de amostra (ver capítulo 2 e Borcard and Legendre 2002; Dray et al. 2006). Apesar de sua popularidade entre estudos ecológicos, algumas análises sugerem que PCNMs comumente produzem resultados com erros de Tipo I inflados (ou seja, erroneamente detectam um efeito que não existe em realidade) e sobrestimam estatísticas R² como resultado de seleção espúria de eixos não significativos (Gilbert and Bennett 2010).

Em muitos estudos, as variáveis respostas para as quais os ecólogos procuram descritores (variáveis explanatórias, em geral, espaciais e/ou ambientais) são dados de composição da comunidade, contendo abundâncias ou presença/ausência de espécies (aqui, focamos nesta última). Um obstáculo intrínseco na análise de tais conjuntos de

6 Texto original em inglês desenvolvido em coautoria com Joel Creed, Matt Spencer, Tim Moulton, Rafael Feijó, Rob Marrs e Rob Lewis. Texto original disponível no Apêndice G.

76 dados é o fato de que estes comumente saem do escopo das abordagens estatísticas padrões, geralmente adequadas para tratar com distâncias Euclidianas e dados normalmente distribuídos (Legendre and Gallagher 2001; Bolker et al. 2009). Em estudos de Ecologia de Comunidades que buscam os fatores promotores de variação na composição de espécies, i.e. da diversidade beta (Anderson et al. 2011), a questão pode ser abordada de diversas maneiras. Uma das estratégias mais comumente empregadas é a adaptação dos dados de comunidade ao arcabouço de estatística linear, utilizando algum tipo de Análise Canônica (Legendre and Legendre 2012), como a Análise de Redundância (RDA, Ter Braak & Prentice 1988). O algoritmo da RDA estima as melhores combinações lineares (no sentido de menores quadrados, veja Legendre & Legendre 2012) das variáveis explanatórias que melhor expliquem a variação nos dados transformados de composição da comunidade (Legendre & Gallagher 2001; Borcard et al. 2011; Blanchet et al. 2014). O resultado da regressão é então plotado em espaço reduzido com eixos ortogonais, como ocorre na Análise de Componentes Principais (PCA). Depois disso, as variáveis explanatórias significativas são selecionadas via seleção progressiva (FW daqui para frente, do inglês Forward Selection sensu Blanchet et al. 2008). A seleção é feita estabelecendo- se dois valores de corte: o R² ajustado e o valor P de alpha (veja abaixo para mais informações e Blanchet et al. 2008 para detalhes). Esta metodologia completa será chamada RDA/FW por questão de brevidade. O método supracitado é amplamente utilizado em estudos explorando a diversidade beta de dados multivariados de composição (presença/ausência) de espécies (veja Legendre et al. 2005; Borcard et al. 2011; Legendre & Legendre 2012; Blanchet et al. 2014; Eisenlohr & Oliveira-Filho 2015; e Saiter et al. 2015 para alguns exemplos). Mais recentemente, alguns estudos propuseram Modelos Lineares Generalizados (GLMs) como alternativa que não requer a pré-transformação dos dados de comunidade, podendo ser ajustada à real distribuição observada dos dados (Warton et al. 2012; Warton et al. 2015; Warton et al. 2016). Além disso, a utilização de abordagens filosófico-metodológicas emprestada da teoria da informação, como o Akaike Information Criteria (AIC, Akaike 1973) também vem sendo defendida em contrapartida dos testes de significância tradicionalmente empregados para escolha de melhores modelos (Anderson et al. 2000; Wagenmakers and Farrell 2004). Este arcabouço será aqui chamado de GLM/AIC.

Alguns trabalhos têm contrastado diversos aspectos dessas duas diferentes linhas de pensamento e destacado alguns problemas alarmantes com métodos padrões aplicados 77 a estudos de ecologia de comunidades (Warton 2005; Gilbert and Bennett 2010; O’Hara and Kotze 2010; Warton et al. 2012). Dentre as principais dificuldades estão a admissão de pressupostos errôneos sobre o comportamento da variância em resposta à variação da média (Warton et al. 2012) e designação incorreta na estrutura dos erros (Warton et al. 2012; Warton et al. 2015; Warton et al. 2016), que não é superada pela transformação dos dados (ver exemplo em Apêndice E) (O’Hara and Kotze 2010). Entretanto, sob certas circunstâncias, como por exemplo em testes de significância de coeficientes, métodos lineares utilizando a transformação adequada foram capazes de superar o desempenho de GLMs (Ives 2015). Poucas tentativas foram feitas para comparar de maneira abrangente esses dois arcabouços utilizando dados de composição simulados realísticos. Em particular, foi nosso objetivo testar ambos os métodos usando dados de presença/ausência, haja visto que esta é a forma comumente disponível a ser coletada de forma consistente em escalas espaciais mais amplas. Assim, nosso objetivo foi simular dados realistas de presença/ausência que representassem estudos típicos de diversidade beta (sensu Legendre et al. 2005 e Anderson et al. 2011) para comparar sistematicamente as performances de RDA/FW e GLM/AIC.

4.2 Materiais e Métodos

4.2.1 Dados das comunidades originais

Nós comparamos os dois métodos no desempenho para seleção de variáveis espaciais usando dados de comunidades simuladas a partir de três conjuntos de dados de composição reais que reúnem propriedades distintas:

A) Presença/Ausência de 110 espécies de macroalgas bentônicas marinhas amostradas pela metodologia Rapid Assessment Program de 42 locais cobrindo uma área de aproximadamente 2000 km2 na Baía da Ilha Grande, Rio de Janeiro (Creed et al. 2007). B) Presença/Ausência de 588 espécies de plantas de pastagens cobrindo 500 km2 da costa da Escócia, Reino Unido. Os dados foram coletados de 3639 quadrats de 5 × 5 m de 94 locais. Nós usamos locais como unidade amostral considerando 78

espécies como presentes quando elas ocorriam em ao menos um quadrat do local (veja Lewis et al. 2014 para mais informações ). C) Presença/ausência de 47 espécies de insetos macro invertebrados de agua doce coletados de 32unidades amostrais em cinco rios tributários do Rio Guapiaçú, Rio de Janeiro (R. Feijo- Lima, dados não publicados).

Para cada um desses conjuntos de dados, foram calculadas as variáveis espaciais correspondentes para serem usadas como variáveis explanatórias para regressão. As PCNMs foram computadas como descrito em Borcard e Legendre (2002) e apenas aquelas PCNMs associadas com autovalores positivos, isto é descrevendo autocorrelação espacial positiva, foram retidas (Borcard and Legendre 2002). Neste método, os autovalores maiores criados estão associados a escalas espaciais mais amplas, enquanto valores menores representam estruturas espaciais mais finas. O conjunto de dados A produziu 15 PCNMs positivas a partir de 42 pontos, B obteve 20 PCNMs, e C gerou apenas duas PCNMs descritoras de autocorrelação positiva.

4.2.2 Simulando comunidades com estrutura espacial pré-estabelecida

Comunidades realísticas foram criadas usando as três comunidades reais como molde e as respectivas PCNMs positivas. Depois, o número de PCNMs com coeficientes diferentes de zero (daqui para frente PCNMs dz-coef) foi variado e foram criadas novas composições de comunidades binárias (presença/ausência) com o mesmo número de locais e mesmo número de espécies que as comunidades base reais. Estas comunidades refletiam, portanto, somente o efeito das PCNMs dz-coef.

Para simular as novas comunidades binárias, foi primeiro estimada uma matriz de coeficientes 퐁 de tamanho (m variáveis + 1 linhas com interceptos × p espécies) para cada um dos conjuntos de dados originais. Isto foi possível utilizando- se a função manyglm para erros binomiais do pacote mvabund do R (Wang et al. 2012), a partir da matriz de variáveis explanatórias X (n locais × m PCNMs positivas + 1 primeira coluna com 1’s. A matriz 퐁 apresenta o efeito de cada variável explanatória em probabilidades de presença (em escala logit). O pacote mvabund fornece um arcabouço GLM para dados multivariados da variável resposta. 79

Depois, foram criados novos cenários hipotéticos gerando- se uma nova matriz de ∗ ∗ coeficientes 퐁 de mesmo tamanho de 퐁, cujos elementos 푏푘푗 são dados por

∗ 푏푘푗 = 푏1푗, se 푘 = 1, 푗 = 1,2, … , 푝, ∗ { 푏푘푗~ 퐹̂푏 , se 푘 − 1 ∈ 퐾, 푗 = 1,2, … , 푝, (5) ∗ 푏푘푗 = 0, de outra forma,

onde 퐹̂푏é a função distribuição empírica de 푏푘푗 (k=2, 3, …, m+1, j= 1, 2, …, p) ∗ (Evans et al. 2000), e os 푏푘푗 são amostrados com reposição. A série K define em qual linha de 퐁∗ os coeficientes não-zero são alocados: utilizamos 13 séries possíveis (veja Tabela 6). Em outras palavras, foram usados os interceptos originalmente estimados em cada simulação (primeira linha da equação 5), e assinalou- se os outros coeficientes não- zero (segunda linha da equação 5) da distribuição empírica dos coeficientes originais estimados a partir das variáveis explanatórias.

A partir daí foram calculadas as probabilidades de presença 푝̂푖푗 para a espécie j no local i. Dada a matriz 퐘̂ = 퐗퐁∗ (n locais × p espécies) das probabilidades logit de presença, a probabilidade predita de presença é

exp(푦̂푖푗) 푝̂푖푗 = . (6) 1+ exp(푦̂푖푗)

O valor da presença/ausência da espécie j no local i foi amostrado de uma distribuição de Bernoulli com probabilidade de sucesso 푝̂푖푗. O resultado é uma matriz de comunidade com mesmo numero de locais e mesmo numero esperado de espécies que a matriz da comunidade original, com coeficientes realistas tirados dos autovetores espaciais. Assim como na estimativa de máxima verossimilhança feita pelo manyglm (Wang et al. 2012), existe a premissa de que espécies e locais sejam condicionalmente independentes na geração dos dados de presença/ausência simulados, a partir dos valores das variáveis explanatórias. Importante ressaltar também que não é possível simular dados binários usando RDA, já que RDA não gera probabilidades de presença.

A seleção de variáveis de GLM vs. RDA foi comparada sob 13 diferentes cenários, alterando o número de coeficientes não-zero (nVar) e se estes coeficientes estavam associados a larga ou fina escala espacial. Foram simuladas até seis opções em 80 nVar: zero, um, dois, aproximadamente metade, aproximadamente três quartos e todas (Tabela 6 a-c, linhas). Foram também simulados três tipos de padrões na escala espacial. Como já explicado, PCNMs associadas a autovalores grandes representam escalas espaciais mais amplas. As PCNMs foram então ordenadas em ordem crescente de autovalores e os coeficientes não-zero na matriz B* foram arranjados de três diferentes formas (Tabela 1 a-c, colunas): apenas PCNMs dz-coef de ampla escala (escala 1); apenas PCNMsdz-coef de fina escala (escala 2); e metade ampla metade fina escala (escala 3). Pelo fato de nem toda combinação do número de coeficientes não-zero e escala espacial serem possíveis (p.ex. escala 3 não existe para 푛푉푎푟 = 1), existem 13 combinações possíveis, exceto para o conjunto C, que somente possuía duas PCNMs positivas e, dessa forma, apenas quatro cenários possíveis.

Tabela 6 - Possíveis cenários para simulação dos três conjuntos de dados

Escala 1 2 3 (a) 0 Nenhum - - 1 {1} {15} - 2 {1,2} {14,15} {1,15} ⌊푚/2⌋ {1,2, … ,6} {10,11, … , 15} {1,2,3,13,14,15} ⌊3푚/4⌋ {1,2, … ,10} {6, 7, … , 15} {1,2, … ,5,11,12, … ,15} 푚 {1,2, … ,15} - -

(b) 0 Nenhum - - 1 {1} {20} - 2 {1,2} {19,20} {1,20} ⌊푚/2⌋ {1,2, … ,10} {11,12, … , 20} {1,2, … ,5,16,17, … ,20} ⌊3푚/4⌋ {1,2, … ,14} {7, 8, … , 20} {1,2, … ,7,14,15, … ,20} 푚 {1,2, … ,20} - -

(c) 1 2 3 0 Nenhum - - 1 {1} {2} - 2 {1,2} - - ⌊푚/2⌋ - - - ⌊3푚/4⌋ - - - 푚 - - -

Legenda: Cenários possíveis de simulação para os conjuntos de dados. Nas linhas estão os números de coeficientes não- zero na matriz simulada de coeficientes B* (m variáveis + 1 × p espécies) como definido pela série K (veja no texto), e colunas mostram as escalas de organização espacial possíveis. Traços indicam combinações não possíveis. Tabela 1. a) dados da comunidade de macroalgas, 푚 = 15; b) dados de vegetação da Escócia, 푚 = 20; c) dados de macroinvertebrados de água doce, 푚 = 2. As células contêm o índice da posição da variável explanatória na matriz. Contudo, a posição real do índice em X e no índice da linha em B* são uma unidade maior, já que a primeira linha e coluna representam os interceptos. Quando 푛푉푎푟 = 0, nenhuma das variáveis possui coeficientes não- zero.

4.2.3 RDA e GLM 81

Foi utilizada a função padrão para RDA do pacote vegan (R Core Team 2015; Oksanen et al. 2016), com os dados de composição das comunidades como variável resposta e as PCNMs positivas ortogonais geradas a partir da matriz truncada de distância entre os pontos como variáveis explanatórias. Para calcular uma transformation- based RDA (Borcard et al. 2011; Blanchet et al. 2014), foi feita a transformação de Hellinger nos dados binários, como recomendado por Legendre & Gallagher (2001) and Borcard et al. (2011); mas veja tambem Blanchet et al. (2014). Legendre & Gallagher (2001) e Borcard et al. (2011); mas veja também Blanchet et al. (2014).

GLMs binomiais foram feitas usando os mesmos dados com o função manyglm do pacote mvabund do R (Wang et al. 2012).

4.2.4 Comparando a seleção de modelos dos métodos RDA e GLM

Os resultados da seleção de modelo entre as duas abordagens foram comparados usando- se a seleção normalmente usada para RDA e uma abordagem similar para GLMs: seleção progressiva (FW, da sigla em inglês) para RDA, como descrito por Blanchet et al. (2008), e seleção progressiva com critério de interrupção baseada em Akaike Information Criterion (AIC) para GLMs (Akaike 1973; Wagenmakers and Farrell 2004). FW seleciona modelos através da adição gradual de variáveis até que o menor valor de P entre as variáveis excluídas exceda o limiar de alpha (geralmente 0.05), ou ainda que o R2 ajustado exceda o valor observado do modelo contendo todas as variáveis disponíveis. Este duplo critério de seleção é defendido como um método mais conservativo de seleção e é implementado pela função forward.sel do pacote packfor (Dray et al. 2013). Em contrapartida, foi usado um método baseado em AIC para selecionar GLMs, começando do modelo nulo (i.e. sem nenhuma variável resposta inclusa) e adicionando- se uma variável explanatória por vez, até que nenhum incremento na soma do AIC sobre cada variável resposta fosse possível. Esta foi a escolha utilizada já que o número geralmente alto de PCNMs torna difícil a comparação das somas de AIC sobre todas as GLMs possíveis.

O desempenho de cada método na escolha dos modelos dos dados simulados foi aferido por dois critérios. Primeiro, foi contabilizado quantas PCNMs com coeficiente 82 igual a zero foram erroneamente inclusas no modelo final (erro Tipo I). Em segundo lugar, foram também contadas quantas PNCMs dz-coef foram incorretamente deixadas de fora do modelo final (erro Tipo II). Além disso, a acurácia geral foi medida pela proporção entre as PCNMs cujas inclusão ou exclusão foram corretas. Cada uma das combinações das condições da Tabela 1 foi replicada 1000 vezes para cada um dos três conjuntos de dados descritos na seção Dados das comunidades originais e testada em cada um dos dois arcabouços metodológicos. Isto resultou em 13000 (de 13 combinações possíveis) dados simulados para os conjuntos A e B. Como 푚 = 2 para o conjunto C, apenas quatro condições eram aplicáveis e, assim, 4000 comunidades simuladas foram geradas. O roteiro completo para as análises no ambiente R (R Core Team 2014) está disponível no Apêndice F.

4.3 Resultados

De forma geral, o método GLM teve melhor desempenho que RDA na seleção correta dos modelos (Figura 15), incluindo as variáveis com coeficientes não- zero e corretamente excluindo aquelas com coeficientes nulos do modelo final. A performance geral das GLMs foi de 97% para os três conjuntos de dados, contra 83% da RDA. Além disso, o desempenho médio da GLM se manteve sempre alto, com o menor valor sendo 92% enquanto acurácia na RDA foi mais variante, com valores alterando de 63% a 98%, dependendo das condições de modelagem (Tabela 2 a-c).

Figura 15 - Comparação dos desempenhos gerais entre os métodos GLM/AIC e RDA/FW

83

Legenda: Comparação dos desempenhos gerais entre os métodos GLM/AIC (azul) e RDA/FW (vermelho) para dados de presença/ausência simulados. Os resultados no eixo y representam o número de PCNMs corretamente incluídas ou excluídas do modelo final. Esta comparação foi feita entre simulações com diferentes números de PCNMs com coeficientes não- zero (eixo x). a) dados simulados a partir das espécies de macroalgas da Baía da Ilha Grande; b) dados da vegetação da costa da Escócia e c) dados de espécies de insetos macroinvertebrados de água doce. Em geral, GLM/AIC teve um desempenho bastante previsível: a performance foi quase perfeita quando algumas ou nenhuma das variáveis explanatórias tinham coeficientes não-zero (i.e. 푛푉푎푟 = 0,1,2 표푢 푚/2), depois apresentou uma queda considerável em acurácia quando muitas ou todas as variáveis deveriam ser incorporadas 3푚 ao modelo final (푛푉푎푟 = 표푢 푚) (linhas azuis na Figura 15 a-c). Importante ressaltar 4 também que quando o modelo tinha um pequeno número de variáveis disponíveis para selecionar (exemplo aqui dos dados C de agua doce com apenas duas PCNMs), a seleção em qualquer cenário de simulação foi perto de 100% em acurácia, com apenas seis eventos em todas as 4000 simulações em que uma ou mais variáveis foram incorretamente excluídas do modelo final (Tabela 7 c). Houve também um comportamento previsível da 84

RDA/FW: o desempenho teve um pico quando 푛푉푎푟 = 0 e 푛푉푎푟 = 푚, com valores intermediários demonstrando um decréscimo considerável no sucesso da seleção. Apesar deste padrão bimodal geral na seleção de RDA/FW, a queda em acurácia observada para valores intermediários de nVar (demonstrado pela queda nas linhas vermelhas entre diferentes valores de nVar na figura 15 a-c) variou consideravelmente entre os conjuntos de dados. Isto faz com que inferências gerais sobre os resultados de RDA/FW sejam mais difíceis.

Os dois métodos diferiram substancialmente no que tange o tipo de erro mais comumente encontrado. O método baseado em AIC usado para seleção de GLMs quase não produziu erros do Tipo I (Tabela 7 a-c). No entanto, quando 푛푉푎푟 = 3푚/4 ou 푛푉푎푟 = 푚 para os conjuntos A e B, algumas variáveis que deveriam ser inclusas nos modelos finais foram deixadas de fora, produzindo às vezes taxas de erro Tipo II maiores que as observadas para RDA/FW nas mesmas condições (ex. Tabela 7b). Entretanto, GLM/AIC jamais apresentou acurácia menor que 92% no geral. Por outro lado, RDA/FW incluiu variáveis no modelo final mais do que deveria com relativa frequência, levando a valores maiores de erros do Tipo I (Tabela 7 a-c). Tais erros ocorreram especialmente quando 0 < 푛푉푎푟 ≤ 3푚/4. Sob algumas condições, até mesmo um terço das variáveis selecionadas pela RDA/FW tinham coeficientes iguais a zero.

85

Tabela 7 - Proporções de acertos e erros do Tipo I e II para os métodos GLM/AIC e RDA/FW

GLM RDA Geral Escala1 Escala2 Escala3 Geral Escala1 Escala2 Escala3 (a) Correto 0.94 0.92 0.96 0.95 0.86 0.83 0.94 0.83 Tipo I 0.00001 0 0 0.00004 0.12 0.16 0.04 0.16 Tipo II 0.06 0.08 0.04 0.05 0.01 0.009 0.02 0.009 (b) Correto 0.98 0.97 0.99 0.98 0.75 0.82 0.73 0.64 Tipo I 0 0 0 0 0.25 0.18 0.27 0.36 Tipo II 0.02 0.03 0.01 0.02 0.00001 0 0.00003 0.00001 (c) Correto 0.99 0.99 1 - 0.89 0.98 0.63 - Tipo I 0 0 0 - 0.11 0.02 0.37 - Tipo II 0.0006 0.0008 0 - 0 0 0 - Legenda: Proporção de variáveis corretamente incluídas ou excluídas nos modelos mostradas para a comparação entre os arcabouços metodológicos GLM/AIC e RDA/FW e proporção dos erros dos tipos I e II em 1000 simulações para diferentes escalas espaciais feitas para cada método. a) dados simulados a partir das macroalgas da Baía da Ilha Grande; b) dados baseados nas espécies de plantas da Escócia e c) dados simulados a partir das espécies de insetos macroinvertebrados de água doce.

A alteração na organização de escala das PCNMs, ou seja, se eram descritoras de estruturas de ampla ou fina escala ou uma mistura de ambas, teve pequeno efeito no desempenho de GLM/AIC (Figura 16). Uma sutil diferença na capacidade de selecionar modelos entre as escalas 1 para 2 e 3 foi encontrada unicamente em um dos cenários modelados, no conjunto B (Fig. 16b, 푛푉푎푟 = 14). Por outro lado, a diferença na escala espacial das variáveis afetou frequentemente o desempenho de RDA/FW, embora não tenha havido um padrão obviamente discernível entre os diferentes conjuntos de dados e diferentes condições de modelagem.

86

Figura 16 - Comparação dos desempenhos entre os métodos GLM/AIC e RDA/FW sob diferentes condições de escala espacial

Legenda: Desempenho comparativo dos modelos entre os métodos GLM/AIC (azul) e RDA/FW (vermelho) sob variação da escala espacial das PCNMs com coeficientes diferentes de zero. Escala espacial foi definida como ampla (1), fina (2) e mista (3) (quando aplicável). a) dados simulados a partir das espécies de macroalgas da Baía da Ilha Grande; b) dados simulados a partir das espécies da vegetação costeira da Escócia e c) dados simulados a partir da composição de espécies de insetos macroinvertebrados de agua doce. 87

4.4 Discussão

Na seleção de variáveis explanatórias espaciais, a utilização de GLMs seguidas por uma seleção progressiva baseada em AIC (GLM/AIC) teve desempenho superior àquele observado pelo método mais comumente utilizado de RDA seguido pela seleção progressiva FW (RDA/FW). Não apenas o desempenho geral de GLM/AIC foi superior, como foi mais consistente ao longo das várias condições de simulação diferentes. Em contraste, RDA/FW comumente se comportou de maneira imprevisível, mas geralmente retendo variáveis explanatórias em excesso (Tabela 7).

Os problemas metodológicos associados ao uso de dados com erros de distribuição não- Gaussiana, como o clássico caso dos dados de presença/ausência de estudos ecológicos, não são novidade na ciência (Wolda 1981; McCullagh and Nelder 1989; Legendre and Gallagher 2001). Modelos lineares clássicos como a RDA (Legendre and Anderson 1999; Legendre and Legendre 2012), possuem pressupostos (explícitos ou não) quanto à constância na variação dos dados (ter Braak & Prentice 1988) que não podem ser cumpridos por dados de presença/ausência, nem mesmo após transformação dos dados (O’Hara and Kotze 2010; Warton et al. 2012). Pressupor incorretamente a linearidade (e a consequente variância constante) pode levar a sérios problemas. Infelizmente, a RDA é um método algorítmico que toma decisões implícitas sobre a distribuição das variâncias (ter Braak and Prentice 1988; Warton et al. 2012) e não proporciona a flexibilidade para separar variação sistemática de ruído da mesma forma que modelos estatísticos fazem (Warton et al. 2015; e veja O’Neil & Schutt 2013 para diferenças entre algoritmos e modelos estatísticos). Dentre estes, as GLMs permitem esta possibilidade desejável de se definir a priori e de maneira explícita o tipo de distribuição dos dados e, por isso, é esperado que sejam superiores em desempenho para dados que fujam das premissas lineares (O’Hara & Kotze 2010; Warton et al. 2012, 2015). Modelos estatísticos são agora comuns em estudos ecológicos para dados uni variados (Bolker et al. 2009; Zuur et al. 2010), porém avanços recentes em teoria e nas ferramentas computacionais permitem a expansão da operação destes modelos para análises multivariadas (Wang et al. 2012; Warton et al. 2016). Mesmo assim, RDA e outros métodos correlatos como Análise de Correspondência Canônica (CCA) continuam populares, apesar de dúvidas acerca de suas aplicabilidades (Gilbert & Bennett 2010,mas veja Diniz-Filho et al. 2012). 88

Outro aspecto geral em relação às performances dos dois métodos diz respeito aos picos de desempenho. O desempenho de GLM/AIC foi perto do ideal entre os diferentes conjuntos de dados quando o número de variáveis que deveria ser selecionado era nenhum ou pequeno relativo à quantidade de variáveis disponíveis. O desempenho somente decaía quando muitas ou todas as variáveis disponíveis deveriam ser retidas no modelo final selecionado. Assim, nas situações em que poucas variáveis explanatórias forem responsáveis pela maior parte da variação na variável resposta, GLM/AIC será mais eficiente que RDA/FW (Figura 15). Por outro lado, RDA/FW funcionou melhor precisamente em situações que são presumivelmente improváveis de serem observadas em muitos sistemas reais, quando 푛푉푎푟 = 0 (onde GLM/AIC funcionou igualmente bem) e 푛푉푎푟 = 푚.

As duas abordagens diferiram no tipo de erros mais recorrentes (embora em menores taxas de erros para GLM/AIC). Enquanto GLM/AIC apresentou maiores taxas de erro Tipo II, RDA/FW tipicamente apresentou com frequência erros do Tipo I, levando a modelos finais com variáveis explanatórias em excesso. Isto foi observado consistentemente em todos os conjuntos de dados (Tabela 7) e de certa forma vão de encontro a outros estudos que anteriormente demonstraram que GLMs produzem elevadas taxas de erros do Tipo I quando comparados a modelos lineares (Ives 2015). Para estudos de diversidade beta, onde o objetivo é identificar as variáveis ambientais associadas às diferenças na composição da comunidade, deixar algumas variáveis relevantes (que afetem a composição) é preferível, em nossa opinião, que incluir variáveis espúrias, cujos efeitos não são realmente importantes. Por outro lado, em outros cenários, como quando se tenta encontrar atributos essenciais que podem ser relevantes para a conservação de uma população ou comunidade, pode ser mais conservativo aceitar um risco maior de se cometer erros do Tipo I.

Além disso, o problema da seleção de modelos envolve um trade-off entre erro e variância, com a inclusão de variáveis desnecessárias inflando a incerteza da estimativa dos parâmetros (Miller 1990). AIC é em geral uma boa maneira de lidar com esse trade- off e, em nossas simulações, a abordagem baseada em AIC funcionou adequadamente para tal trade-off. Dessa forma, nós sugerimos que GLM/AIC vai normalmente superar o desempenho de RDA/FW na seleção de variáveis explanatórias espaciais para dados de composição de presença/ausência de comunidades. Apesar do nosso interesse em alguns atributos das PCNMs em nossas simulações, como explorar as diferenças em escala 89 espacial, é também provável que os resultados aqui demonstrados se mantenham consistentes para outros tipos de variáveis explanatórias (p.ex. ambientais), que não foram testadas aqui.

As diferentes escalas espaciais representadas pelas PCNMs tiveram um efeito negligenciável no desempenho da GLM/AIC, com apenas uma condição em um conjunto de dados apresentando uma diferença detectável de desempenho para diferentes escalas. Em contraste, a eficiência de RDA/FW foi fortemente afetada pela escala espacial. Em sistemas reais, onde a escala espacial em que ocorre a variação na composição não é conhecida a priori, o desempenho de RDA/FW pode, portanto, ser imprevisível.

Em resumo, nós desencorajamos o uso tradicional da RDA/FW empregada para busca por descritores espaciais da variação de dados de comunidade multivariados de presença/ausência. Nestes casos, é recomendável o uso do arcabouço GLM/AIC em substituição. Recomendações similares são passíveis de serem adotadas para outros tipos de dados de abundância de comunidade com distribuição de erros não- normal (p.ex. dados de contagem com muitos zeros ou dados de proporção, Bolker et al. 2009; Warton et al. 2012, 2016) e para variáveis explanatórias ambientais além das espaciais aqui testadas.

90

DISCUSSÃO E CONCLUSÃO GERAIS

A análise dos padrões de diversidade a partir dos dados de presença/ausência dos grupos taxonômicos amostrados pelo RAP expôs questões relevantes acerca da biodiversidade marinha ímpar da região. Grosso modo, as comunidades mais idiossincráticas são as regiões mais rasas do Oeste, enquanto a parte central da baía compreende comunidades formadas pelas espécies ubíquas por toda a região. Além disso, alguns pontos ao redor da Ilha Grande apresentaram também composições singulares, muitas vezes, mas nem sempre, ligadas à alta riqueza de espécies.

Demonstrou- se que de forma geral as comunidades da BIG possuem alta taxa de variação de espécies de um local para outro, medido pela dissimilaridade de Sørensen

훽푆푂푅 e originalmente denominado como diversidade beta (Whittaker 1960a; Baselga 2010; Anderson et al. 2011), embora para alguns o termo seria substituição de espécies (species turnover, sensu Tuomisto 2010). Ficou evidente (capítulo 1) que a maior parte desta variação em todos os grupos estudados se deve à substituição de espécies ao longo de gradientes no espaço, em contraposição à pequena contribuição de diferenças na composição devido a aninhamento. Maior contribuição de substituição de espécies já foi observado previamente para outras áreas de baixas latitudes (abaixo do paralelo 37, Baselga et al. 2012; Bishop et al. 2015 mas veja também Oliveira-Filho et al. in press) e pode ser o resultado de filtros ambientais estabelecidos ao longo de gradientes ou ainda de processos estocásticos ligados a imigração e extinção local (Simpson 1943; Qian et al. 2005; Baselga 2010).

Os filtros ambientais foram capazes de explicar apenas parcialmente o padrão geral Leste-Oeste de diferenciação da diversidade, notadamente claro para espécies de bentos de substrato consolidado e peixes de recife (capítulos 1 e 2). A diferença na profundidade parece selecionar parcialmente a composição de espécies dos locais, tornando clara a distinção entre locais da região de Paraty, a oeste da BIG e a parte central e ao redor da Ilha Grande, com locais mais profundos (capítulo 2). Esta diferenciação também ficou evidente para peixes no capítulo 3, que demonstrou que diversos locais da região oeste tinham menos espécies em comum com locais da parte central ou leste do que o esperado ao acaso. Isto sugere a existência de algum processo não randômico, como 91 a filtragem ambiental (Baselga 2010) age estruturando tais comunidades de maneira significativa, mesmo que não majoritariamente.

Como dito, além de filtragem ambiental, altos valores de substituição de espécies na diversidade beta pode também ser o resultado de estocasticidade. A extinção local de algum indivíduo abre espaço para o estabelecimento de outro qualquer vindo do pool de espécies regional de maneira mais ou menos aleatória (Hubbell 2001). Dessa forma, a substituição por processos estocásticos fica submetido à história natural do local, ou à “contingência histórica” da diversidade regional (Fukami 2015; Mittelbach and Schemske 2015; C. Y. Chang and Marshall 2016), que define quais grupos ou espécies foram previamente capazes de chegar e se estabelecer na região para formar o pool regional. Dessa maneira, embora, como visto anteriormente, a variação na composição da BIG obedece de certa forma ao gradiente de profundidade, principalmente, a maior parte das diferenças nas associações de espécies observadas para todos os grupos de maneira geral são consistentes com a previsão de combinações aleatórias do pool regional (capítulo 3). Isso se deve à incapacidade de os fatores determinísticos estudados (características físico-químicas, capítulo 2, e competição interespecífica, capítulo 3) explicarem a maior parte da variação observada na presença/ausência das espécies na escala de metacomunidade estudada. Estes dois processos supracitados, filtragem ambiental e interações bióticas, são os tradicionalmente considerados causadores de diferenciação nas associações de espécies, embora não os únicos (p. ex. Vanzolini 1974; Ricklefs 2008; Ricklefs 2011).

Obviamente, algumas ressalvas precisam ser destacadas, já que todos os modelos testados nos capítulos anteriores possuem pressupostos que se violados comprometem as conclusões (veja Vellend et al. 2014 para as premissas e vieses em cada um dos modelos aqui utilizados). É possível que a medição inadequada das variáveis descritoras selecionadas seja responsável pela subestimação da importância de filtragem ambiental para a estruturação das comunidades da BIG. Um potencial causador de erro é a pontualidade dos dados. As características físico-químicas da água foram coletadas apenas em um ano da coleta dos dados. O status de uma comunidade em um determinado momento (p.ex. no momento da coleta) pode ser o resultado de características ambientais passadas daquele local, que podem não ser bem representadas pelas amostras do ambiente coletadas no momento do estudo. Na verdade, a própria composição da comunidade varia ao longo do tempo, não garantindo que coletas subsequentes sejam iguais (Russell et al. 92

1995). A BIG é caracterizada pela ação sazonal da ACAS, que traz variação na temperatura da água e nutrientes (Soares-Gomes and Pires-Vanin 2003). Além disso, o hidrodinamismo complexo da baía (Stevenson et al. 1998) pode levar a variações mais agudas e imprevisíveis nas condições locais dos habitats, complicando qualquer tentativa de predição. Em outras palavras, incapacidade de predição nesse caso não necessariamente significa estocasticidade e acaso. Um sistema caótico é caracterizado por um sistema dinâmico e complexo que responde a fatores determinísticos, porém de maneira quase sempre imprevisível, altamente sensível a pequenas variações das condições iniciais (Gleick 1988). Assim, a complexidade e a interação de diversos fatores determinísticos (p.ex. hidrodinamismo complexo do local) podem levar a um padrão final dificilmente distinguível (embora seja intrinsecamente distinto) de um padrão criado ao acaso. Outra possibilidade é que alguma variável importante não foi considerada nas análises. Tentativas posteriores de se relacionar a diferenciação das comunidades com um índice de impacto da região, calculado a partir de coletas também feitas nos pontos de amostragem (Creed et al. 2007, capítulo 14), não mostraram relação entre variação e impacto para nenhum dos grupos (resultados não mostrados). Contudo, é possível que ainda haja variáveis a serem testadas. Entretanto, a consistência dos dados com modelos estocásticos vistos no capítulo 3, o baixo grau de resposta da comunidade a qualquer gradiente na escala estudada (dificilmente ultrapassando 10% de variação explicada) e a concordância com outros trabalhos que chegaram a conclusões semelhantes sugerem ser pouco provável que apenas vieses metodológicos sejam a explicação única dos padrões observados. Ao contrário, parece improvável imaginar que alguma variável ignorada possa explicar a variação observada de maneira muito superior às já analisadas, de forma a satisfatoriamente abarcar ao menos boa parte da variação deixada não-explicada até agora (embora seja muito provável que melhores variáveis possam melhorar as previsões). Assim, é possível que certo grau de estocasticidade seja de fato uma característica da composição das espécies na escala espacial analisada para a BIG. A predominância de processos estocásticos gera ausência de interdependência conspícua nas co-ocorrências das espécies (Capítulo 3) e presença de estrutura espacial porém incapacidade dos gradientes ambientais na escala estudada explicarem a maior parte dos padrões (Capítulo 2), embora seja difícil associar padrão a processos específicos em casos assim (Vellend et al. 2014). 93

Dessa forma, feitas as ressalvas, a forma mais parcimoniosa de interpretar os resultados descritos nos capítulos anteriores é que nenhum fator ambiental ou interação biótica medido foi capaz de predizer satisfatoriamente a maior parte da grande variação no padrão de associação das espécies marinhas amostradas na BIG. Além disso, as espécies não parecem estar restritas de maneira sistemática por competição interespecífica. Com algumas exceções já exploradas no capítulo 3, os locais amostrados também não parecem ser mais dissimilares, isto é, compartilharem menos espécies, do que seriam se as comunidades fossem agrupadas ao acaso. Com isto, conclui-se que, de forma geral, as comunidades locais na BIG não podem ser distinguidas de associações fortuitas das espécies que compõem o pool de espécies regional. Como também já frisado anteriormente, isto não impede que fatores determinístico ajam localmente, estruturando presenças/ausências e/ou abundâncias em nível de diversidade alfa. Esta hipótese é, sem dúvida, digna de investigações no futuro.

Sejam quais forem (se sequer existirem de fato) os fatores estruturadores da metacomunidade da BIG, os resultados aqui mostrados trazem consequências relevantes em termos de estratégias de manejo e proteção da biodiversidade marinha da BIG. De forma holística, os altos valores encontrados de 훽푆푂푅 sugerem que a estratégia de se manter diversas unidades de conservação na área parece ser acertada, já que as comunidades locais variam consideravelmente um local a outro. Adicionalmente, a maior porção desse alto valor de diversidade beta ser composta pela substituição de espécies também advoga a favor da adoção de múltiplas unidades conectadas. Caso as comunidades fossem diferentes por processo de aninhamento, algumas unidades de proteção nas áreas mais ricas seriam suficientes, já que as outras áreas seriam subgrupos destas. Contudo, a alta permuta de identidades de espécies observada de um local para outro exige que todas essas peculiaridades sejam contempladas de forma a manter o pool de diversidade regional. Um destaque especial deve ser dado à região oeste da baía, bastante peculiar em suas composições.

Em retrospecto, em relação aos objetivos propostos no início do presente estudo se descobriu que a) os padrões de diversidade da BIG fornecem não apenas base para se compreender os mecanismos geradores de diversidade como para o planejamento da gestão ambiental no local; b) o papel da profundidade pôde ser observado como principal gradiente ambiental estruturador da discrepâncias da biodiversidade, de ação significativa porém limitada para a maior parte dos grupos estudados (com exceção da infauna); c) a 94 inexistência da competição interespecífica como mecanismo de controle das composições das espécies na BIG, embora seja presente em alguns casos e relevante para algumas espécies, sobretudo de peixes de recife; d) que as diferenças na composição entre os locais da baía não são em geral estatisticamente diferentes do esperado ao acaso.

Em relação às hipóteses pré-estabelecidas, a primeira, em que os gradientes ambientais eram presumivelmente importantes na estruturação das comunidades foi parcialmente confirmada com o efeito observado da profundidade na organização das comunidades. Contudo, o efeito de todas as variáveis medidas quase nunca obteve um poder de previsão considerável da comunidade na escala medida. Da mesma, maneira a expectativa de que a competição tivesse papel preponderante na estruturação das comunidades, em especial em bentos, não pôde ser verificada. Na realidade, os peixes recifais foram o único grupo taxonômico estudado em que a competição interespecífica parece ter um efeito sobre alguns pares de espécies específicos. Assim, a competição por espaço observada no ambiente marinho não resulta no geral em comunidades não- fortuitas de espécies. Uma explicação razoável é que talvez as competências competitivas das espécies não diferem tanto ou não são determinantes para se determinar quem tem sucesso em se estabelecer na escala medida (que difere da observação da competição em escala local, observada em padrões de zonação, por exemplo). Isto sugere que a competição interespecífica tenha um papel mais local que regional, o que pode levar a novos estudos relevantes para a biogeografia.

Por último, este trabalho acrescentou um arcabouço alternativo usando- se GLMs à maneira mais comumente utilizada para análise multivariada em dados de comunidades ecológicas. Após a comparação do método tradicional de análise canônica com a alternativa proposta no capítulo 4, espera-se que esta contribuição seja aproveitada e posta sob escrutínio no futuro. Assim, este trabalho espera não “apenas” contribuir em termos práticos para o conhecimento e conservação deste importante ambiente da BIG. Além disso, foi nosso objetivo contribuir teoricamente para que as empreitadas futuras dos ecólogos que tentam modelar e entender a diversidade biológica sejam cada vez mais próximas da realidade. Quem sabe assim, a pergunta latente no século XX possa finalmente ser respondida no século XXI (Gotelli 1999) e possa ajudar na manutenção das comunidades naturais do planeta. Afinal de contas, se dá mais valor àquilo que se compreende. 95

REFERÊNCIAS

Akaike H. 1973. Information theory and an extension of the maximum likelihood principle. In: Petrov BN, Caski F, editors. Proceedings of the Second International Symposium on Information Theory. Budapest: Akademiai Kiado. p. 267–281. Anderson DR, Burnham KP, Thompson WL. 2000. Null hypothesis testing problems prevalence and an alternative. J. Wildl. Manage. 64:912–923. Anderson MJ, Crist TO, Freestone AL, Sanders NJ, Cornell H V, Comita LS, Davies KF, Harrison SP, Kraft NJB, Stegen JC, et al. 2011. Navigating the multiple meanings of β diversity : a roadmap for the practicing ecologist. Ecol. Lett. 14:19–28. Baas Becking LGM. 1934. Geobiologie of inleiding tot de milieukunde. Van Stockum WP, Zoon, editors. the Netherlands: The Hague. Babyak M a. 2004. What you see may not be what you get: a brief, nontechnical introduction to overfitting in regression-type models. Psychosom. Med. 66:411–421. Baselga A. 2010. Partitioning the turnover and nestedness components of beta diversity. Glob. Ecol. Biogeogr. 19:134–143. Baselga A. 2012. The relationship between species replacement , dissimilarity derived from nestedness , and nestedness. Glob. Ecol. Biogeogr.:1223–1232. Baselga A. 2013. Multiple site dissimilarity quantifi es compositional heterogeneity among several sites , while average pairwise dissimilarity may be misleading. Ecography (Cop.). 36:124–128. Baselga A, Gómez-Rodríguez C, Lobo JM. 2012. Historical legacies in world amphibian diversity revealed by the turnover and nestedness components of beta diversity. PLoS One 7. Baselga A, Orme CDL. 2012. Betapart: An R package for the study of beta diversity. Methods Ecol. Evol. 3:808–812. Bastos M, Callado CH. 2009. O ambiente da Ilha Grande. Laboratório de Ideias. Benjamini Y, Hochberg Y. 1995. Controlling the False Discovery Rate: a Practical and Powerful Approach to Multiple Testing. J. R. Stat. Soc. 57:289–300. Bishop TR, Robertson MP, van Rensburg BJ, Parr CL. 2015. Contrasting species and functional beta diversity in montane ant assemblages. J. Biogeogr. 42:1776–1786. Blanchet FG, Legendre P, Borcard D. 2008. Modelling directional spatial processes in ecological data. Ecol. Modell. 215:325–336. Blanchet FG, Legendre P, Maranger R, Monti D, Pepin P. 2011. Modelling the effect of directional spatial ecological processes at different scales. Oecologia 166:357–368. Blanchet G, Legendre P, Borcard D. 2008. Forward selection of spatial explanatory variables. Ecology 89:2623–2632. Blanchet GF, Legendre P, Bergeron JAC, He F. 2014. Consensus RDA across dissimilarity coefficients for canonical ordination of community composition data. Ecol. 96

Monogr. 84:491–511. Bolker BM, Brooks ME, Clark CJ, Geange SW, Poulsen JR, Stevens MHH, White JSS. 2009. Generalized linear mixed models: a practical guide for ecology and evolution. Trends Ecol. Evol. 24:127–135. Borcard D, Gillet F, Legendre P. 2011. Numerical Ecology with R. New York, NY: Springer New York. Borcard D, Legendre P. 2002. All-scale spatial analysis of ecological data by means of principal coordinates of neighbour matrices. Ecol. Modell. 153:51–68. Borcard D, Legendre P, Drapeau P. 1992. Partialling out the Spatial Component of Ecological Variation Author ( s ): Daniel Borcard , Pierre Legendre and Pierre Drapeau Published by : Ecological Society of America PARTIALLING OUT THE SPATIAL COMPONENT OF ECOLOGICAL VARIATION1. Ecology 73:1045–1055. Ter Braak CJF, Prentice IC. 1988. A Theory of Gradient Analysis. Adv. Ecol. Res. 18:271–317. Burnham KP, Anderson DR. 2002. Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach (2nd ed). Carlos-Junior LA, Neves DM, Barbosa NPU, Moulton TP, Creed JC. 2015. Occurrence of an invasive coral in the southwest Atlantic and comparison with a congener suggest potential niche expansion. Ecol. Evol. 5:2162–2171. Carstens CJ. 2015. Proof of uniform sampling of binary matrices with fixed row sums and column sums for the fast Curveball algorithm. Phys. Rev. E - Stat. Nonlinear, Soft Matter Phys. 91:1–8. Chang CY, Marshall DJ. 2016. Spatial pattern of distribution of marine invertebrates within a subtidal community: do communities vary more among patches or plots? Ecol. Evol. 6:8330–8337. Chang CY, Marshall DJ. 2016. Quantifying the role of colonization history and biotic interactions in shaping communities –a community transplant approach. Oikos:n/a-n/a. Chave J. 2004. Neutral theory and community ecology. Ecol. Lett. 7:241–253. Chave J, Leigh EGJ. 2002. A Spatially Explicit Neutral Model of b-Diversity in Tropical Forests. Theor. Popul. Biol. 62:153–168. Chust G, Irigoien X, Chave J, Harris RP. 2013. Latitudinal phytoplankton distribution and the neutral theory of biodiversity. Glob. Ecol. Biogeogr. 22:531–543. Clarke A, Lidgard S. 2000. Spatial patterns of diversity in the sea: Bryozoan species richness the North Atlantic. J. Anim. Ecol. 69:799–814. Clements F. 1916. Plant sucession, analysis of the development of vegetation. :512. Coll M, Steenbeek J, Sole J, Palomera I, Christensen V. 2016. Modelling the cumulative spatial–temporal effects of environmental drivers and fishing in a NW Mediterranean marine ecosystem. Ecol. Modell. 331:100–114. 97

Colwell RK, Chang XM, Chang J. 2004. Interpolating, extrapolating, and comparing incidence-based species accumulation curves. Ecology 85:2717–2727. Connell JH. 1961. The Influence of Interspecific Competition and Other Factors on the Distribution of the Barnacle Chthamalus Stellatus. Ecology 42:710–723. Connell JH. 1978. Diversity in Tropical Rain Forests and Coral Reefs. Science (80-. ). 199:1302–1310. Connor E, Simberloff D. 1979. The Assembly of Species Communities : Chance or Competition. Ecology 60:1132–1140. Connor EF, Collins MD, Simberloff D. 2013. The checkered history of checkerboard distributions. Ecology 94:2403–2414. Cornell H V. 1985. Species Assemblages of Cynipid Gall Wasps are Not Saturated. Am. Nat. 126:565–569. Cornell H V, Lawton JH. 1992. Species Interactions, Local and Regional Processes, and Limits to the Richness of Ecological Communities: A Theoretical Perspective. J. Anim. Ecol. 61:1–12. Cornell HOVC, Arlson ROHK, Hughes TP. 2007. Scale-dependent variation in coral community similarity across sites, islands, and island groups. Ecology 88:1707–1715. Cottenie K. 2005. Integrating environmental and spatial processes in ecological community dynamics. Ecol. Lett. 8:1175–1182. Creed JC, Pires DO, Figueiredo MA de O. 2007. Biodiversidade Marinha da Baía da Ilha Grande. Serie Biod. Creed JC, Pires DO, Figueiredo MA de O, editors. MMA. Diamond JM. 1975. Assembly of species communities. In: Cody M, Diamond J, editors. Ecology and evolution of communities. Cambridge: Harvard Univ Press. p. 342–444. Diamond JM, Gilpin ME. 1982. Examination of the “Null” Model of Connor and Simberloff for Species Co-Occurrences on Islands. Oecologia 52:64–74. Diniz-Filho JAF, Siqueira T, Padial AA, Rangel TF, Landeiro VL, Bini LM. 2012. Spatial autocorrelation analysis allows disentangling the balance between neutral and niche processes in metacommunities. Oikos 121:201–210. Dray S, Legendre P, Peres-Neto PR. 2006. Spatial modelling: a comprehensive framework for principal coordinate analysis of neighbour matrices (PCNM). Ecol. Modell. 196:483–493. Dray S, Pelissier R, Couteron P, Fortin M-J, Legendre P, Peres-Neto PR, Bellier E, Bivand R, Blanchet FG, De Caceres M, et al. 2012. Community ecology in the age of multivariate multiscale spatial analysis ´. Ecol. Modell. 82:257–275. Duffy JE, Hay ME. 2000. Strong impacts of grazing amphipods on the organization of a benthic community. Ecol. Monogr. 70:237–263. Dutra G, Allen GR, Werner T, McKenna S. 2005. A Rapid Marine Biodiversity Assessment of the Abrolhos Bank, Bahia, Brazil. RAP Bullet. Washington DC, USA: Conservation International. 98

Eisenlohr P V., Oliveira-Filho AT de. 2015. Revisiting patterns of tree species composition and their driving forces in the Atlantic Forests of Southeastern Brazil. Biotropica 47:689–701. Evans M, Hastings N, Peacock B. 2000. Statistical Distributions. Willey. Freedman L, Pee D, Midthune D. 1992. The Problem of Underestimating the Residual Error Variance in Forward Stepwise Regression. J. R. Stat. Soc. Ser. D (The Stat. 41:405–412. Fukami T. 2015. Historical Contingency in Community Assembly: Integrating Niches, Species Pools, and Priority Effects. Annu. Rev. Ecol. Evol. Syst. 46:1–23. Gilbert B, Bennett JR. 2010. Partitioning variation in ecological communities: Do the numbers add up? J. Appl. Ecol. 47:1071–1082. Gleason HA. 1926. The individualistic concept of plant association. Bull. Torrey Bot. Club 53:7–26. Gleick J. 1988. Chaos: Making a New Science. Penguin Books. Gotelli NJ. 1999. How Do Communities Come Together? Science (80-. ). 286:1684 LP- 1685. Gotelli NJ. 2000. Null model analysis of species co-occurrence patterns. Ecology 81:2606–2621. Gotelli NJ. 2016. Checkerboards and Missing Species Combinations: Are Ecological Communities Assembled by Chance? Chance 29:38–45. Gotelli NJ, Colwell RK. 2001. Quantifyinf Biodiversity: Procedures and Pitfalls in the Measurement and Comparison of Species Richness. Ecol. Lett. 4:379–391. Gotelli NJ, Entsminger GL. 2001. Swap and fill algorithms in null model analysis: rethinking the knight’s tour. Oecologia 129:281–291. Gotelli NJ, Graves GR. 1996. Null models in ecology. Smithsonian Institution Press. Götzenberger L, de Bello F, Bråthen KA, Davison J, Dubuis A, Guisan A, Lepš J, Lindborg R, Moora M, Pärtel M, et al. 2012. Ecological assembly rules in plant communities-approaches, patterns and prospects. Biol. Rev. 87:111–127. Gower JC. 1966. Some distance properties of latent root and vector methods used in multivariate analysis. Biometrika 53:325–338. Greenstreet SPR, Robinson L, Reiss H, Kroncke I, Callaway R, Snelgrove P, Costello M, Bergmann M, Hiddink J, Fraser H, et al. 2007. Review of theoretical community ecology: implications for marine communities. 120, ,: FRS Collaborative Report Fish. Res. Serv. Collaborative Report : 08/07. Grinnell J. 1917. The Niche-Relationships of the California Thrasher. Auk 34:427–433. Halpern BS, Walbridge S, Selkoe KA, Kappel C V., Micheli F, D’Agrosa C, Bruno JF, Casey KS, Ebert C, Fox HE, et al. 2008. A global map of human impact on marine ecosystems. Science (80-. ). 319:948–952. 99

Harrison S, Ross S, Lawton J. 1992. Beta diversity on geographic gradients in Britain. J. Anim. Ecol. 61:151–158. Harvey PH, Colwell RK, Silvestown JW, May RM. 1983. Null models in Ecology.pdf. Annu. Rev. Ecol. Syst. 14:189.211. Holt RD. 2003. On the evolutionary ecology of species’ ranges. Evol. Ecol. Res. 5:159– 178. Hubbell SP. 1997. A unified theory of biogeography and relative species abundance and its application to tropical rain forests and coral reefs. Coral Reefs 16:S9–S21. Hubbell SP. 2001. The Unified Neutral Theory of Biodiversity and Biogeography. Princeton, NJ: Princeton University Press. Hutchinson GE. 1957. Concluding remarks. Cold Spring Harb. Symp. Quant. Biol. 22:415–427. Hutchinson GE. 1959. Homage to Santa Rosalia or why are there so many kinds of ? Am. Nat. 93:145–159. Hutchinson GE. 1961. The paradox of the plankton. Am. Nat. 95:137–145. Ikeda Y, Stevenson M. 1980. Determination of circulation and short period fluctuation in Ilha Grande Bay (RJ), Brazil. Brazilian J. Oceanogr. 29:89–98. Ikeda Y, Stevenson MR. 1982. Seasonal characteristics of hydrography, turbulence and dispersion near Ilha Grande (RJ), Brazil, based on R/V “Prof. W. Besnard” data. Brazilian J. Oceanogr. 31:11–32. Ives AR. 2015. For testing the significance of regression coefficients, go ahead and log- transform count data. Methods Ecol. Evol. 6:828–835. Jackson DA. 1993. Stopping Rules in Principal Components Analysis : A Comparison of Heuristical and Statistical Approaches. Ecology 74:2204–2214. Jeffers JNR. 1994. The importance of exploratory data analysis before the use of sophisticated procedures. Biometrics 50:881–883. Jost L. 2006. Entropy and diversity. Oikos 2. Kaehler S, Williams GA. 1998. Early development of algal assemblages under different regimes of physical and biotic factors on a seasonal tropical rocky shore. Mar. Ecol. Prog. Ser. 172:61–71. Kaehler S, Williams G a. 1996. Distribution of algae on tropical rocky shores: spatial and temporal patterns of non-coralline encrusting algae in Hong Kong. Mar. Biol. 125:177–187. Kembel SW, Cowan PD, Helmus MR, Cornwell WK, Morlon H, Ackerly DD, Blomberg SP, Webb CO. 2010. Picante: R tools for integrating phylogenies and ecology. Bioinforma. 26:1463–1464. Kendall VJ, Haedrich RL. 2006. Species richness in Atlantic deep-sea fishes assessed in terms of the mid-domain effect and Rapoport’s rule. Deep Sea Res. Part I Oceanogr. 100

Res. Pap. 53:506–515. Kindt R, Van Damme P, Simons AJ. 2006. Patterns of species richness at varying scales in western Kenya: Planning for agroecosystem diversification. Biodivers. Conserv. 15:3235–3249. Koutsoukos VS, Villaça RC, Széchy MTM. 2015. The structure of subtidal macroalgal assemblages at the Tamoios ecological station, a threatened conservation unit in Rio de Janeiro, Brazil. Brazilian J. Oceanogr. 63:71–82. Lauria V, Garofalo G, Gristina M, Fiorentino F. 2016. Contrasting habitat selection amongst cephalopods in the Mediterranean Sea: When the environment makes the difference. Mar. Environ. Res. 119:252–266. Legendre P. 1993. Spatial Autocorrelation : Trouble or New Paradigm ? Ecology 74:1659–1673. Legendre P, Anderson MJ. 1999. Distance-based redundancy analysis: Testing multispecies responses in multifactorial ecological experiments. Ecol. Monogr. 69:1– 24. Legendre P, Borcard D, Peres-Neto PR. 2005. Analyzing beta diversity: partitioning the pstial variation of community composition data. Ecol. Monogr. 75:435–450. Legendre P, Gallagher ED. 2001. Ecologically meaningful transformations for ordination of species data. Oecologia 129:271–280. Legendre P, Legendre L. 2012. Numerical Ecology. Third Engl. Amsterdam: Elsevier Ltd. Leibold MA, Holyoak M, Mouquet N, Amarasekare P, Chase JM, Hoopes MF, Holt RD, Shurin JB, Law R, Tilman D, et al. 2004. The metacommunity concept: A framework for multi-scale community ecology. Ecol. Lett. 7:601–613. Levin SA. 1992. The problem of pattern and scale in ecology. Ecology 73:1943–1967. Lewis R, Marrs RH, Pakeman RJ, Lennon J. 2015. Climate drives temporal replacement and nested-resultant richness patterns of Scottish coastal vegetation patterns of Scottish coastal vegetation. Lewis RJ, Pakeman RJ, Marrs RH. 2014. Identifying the multi-scale spatial structure of plant community determinants of an important national resource. J. Veg. Sci. 25:184– 197. Lortie CJ, Brooker RW, Choler P, Kikvidze Z, Michalet R, Pugnaire FI, Callaway RM. 2004. Rethinking plant community theory. Oikos 107:433–438. MacArthur RH. 1957. On the relative abundance of bird species. Proc. Natl. Acad. Sci. U. S. A. 43:293–295. McCullagh P, Nelder JA. 1989. Generalized Linear Models. 2° Edition. Boca Raton: Chapman and Hall/CRC. McKenna S, Allen GR. 2002. A Marine Rapid Assessment of the Togean and Banggai Islands, Sulawesi, Indonesia. Rapid Assessment Program. 101

McKenna S, Allen GR, Randrianasolo H. 2009. A Rapid Marine Biodiversity Assessment of the Coral reefs of Northwest Madagascar. Washington DC, USA: Conservation International. Mieszkowska N, Kendall MA, Hawkins SJ, Leaper R, Williamson P, Hardman- Mountford NJ, Southward AJ. 2006. Changes in the range of some common rocky shore species in Britain - A response to climate change? Hydrobiologia 555:241–251. Miklós I, Podani J. 2004. Randomization of presence-absence matrics: comments and new algorithms. Ecology 85:86–92. Miller A. 1990. Subset Selection in Regression. London: Chapman and Hall. Mittelbach GG, Schemske DW. 2015. Ecological and evolutionary perspectives on community assembly. Trends Ecol. Evol. 30:241–247. Morfin M, Fromentin JM, Jadaud A, Bez N. 2012. Spatio-temporal patterns of key exploited marine species in the Northwestern Mediterranean sea. PLoS One 7. Navarro J, Coll M, Cardador L, Fernández ÁM, Bellido JM. 2015. Progress in Oceanography The relative roles of the environment , human activities and spatial factors in the spatial distribution of marine biodiversity in the Western Mediterranean Sea. Prog. Oceanogr. 131:126–137. O’Hara RB, Kotze DJ. 2010. Do not log-transform count data. Methods Ecol. Evol. 1:118–122. O’Neil C, Schutt R. 2013. Doing Data Science. First. O’Reilly. Økland RH. 1999. On the variation explained by ordination and constrained ordination axes. J. Veg. Sci. 10:131–136. Oksanen AJ, Blanchet FG, Friendly M, Kindt R, Legendre P, Mcglinn D, Minchin PR, Hara RBO, Simpson GL, Solymos P, et al. 2016. Package “ vegan .” Paine RT. 1966. Food Web Complexity and Species Diversity. Am. Nat. 100:65–75. Paine RT. 1974. Intertidal community structure: Experimental studies on the relationship between an dominant competitor and its principal predator. Oecologia 15:93–120. Parnell PE. 2015. The effects of seascape pattern on algal patch structure, sea urchin barrens, and ecological processes. J. Exp. Mar. Bio. Ecol. 465:64–76. Pauly D, Watson R, Alder J. 2005. Global trends in world fisheries: impacts on marine Global trends in world fisheries: impacts on marine ecosystems and food security. Philos. Trans. R. Soc. B 360:5–12. Peres-Neto PR, Legendre P. 2010. Estimating and controlling for spatial structure in the study of ecological communities. Glob. Ecol. Biogeogr. 19:174–184. Peres Neto PR, Legendre P, Dray S, Borcard D. 2006. Variation Partitioning of Species Data Matrices : Estimation and Comparison of Fractions. Ecology 87:2614–2625. Qian H, Ricklefs RE, White PS. 2005. Beta diversity of angiosperms in temperate floras 102 of eastern Asia and eastern North America. Ecol. Lett. 8:15–22. Quattrini AM, Gómez CE, Cordes EE. 2016. Environmental filtering and neutral processes shape octocoral community assembly in the deep sea. Oecologia 183:221– 236. Reiss H, Cunze S, König K, Neumann H, Kröncke I. 2011. Species distribution modelling of marine benthos: a North Sea case study. Mar. Ecol. Prog. Ser. 442:71–86. Ricklefs RE. 1987. Community Diversity: Relative Roles of Local and Regional Processes. Science (80-. ). 235:167 LP-171. Ricklefs RE. 2008. Desintegration of the ecological community. Am. Nat. 172:741– 750. Ricklefs RE. 2011. A biogeographical perspective on ecological systems : some personal reflections. :1–12. Ricklefs RE, Cox GW. 1978. Stage of Taxon Cycle, Habitat Distribution, and Population Density in the Avifauna of the West Indies. Am. Nat. 112:875–895. Rishworth GM, van Elden S, Perissinotto R, Miranda NAF, Steyn P-P, Bornman TG. 2016. Environmental influences on living marine stromatolites: insights from benthic microalgal communities. Environ. Microbiol. 18:503–13. [accessed 2016 Oct 1]. http://www.ncbi.nlm.nih.gov/pubmed/26549416 Russell GJ, Diamond JM, Pimm SL, Reed TM. 1995. A century of turnover : community dynamics at three timescales. J. Anim. Ecol. 64:628–641. Saiter FZ, Eisenlohr P V., Barbosa MR V., Thomas WW, Oliveira-Filho AT de. 2015. From evergreen to deciduous tropical forests: how energy–water balance, temperature, and space influence the tree species composition in a high diversity region. Plant Ecol. Divers. 9:1–10. Sanderson JG, Moulton MP, Selfridge RG. 1998. Null matrices and the analysis of species co-occurrences. Oecologia 116:275–283. Sanderson JG, Pimm SL. 2015. Patterns in Nature: The analysis of species co- occurrences. The University of Chicago Press. Schneider DC. 2001. The Rise of the Concept of Scale in Ecology. Bioscience 51:545– 553. Schutler D. 1986. Test for similarity and covergence of finch communities. Ecology 67:1073–1085. Signorini SR. 1980a. A study of the circulation in bay of Ilha Grande and Bay of Sepetiba: part I, a survey of the circulation based on experimental field data. Brazilian J. Oceanogr. 29:41–55. Signorini SR. 1980b. A study of the circulation in Bay of Ilha Grande and Bay of Sepetiba: part II: an assessment to the tidally and wind-driven circulation using a finite element numerical model. Brazilian J. Oceanogr. 29:57–68. Silva AG da, Paula AF de, Fleury BG, Creed JC. 2014. Eleven years of range expansion 103 of two invasive corals (Tubastraea coccinea and Tubastraea tagusensis) through the southwest Atlantic (Brazil). Estuar. Coast. Shelf Sci. 141:9–16. Simpson GG. 1943. Mammals and the nature of continents. Am. J. Sci. 241:1–31. Soares-Gomes A, Pires-Vanin AMS. 2003. Padrões de abundância, riqueza e diversidade de moluscos bivalves na plataforma continental ao largo de Ubatuba, São Paulo, Brasil: uma comparação metodológica. Rev. Bras. Zool. 20:717–725. Soininen J. 2014. A qualitative analysis of species sorting across organisms and ecosystems. Ecol. Monogr. 95:3284–3292. Stevenson MR, Dias-Brito D, Stech JL, Kampel M. 1998. How do cold water biota arrive in a tropical bay near rio de janeiro, brazil? Cont. Shelf Res. 18:1595–1612. Strona G, Nappo D, Boccacci F, Fattorini S, San-Miguel-Ayanz J. 2014. A fast and unbiased procedure to randomize ecological binary matrices with fixed row and column totals. Nat. Commun. 5:4114. Sutherland JP. 1974. Multiple stable points in natural communities. Am. Nat. 108:859– 873. Thomas MLH. 1985. Littoral community structure and zonation on the rocky shores of Bermuda. 37:857–870. Tjur T. 2009. Coefficients of Determination in Logistic Regression Models—A New Proposal: The Coefficient of Discrimination. Am. Stat. 63:366–372. Tonial M, Silva H, Tonial I, Costa M, Silva Júnior N, Diniz-Filho J. 2012. Geographical patterns and partition of turnover and richness components of beta-diversity in faunas from Tocantins river valley. Brazilian J. Biol. 72:497–504. Tuomisto H. 2010a. A diversity of beta diversities : straightening up a concept gone awry . Part 1 . Defining beta diversity as a function of alpha and gamma diversity. Ecography (Cop.). 33:2–22. Tuomisto H. 2010b. A diversity of beta diversities: Straightening up a concept gone awry. Part 2. Quantifying beta diversity and related phenomena. Ecography (Cop.). 33:23–45. Ugland KI, Gray JS, Ellingsen KE. 2003. The species-accumulation curve and estimation of species richness. J. Anim. Ecol. 72:888–897. Vanzolini PE. 1974. Ecological and Geographical Distribution of Lizards in Pernambuco, Northeastern Brazil (Sauria). Pap. Avulsos em Zool. 28:61–90. Vellend M, Srivastava DS, Anderson KM, Brown CD, Jankowski JE, Kleynhans EJ, Kraft NJB, Letaw AD, Macdonald a AM, Maclean JE, et al. 2014. Assessing the relative importance of neutral stochasticity in ecological communities. Oikos:n/a-n/a. Vergnon R, Dulvy NK, Freckleton RP. 2009. Niches versus neutrality: uncovering the drivers of diversity in a species-rich community. Ecol. Lett. 12:1079–1090. Verhelst ND. 2008. An efficient MCMC algorithm to sample binary matrices with fixed marginals. Psychometrika 73:705–728. 104

Villaça R, Fonseca AC, Jensen VK, Knoppers B. 2010. Species composition and distribution of macroalgae on Atol das Rocas, Brazil, SW Atlantic. Bot. Mar. 53:113– 122. Wagenmakers E-J, Farrell S. 2004. AIC model selection using Akaike weights. Psychon. Bull. Rev. 11:192–196. Wang Y, Naumann U, Wright ST, Warton DI. 2012. Mvabund- an R package for model-based analysis of multivariate abundance data. Methods Ecol. Evol. 3:471–474. Warton DI. 2005. Many zeros does not mean zero inflation : comparing the goodness- of-fit of parametric models to multivariate abundance data. Environmetrics 16:275–289. Warton DI, Foster SD, De’ath G, Stoklosa J, Dunstan PK. 2015. Model-based thinking for community ecology. Plant Ecol. 216:669–682. Warton DI, Lyonsy M, Stoklosa J, Ivesz AR. 2016. Three points to consider when choosing a LM or GLM test for count data. Methods Ecol. Evol. 7:882–890. Warton DI, Wright ST, Wang Y. 2012. Distance-based multivariate analyses confound location and dispersion effects. Methods Ecol. Evol. 3:89–101. Westfall PH, Young SS, Lin DKJ. 1998. Forward selection error control in the analysis of supersaturated designs. Stat. Sin. 8:101–117. Whittaker RH. 1960a. Vegetation of the Siskiyou Mountains, Oregon and California. Ecol. Monogr. 30:279–338. Whittaker RH. 1960b. Vegetation of the Siskiyou Mountains, Oregon and California. Ecol. Monogr. 30:279–338. Wiens JA. 1989. Spatial Scaling in Ecology Spatial scaling in ecology1. Source Funct. Ecol. 3:385–397. Wolda H. 1981. Similarity indices, sample size and diversity. Oecologia 50:296–302. Wright SJ, Biehl CC. 1982. Island Biogeographic Distributions: Testing for Random, Regular, and Aggregated Patterns of Species Occurrence. Am. Nat. 119:345–357. Zuur AF, Ieno EN, Elphick CS. 2010. A protocol for data exploration to avoid common statistical problems. Methods Ecol. Evol. 1:3–14.

105

APÊNDICE A – LISTA DE VARIÁVEIS FÍSICO-QUÍMICAS COLETADAS NA BAÍA DA ILHA GRANDE

As variáveis utilizadas nas análises foram selecionadas daquelas disponíveis nos capítulos 4 e 5 de Creed et al. (2007). Para mais informações, a forma de cálculo detalhada de cada variável e a lista completa, consulte (Creed et al. 2007)

Variável Nome 1 Temperatura Superfície 2 Temperatura Fundo 3 Salinidade Superfície 4 Salinidade Fundo 5 Nitrato Superfície 6 Nitrato Fundo 7 Nitrito Superfície 8 Nitrito Fundo 9 Fosfato Superfície 10 Fosfato Fundo 11 Oxigênio Superfície 12 Oxigênio Fundo 13 Clorofila Superfície 14 Clorofila Fundo 15 Profundidade Vertical 16 Profundidade Horizontal 17 KdV 18 Profundida Fundo 19 Agua intersticial afastado 20 Silte/Argila afastado 21 Matéria Orgânica afastado 22 Carbonato afastado 23 Diâmetro sedimento afastado 24 Coeficiente de Seleção afastado 25 Agua intersticial Próximo 26 Matéria Orgânica Próximo 27 Carbonato Próximo 28 Diâmetro sedimento Próximo 29 Coeficiente de Seleção Próximo 30 Índice de Exposição a Ondas 31 Rugosidade 32 Inclinação

106

APÊNDICE B – EDIÇÃO DE PCNMs E MEMs PARA DADOS CONTENDO DISTÂNCIAS SUBAQUÁTICAS

Comparação entre a Minimum Spanning Tree (MST) original (a) com a editada (b), retirando-se as conexões entre pontos que estejam a mais de 4.65km de distância percorrida em terra um do outro (conexões em vermelho na figura b). As conexões que cruzam a terra abaixo desse limiar estão em azul, enquanto as que não cruzam a terra aparecem em verde. Para efeito de comparação acerca do pequeno efeito da edição na MST, o mesmo foi aplicado a outro tipo de estrutura espacial, a triangulação de Delaunay usando um limiar de apenas 1 km (c).

a)

b)

107

c)

108

APÊNDICE C – ROTINA PARA ANÁLISES DE GENERALISED LINEAR MODELS (GLMs) PARA DADOS DE COMPOSIÇÃO DE ESPÉCIES7

rm(list=ls())

mod.selec <- function(mod1,mod2){

add.glm <- add1(mod1,mod2)

done <- FALSE

current.glm <- mod1

while(done == FALSE){

add.glm <- add1(current.glm,mod2)

print(add.glm)

if(which.min(add.glm$AIC) == 1){

done <- TRUE

}else {

select.var <- rownames(add.glm)[which.min(add.glm$AIC)]

current.glm <- update(current.glm,paste("~.+",select.var))

print(formula(current.glm))

}

}

} require(vegan) require(mvabund) envtot <- read.table("environment.txt",header=TRUE) algae <- read.table("spp.txt",header=TRUE) envtot.pca <- rda(envtot,scale=TRUE) ev <- envtot.pca$CA$eig envtot.ev <- scores(envtot.pca,choices=c(1:7),display="sites") loadings <- scores(envtot.pca,choices=c(1:7),display="species",scaling=0)#variable contribution to axes.

#first glm: null model

7 Somente a análise para o modelo ambiental (MA, ver texto) está reproduzida. 109 glm.null <- manyglm(as.matrix(algae)~1,family="binary")

#plot.manyglm(glm.null) fit.null <- fitted.values(glm.null) prob.pres.null <- mean(fit.null[algae == 1]) prob.abs.null <- mean(fit.null[algae == 0])

(D.null <- round(prob.pres.null-prob.abs.null,2))

#environmental model glm.env <- manyglm(as.matrix(algae)~envtot.ev,

show.coef=TRUE, show.fitted=TRUE, show.residuals=TRUE,family="binomial")

#selecionando as variáveis ambientais mod.selec(mod1=glm.null,mod2=glm.env)

#Selecionou- se as PCs 1 e 5, por exemplo glm.env.pars <- manyglm(as.matrix(algae)~envtot.ev[,1]+envtot.ev[,5],family="binomial") fit.env.pars <- fitted.values(glm.env.pars) prob.pres.env.pars <- mean(fit.env.pars[algae == 1]) prob.abse.env.pars <- mean(fit.env.pars[algae == 0])

(D.env.pars <- round(prob.pres.env.pars - prob.abse.env.pars,2))

110

APÊNDICE D – ROTINA PARA ALEATORIZAÇÃO DAS MATRIZES DE COMUNIDADE DO CAPÍTULO 3

rm(list=ls())

curve_ball<-function(m){

RC=dim(m)

R=RC[1]

C=RC[2]

hp=list()

for (row in 1:dim(m)[1]) {hp[[row]]=(which(m[row,]==1))}

l_hp=length(hp)

for (rep in 1:(5*l_hp)){

AB=sample(1:l_hp,2)

a=hp[[AB[1]]]

b=hp[[AB[2]]]

ab=intersect(a,b)

l_ab=length(ab)

l_a=length(a)

l_b=length(b)

if ((l_ab %in% c(l_a,l_b))==F){

tot=setdiff(c(a,b),ab)

l_tot=length(tot)

tot=sample(tot, l_tot, replace = FALSE, prob = NULL)

L=l_a-l_ab

hp[[AB[1]]] = c(ab,tot[1:L])

hp[[AB[2]]] = c(ab,tot[(L+1):l_tot])}

}

rm=matrix(0,R,C)

for (row in 1:R){rm[row,hp[[row]]]=1}

rm 111

} cooc.sum <- function(x, nb.pairs){

nb.cooc <- array(dim=nb.pairs)

for(i in 1:nb.pairs){

nb.cooc[i] <- sum(x[,i][[1]] == 1 & x[,i][[2]] == 1)

}

return(nb.cooc)

} algae <- read.table("spp.txt",header=TRUE) obs.pairs <- combn(algae,2) rep <- 10000 nb.pairs <- ncol(obs.pairs)

#Observed co-occurrences of all possible pairs nb.obs.cooc <- cooc.sum(obs.pairs,nb.pairs) rand.cooc.curve <- array(dim=c(rep,nb.pairs)) system.time(for(i in 1:rep){

rand.mat.curve <- curve_ball(algae)

rand.pairs.curve <- combn(as.data.frame(rand.mat.curve),2)

rand.cooc.curve[i,] <- cooc.sum(rand.pairs.curve,nb.pairs)

}) prop.obs.curve <- array(dim=nb.pairs) for(j in 1:nb.pairs){

prop.obs.curve[j] <- sum(rand.cooc.curve[,j] <= nb.obs.cooc[j])

} prop.obs.curve <- prop.obs.curve/rep

#separating unusual pairs of species real.unusual.pairs <- which(p.adjust(prop.obs.curve, method= "holm") <= 0.05)

#discovering the unusual species names

112 unusual_spp_names <- matrix(ncol=2,nrow=length(real.unusual.pairs)) rowcount <- 1 for(i in real.unusual.pairs[c(1:length(real.unusual.pairs))]){

unusual_spp_names[rowcount,1] <- names(algae[combn(c(1:ncol(algae)),2)[1,i]])

unusual_spp_names[rowcount,2] <- names(algae[combn(c(1:ncol(algae)),2)[2,i]])

rowcount <- rowcount +1

}

#Now, for site pairs obs.pairsites <- combn(as.data.frame(t(algae)),2) nb.sites <- ncol(obs.pairsites) rand.shared.curve <- array(dim=c(rep,nb.sites))

system.time(for(i in 1:rep){

rand.shar.curve <- curve_ball(t(algae))

rand.pairs.curve <- combn(as.data.frame(rand.shar.curve),2)

rand.shared.curve[i,] <- cooc.sum(rand.pairs.curve,nb.sites)

})

prop.obs.shar <- array(dim=nb.sites) for(j in 1:nb.sites){

prop.obs.shar[j] <- sum(rand.shared.curve[,j] <= nb.obs.shar[j])

} prop.obs.shar <- prop.obs.shar/rep real.unusual.pairs_sites <- which(p.adjust(prop.obs.shar, method= "fdr") <= 0.05)#I tested all the methods for p-adjust and they all provide the same results for algae

#discovering the unusual species names unusual_sites_names <- as.data.frame(matrix(ncol=2,nrow=length(real.unusual.pairs_sites))) rowcount <- 1 for(i in real.unusual.pairs_sites[c(1:length(real.unusual.pairs_sites))]){

unusual_sites_names[rowcount,1] <- combn(c(1:nrow(algae)),2)[1,i] 113

unusual_sites_names[rowcount,2] <- combn(c(1:nrow(algae)),2)[2,i]

rowcount <- rowcount +1

} unusual_sites_names$p_value <- prop.obs.shar[real.unusual.pairs_sites] colnames(unusual_sites_names) <- c("site A","site B","P-value")

114

APÊNDICE E – EXEMPLOS DE ESTRUTURA DOS RESÍDUOS DE REGRESSÃO UTILIZANDO- SE O ARCABOUÇO RDA OU GLM

Abaixo é possível ver a estrutura dos resíduos de uma regressão envolvendo uma variável preditora contínua e os dados de presença/ausência de algas da Baía da Ilha Grande de três formas distintas: a) regressão linear da RDA sem transformação dos dados ; b) regressão linear da RDA após transformação de Hellinger para os dados de presença/auência; c) regressão binomial do pacote mvabund a)

b)

115 c)

116

APÊNDICE F – ROTINA PARA SIMULAÇÕES DE COMUNIDADES COM ESTRUTURA ESPACIAL CONHECIDA PARA COMPARAÇÃO DOS MÉTODOS RDA vs. GLM DO CAPÍTULO 4

rm(list=ls()) library(mvabund) library(vegan) library(boot) library(spacemakeR) library(packfor) library(PCNM) library(formula.tools)

reps <- 1000

forward.selec <- function (Y, X, K = nrow(X) - 1, R2thresh = 0.99, adjR2thresh = 0.99,

nperm = 999, R2more = 0.001, alpha = 0.05, Xscale = TRUE,

Ycenter = TRUE, Yscale = FALSE,trace=FALSE)

{

X <- as.data.frame(X)

Y <- as.data.frame(Y)

if (any(is.na(X)) | any(is.na(X)))

stop("na entries in table")

if (nrow(X) != nrow(Y))

stop("different number of rows")

if (any(apply(X, 2, is.factor)) | any(apply(Y, 2, is.factor)))

stop("not yet implemented for factors")

X <- apply(X, 2, scale, scale = Xscale)

Y <- apply(Y, 2, scale, scale = Yscale, center = Ycenter)

nbcovar <- 0

pval <- rep(1, ncol(X)) 117

ordre <- rep(0, ncol(X))

R2 <- rep(0, ncol(X))

adjR2 <- rep(0, ncol(X))

Fvalue <- rep(0, ncol(X))

res <- list()

res <- .C("forwardsel", as.double(t(X)), as.double(t(Y)),

as.integer(nrow(X)), as.integer(ncol(X)), as.integer(ncol(Y)),

pval = as.double(pval), ord = as.integer(ordre), Fval = as.double(Fvalue),

as.integer(nperm), R2 = as.double(R2), adjR2 = as.double(adjR2),

as.integer(K), as.double(R2thresh), as.double(adjR2thresh),

as.double(R2more), as.integer(nbcovar), as.double(alpha),

PACKAGE = "packfor")[c("ord", "Fval", "pval", "R2", "adjR2")]

lambdA <- c(res$R2[1], diff(res$R2))

resmat <- data.frame(res$ord, lambdA, res$R2, res$adjR2,

res$Fval, res$pval)

if (sum(res$ord > 0) == 0)

print("No variables selected")

resmat <- resmat[res$ord > 0, ]

resmat <- cbind(I(colnames(X)[resmat[, 1]]), resmat)

names(resmat) <- c("variables", "order", "R2", "R2Cum", "AdjR2Cum",

"F", "pval")

return(resmat)

}

rda.func <- function(spe.mat,pcnm.scale){

sim.rda <- rda(decostand(spe.mat,method="hellinger")~.,data=pcnm.scale)

R2a <- RsquareAdj(sim.rda)$adj.r.squared

rda.sel <- forward.selec(spe.mat,pcnm.scale,adjR2thresh=R2a)

#print(rda.sel) 118

output.rda <- array(data=FALSE,dim=c(1,ncol(pcnm.scale)))

output.rda[rda.sel$order] <- TRUE

return(output.rda)

}

glm.func <- function(spe.mat,pcnm.scale){

glm.pcnm <- manyglm(spe.mat~., data=pcnm.scale,

family="binomial")

glm.null <- manyglm(spe.mat~1,family="binomial")

add.glm2 <- add1(glm.null,glm.pcnm)

done <- FALSE

current.glm2 <- glm.null

while(done == FALSE){

add.glm2 <- add1(current.glm2,glm.pcnm)

#print(add.glm2)

if(which.min(add.glm2$AIC) == 1){

done <- TRUE

}else {

select.var2 <- rownames(add.glm2)[which.min(add.glm2$AIC)]

current.glm2 <- update(current.glm2,paste("~.+",select.var2))

if(length(coef(current.glm2)) == length(coef(glm.pcnm)))

done <- TRUE

}

#print(formula(current.glm2))

}

output.glm <- array(data=FALSE,dim=c(1,ncol(pcnm.scale)))

selecvar.names <- rhs.vars(formula(current.glm2))

for(j in 1:length(selecvar.names)){

output.glm[as.numeric(sub("\\].*","",sub(".*\\[,","",selecvar.names[j])))] <- TRUE 119

}

return(output.glm)

}

plot.simprob <- function(X,sim.spe,i){

plot(X[,i],sim.spe[,1],ylim=c(0,1))

for(j in 2:dim(sim.spe)[2]){

points(X[,i],sim.spe[,j])

}

}

sites.xy <- read.table("latlong.txt",header=TRUE,row.names=1) #reading sites coordinates

spp <- read.table("species.txt",header=TRUE) #species composition data

#PCNM sites.xy.d <- dist(sites.xy) sites.pcnm <- PCNM(sites.xy.d)#creating PCNMs from sites distances

select <- which(sites.pcnm$Moran_I$Positive == TRUE) sites.pcnm.pos <- as.data.frame(sites.pcnm$vectors)[,select]#selecting PCNMs with positive ev sites.pcnm.pos.scale <- as.data.frame(scale(sites.pcnm.pos)) sites.xy.scale <- scale(sites.xy)

glm.pcnm <- manyglm(as.matrix(spp)~.,data=sites.pcnm.pos.scale,family="binomial")

X <- glm.pcnm$x 120

B <- coef(glm.pcnm) #realistic coefficients taken

B.sim.temp <- matrix(0,nrow=dim(B)[1],ncol=dim(B)[2])

B.sim.temp[1,] <- B[1,] # first row of new estimates = original intercepts ns <- c(0,1,2,2*floor(0.5*length(sites.pcnm.pos.scale)/2),2*floor(0.75*length(sites.pcnm.pos.scale)/2),le ngth(sites.pcnm.pos.scale))

ntotal <- (3*(length(ns)-1)*reps)-(2*(reps)) real.mod.result <- array(data=NA,dim=c(ntotal,ncol(X)-1)) rda.mod.result <- real.mod.result glm.mod.result <- real.mod.result conditions <- data.frame(ev=integer(ntotal),scaling=integer(ntotal)) rowcount <- 1 nrb <- nrow(B.sim.temp)

for(n in ns){

indices <- list(2:(n+1),(nrb-n+1):nrb,c(2:(n/2+1),(nrb-n/2+1):nrb))

if(n == 0)

iset=1

else if(n == 1)

iset=1:2

else if (n == length(sites.pcnm.pos.scale))

iset=1

else

iset=1:3

for(i in iset){

for(r in 1:reps){

B.sim <- B.sim.temp

if( n == 0)

B.sim <- B.sim.temp

else 121

B.sim[indices[[i]],] <- sample(B[2:nrow(B),],replace=TRUE,size=length(i)*ncol(spp)) #non-zero coeff. sampled from orginal coefficients

Z.sim <- X %*% B.sim

Y.sim <- inv.logit(Z.sim)

print(c(n,i,r))

print(B.sim[,1])

sim.binom.pcnm <- rbinom(Y.sim,size=1,prob=Y.sim) #new simulated species presence/absence data

mat.sim.spe.pcnm <- matrix(sim.binom.pcnm,nrow=nrow(spp),ncol=ncol(spp))

rda.mod.result[rowcount,] <- rda.func(spe.mat=mat.sim.spe.pcnm,pcnm.scale=sites.pcnm.pos.scale)

glm.mod.result[rowcount,] <- glm.func(spe.mat=mat.sim.spe.pcnm,pcnm.scale=sites.pcnm.pos.scale)

conditions[rowcount,] <- c(n,i)

real.mod.result[rowcount,] <- abs(B.sim[-1,1])>0

rowcount <- rowcount + 1

}

}

} glm.scores <- rowSums(real.mod.result == glm.mod.result) rda.scores <- rowSums(real.mod.result == rda.mod.result) table.results <- cbind(conditions,glm.scores,rda.scores)

122

APÊNDICE G – TEXTOS ORIGINAIS EM INGLÊS DOS QUATRO CAPÍTULOS PRESENTES NESTE DOCUMENTO

Beta diversity, the relative roles of species loss and replacement and singularity in tropical rocky shore communities

Lélis A. Carlos- Júnior1,2, Matthew Spencer2, Timothy P. Moulton1, Débora O. Pires3, Clóvis Castro3, Carlos Renato R. Ventura3, Carlos Eduardo L. Ferreira4, Cristiana S. Serejo3, Simone Oigman Pszczol5, Fernanda Casares1, Danilo Neves6, Joel C. Creed1

1 Departamento de Ecologia e Evolução, Universidade do Estado do Rio de Janeiro, Rua São Francisco Xavier, 524 – Maracanã, Rio de Janeiro, CEP: 20550-013, Brazil

2 School of Environmental Sciences, University of Liverpool. Liverpool L69 3GP, UK.

3 Museu Nacional/UFRJ, Quinta da Boa Vista s/n, Rio de Janeiro, CEP: 20940-040, Brazil

4 Departamento de Biologia Marinha, Universidade Federal Fluminense, Niterói, CEP: 24001-970, Brazil

5 Instituto Brasileiro de Biodiversidade, Rio de Janeiro, Brazil.

6 Royal Botanic Gardens, Kew, Surrey TW9 3AE, UK.

Introduction

With theoretical advances, increase in computational power and a plethora of multivariate statistical tools, options for analysis of ecological data have increased substantially over the past thirty years (Zuur et al. 2010). Unfortunately, this progress has sometimes come at the cost of negligence of interesting aspects of data, which could be directly assessed by a simple previous step of descriptive analysis (Jeffers 1994). Data exploration should be separated from hypothesis testing (avoiding “data dredging”) and is useful for revealing outliers, data distributions and correlations and also allow researchers to visualise patterns. Moreover, it provides insight to questions which can be explored by the adequate modelling approach previously acquired by knowledge of the system at hand (Burnham & Anderson 2002, chapter 1).

For marine biodiversity studies it is even more crucial to unfold diversity patterns. A considerable part of our understanding is still based on extrapolations from terrestrial systems leaving important gaps in issues such as what drives diversity in the sea (Clarke & Lidgard 2000; Cornell et al. 2007; Soininen 2014). 123

One important trait of communities is the relationship between local (α) and regional (γ) diversity. “The extent of change in community composition” estimated from these two entities was originally addressed as beta (β) diversity (Whittaker 1960) although a myriad of definitions were subsequently proposed (Tuomisto 2010; Anderson et al. 2011; Baselga 2012). In addition to its inherent importance in describing natural communities, understanding beta diversity allows ecologists to disentangle two distinct processes that cause variation in community composition: nestedness and spatial turnover (Harrison et al. 1992; Baselga 2010). In the former, variation in composition between two or more sites occurs due to species loss or gain, insofar that species-poor sites are subsets of richer sites. On the other hand, turnover describes variation caused by the replacement of some species by others, usually associated with spatial/environment constraints (Qian et al. 2005; Baselga 2010), including stressors and impact. Therefore, analysing beta diversity also helps to recognise potential drivers of diversity differentiation among sites within a metacommunity, defined here as a set of local communities linked by the dispersal of multiple species (Leibold et al. 2004).

Parallel to our considerations of beta diversity patterns in the marine realm we also wanted to identify uncommon areas, characterised by fauna or floras composed by less frequent species. Our challenge was to propose a simple mechanism for assessing areas with high “rarity” in species composition when compared to other sites within the same metacommunity. The description of such locations is relevant for guidance of management and conservation efforts, since human activities alter habitat availability and change species composition (Pauly et al. 2005; Halpern et al. 2008). As such, we wanted an index capable of being both simply interpreted, especially by the non- scientific public, and meaningful (i.e. avoiding the use of arbitrary values). Also, we wanted to maintain subjectivity to a minimum in the mathematical designation of what “rarity” meant in this context, for clarity and to permit reproducibility of the index in other situations.

As comprehensive studies of tropical rocky shore communities are under- represented (Kaehler & Williams 1996) when compared to some long-term observations on temperate shores or coral reefs (e.g. Mieszkowska et al. 2006), we performed different descriptive analyses for marine rocky shore communities in a tropical bay from Rio de Janeiro, Brazil. Our goal was to investigate biodiversity patterns in different 124 taxonomic groups of tropical marine rocky shore communities and highlight distinctive areas, in terms of species composition. Also, scrutinising the relative roles of the two beta diversity components, nestedness and turnover, we assessed possible drivers of community variation. This is the first time these datasets are published in English and their exploration will improve our understanding of tropical marine systems.

Materials and Methods

Study site

Ilha Grande Bay (Baía da Ilha Grande – BIG, Fig. 1), is located in the state of Rio de Janeiro, southeast Brazil. The bay is a local hotspot covering around 150.000 ha and is situated between the two most industrialised regions of the country – Rio de Janeiro and São Paulo. This location brings multiple potential anthropogenic pressures that threaten the bay’s unique diversity. This peculiarity results from the distinctive geomorphology of the region, which converges different types of terrestrial, freshwater and marine habitats and creates a singular fauna and biota (Creed et al. 2007; Bastos & Callado 2009). Using only nautical charts, 42 sites were pre-chosen in order that sampling sites be distributed more or less evenly throughout the coastline and islands of the region. GPS was used to mark the exact location of the sites on arrival in situ. Most sites had never been studied before.

The main oceanographic trait of the Brazilian south/south-eastern platform is the seasonal influence of ACAS (=South Atlantic Central Water) with its cold and nutrient- rich waters which affects the whole region’s bottom communities (Soares-Gomes & Pires-Vanin 2003). At all 42 sites, samples were taken to gather physiochemical properties of the water as well as information about sediment and geomorphology (Creed et al. 2007, chapters 4 and 5). In total, 31 environmental variables were collected and they are available in Supplementary Material (Table S1). In summary, the region is characterised by shallower waters on the west side of the bay, whereas deeper sites are located in its central canal and on the outer side of the main island. The bottom temperatures sampled at these regions also differ considerably. The western side showed higher quantities of some types of sediment in the water, such as carbonate, which is probably due to the drainage of several rivers in the area. This location is the least affected by wave action, whereas the outer sites of the main island and some 125 exposed places across the central canal depicted high values of wave exposure (Supp. Figs 1. a-d).

Data collection

Species composition (presence/absence) data were collected by specialists using protocols developed for a Marine Rapid Assessment Program (RAP) methodology for three hard substrate benthic groups (Macroalgae- hereafter called algae for brevity-, Cnidaria - generally called corals henceforth- and Echinodermata), two soft substrate benthic groups (Mollusca and Crustacea) and reef fish (Creed et al. 2007). All sampling was carried out using SCUBA. The RAP approach consists of short expeditions lead by specialists into sites with biological importance in order to examine the status of the region’s biodiversity and the health of local ecosystems and propose management strategies. Although it is not specifically designed for aquatic habitats it has been extensively used to assess marine systems around the world by Conservation International, being called Marine Rapid Assessment Program (MRAP) (e.g. McKenna et al. 2002; Dutra et al 2005; McKenna & Allen 2009).

For the benthos on hard substrate and fish the assessment was made through visual censuses on transects of approximately 100m parallel to the coastline. Each census was carried between the littoral fringe to the depth at which the substrate changed from rock to soft bottom; specimens were collected for identification when necessary. As the selected sampling sites varied substantially in depth, which has an effect on diving time, each dive was restricted to a minimum of 45 minutes and a maximum of 90 minutes to avoid significant differences in sampling effort. For detailed methods see chapters 6,7 and 11 in Creed et al. (2007). Due to unforeseen problems, corals could not be assessed at site 17. Thus, 41 sample sites are available for corals. We used species accumulation curves (Ugland et al. 2003; Colwell et al. 2004; Kindt et al. 2006) for all six taxa to ensure adequacy of our sampling effort.

The benthos of soft substrata was sampled using a sediment corer. At each site five core samples (100mm of diameter x 150mm of height) were collected at each of two stations, one close to the rocky shore and the other 100m away. The sediment was 126 sifted and the fauna identified. For detailed methods see chapters 8 and 10 in Creed et al. (2007).

Defining “unique” sites

In order to identify distinctive sites, i.e. regions with more uncommon species composition, we devised a measure we called “Singularity”, based on the number of rare species present at a local site within a metacommunity. It is noteworthy that “rare” in this context is neither related to their overall distribution nor to their endangered status. It refers solely to the frequency of the species’ distribution within the target region. We considered “rare” whichever species that occurred in less than half the sites we visited, since it was the most objective (though potentially permissive, see below) way of designating rarity (see below for reasons and pros and cons for this choice). We assessed at each site how many rare species from any taxonomic group i at each site there were in proportion to the total number of those species at the site:

푛푏 표푓 rare푠푝푒푐푖푒푠 푓푟표푚 푡푎푥표푛표푚푖푐 푔푟표푢푝 푖 푠 = 푖 푛푏 표푓 푠푝푒푐푖푒푠 푓푟표푚 푡푎푥표푛표푚푖푐 푔푟표푢푝 푖

Then, as our goal was to estimate each sites’ general “uniqueness”, we calculated the Singularity Index of each site j for n different taxonomic groups as:

푆푗 = ∑ 푠푖 ∗ 푞푖 푖=1 where 푠푖 is the proportion of rare species of taxonomic group i found in eqn 1 and 푞푖 is the proportion of group i in the overall richness of species at the site. We considered proportions in order to make calculations independent from species richness at the site and from the unbalanced richness of different taxa. Similarly, general Richness (considering all taxa) was also determined for each site j as

푅푗 = ∑ 푟푖 ∗ 푞푖 푖=1 where 푟푖 is the proportional richness of taxon i at site j in relation to the regional pool of i and 푞푖 and n are the same as in eqn 2.

Turnover × nestedness components of beta diversity 127

We explored beta diversity patterns across the bay by decomposing its nestedness and turnover components as explained elsewhere (Baselga 2010, 2012). Using operations on fractions it is possible to decompose total beta diversity, estimated? as Sørensen dissimilarity index 훽푆푂푅, into two additive components. The first is the

Simpson index 훽푆퐼푀 describing spatial turnover without influence of richness gradients, and 훽푁퐸푆describing variance in composition due to species loss or gain (for details and developments, see Baselga 2010, 2012, 2013). Thus,

훽푆푂푅 = 훽푆퐼푀 + 훽푁퐸푆

These calculations were conducted using package betapart (Baselga & Orme 2012) in the R Environment (R Core Team 2014). We also calculated the same components considering pairwise comparisons, yielding 861 pairs of sites for the analysis of beta diversity for each group. For corals, only 41 sites were considered

(yielding 820 pairs of sites) and for general integrative taxa measures, such as 푆푗 and 푅푗 we considered the number of corals equals zero at that site. Therefore, caution should be taken when interpreting results for this particular sample unit.

Results

General

Across the 42 sites 768 species were recorded: 110 benthic algae, 26 cnidarians (Anthozoa and Hydrozoa), 27 echinoderms from all five Classes, 374 molluscs, 61 crustaceans and 170 reef fish species. For algae, this number is equivalent to one quarter of the whole known diversity of the state of Rio de Janeiro. The high number of molluscs found makes BIG a hotspot of diversity for this group in Brazil. Almost half (40%) of the crustaceans identified were new records either for BIG or the state of Rio de Janeiro. The sampling was fairly sufficient, as it is possible to see from species accumulation curves for each taxon, although infaunal groups (molluscs and crustaceans) seemed to be still slightly under surveyed (Fig 2 a-e).

Proportional richness had no significant correlation with singularity values (Spearman RS = 0.29, p= 0.06). Also, a linear model using proportional richness was a poor predictor for singularity (p= 0.73, with adj R2 = -0.022). Excluding the three highest singular sites from the analysis, richness becomes a significant and slightly better predictor for singularity (p = 0.003, R2 = 0.19). The correlation between 128 singularity and proportional richness also increases under that scenario (Spearman RS = 0.38 p = 0.02, respectively).

In general, the west side of the bay depicted high general richness and higher singularity values when all taxa were considered together (Fig. 3a). Each one of the 42 sites had on average 23%) of the total richness and 57% of these species were “rare” in average. One specific site, Tanhangá Island, on the western side (site 14 in Fig.1) had the lowest proportional richness (less than 10%) but the highest proportion of rare species (75%). At a nearby site, proportional richness was 13% whereas singularity reached 62%. There were also some higher values of singularity on the outer side of the main island, where sites were usually also rich. On the other hand, most sites located at the core centre of the bay showed relatively low general values of singularity, despite varying proportions of richness. See below the analysis of richness and singularity for each taxon.

All six taxonomic groups exhibited high values of total beta diversity, around 0.9, almost entirely caused by spatial turnover of species (Table 1). The same pattern of dominance of spatial turnover in total beta diversity emerged from the distribution of all pairwise dissimilarities (Fig. 4).

Taxonomic patterns of richness and singularity

In addition to the general aspects of the marine diversity highlighted above, some taxon- specific attributes were noteworthy:

1. Algae (Fig 3b) The western side of the bay concentrates the vast majority of rich and singular sites. At other areas, some sites at the south coast of the main island also showed considerable values of singularity. 2. Corals (Fig. 3c) Corals showed an interestingly different pattern than most of the other groups. Although some western sites were also considered singular and rich in species, the most idiosyncratic sample units were found at the central channel of the bay. The most pauperised and common (in regard of composition) areas were the outer side of the main island and the region around the nuclear power plant. 3. Echinoderms (Fig. 3d) 129

Echinoderms, likewise algae, had numerous peculiar sites at the west end of the bay and the outer side of the main island. In addition, the entire continental coast presented noticeably high values of richness and singularity. 4. Molluscs (Fig. 3e) General inferences concerning singularity and richness are more troublesome, since singular sites are scattered around the entire bay, although likewise coral with some singular sites at the central channel. A few rich (and singular) locations are situated on the central continental coast as well as the outer side of the main island. 5. Crustaceans (Fig. 3f) Crustaceans yielded the oddest patterns among all sampled groups. All 61 species were absent from more than half of the locations with only two species being found in more than five sites. Thus, for crustaceans, singularity equals richness and richer sites are also the most singular. These are located at the west side of the bay with some additional rich sites around the island. 6. Fish (3g) The distribution of fish closely resembled that of the algae, with more singular sites located at the western end of the region and the central channel exhibiting poor locations constituted of common species.

Discussion

The RAP approach here described was the most comprehensive assessment of marine biodiversity ever made for the BIG region. The groups sampled exhibited a remarkable number of species, with new records for the state and region. Although for most groups the sampling was adequate, it would be beneficial to implement further expeditions, especially for soft substrate taxa.

Our devised method for computing rarity (i.e. low frequency within the studied metacommunity) showed that the general marine diversity of the bay could be roughly summarised in three regions. The centre core of the bay, between the main island and the continent, consists of locations depicting different levels of richness, but mainly inhabited by common species. This could be an indication of more inhospitable environment, since this region is the one under the most intensive anthropogenic pressures within the region (Creed et al. 2007). The species capable of living in the central channel of the bay are also the ones ubiquitous to the entire sampled region. The extension of a species’ adaptation to a broader range of environmental conditions 130 influences its geographical distribution (Holt 2003; but see Carlos-Junior et al. 2015) . On the other hand, the western coast depicted those areas with the highest ratio between singularity and richness (shown as small red spots in Fig. 3). Therefore, this region is composed of species not commonly seen elsewhere, showing considerable variation (i.e. high 훽푆푂푅) even among its own sites (results not shown here). These communities are still different from the other highly singular locations found at BIG, around the main island. At those places, high singularity is associated with high values of richness. The environment at those places (specially the outer coast of the island, typically deeper Table 2 SM) comprises common species as well as some other restricted to this locality. These discrepancies among the three diversity macro regions have relevant implications for current and future conservation strategies. A few continuous protected areas should be able to account for most of different communities at the centre of the bay. On the contrary, marine communities at the west coast and around the main island (specially the outer side) may be better protected via several distinct and connected protected areas in order to encompass their community distinctiveness. Interestingly the Tamoios Ecological Reserve protects a series of islands throughout the western portion of the region together with some specific conservation units such as the Cairuçu Environmental Protected Area and Mamanguá.

Although some general patterns could be drawn, exploring each group’s patterns led to interesting disparities. For the rock shore benthos, most of them roughly replicated the three- region pattern, notably algae and echinoderms, whereas corals exhibited a somewhat opposite picture. With the exception of a few locations nearby the nuclear power plant, the central channel of the bay contained the most singular coral communities. Molluscs also showed highly idiosyncratic locations at the central region with some further distinct composition dispersed across the entire metacommunity. Crustaceans exhibited an odd pattern of distribution, with no ubiquitous species (only one species occurred in 14 sites) and very few species recorded for at each site. This could be partially explained by a possible insufficient sampling effort of the group, indicated by Fig.2e, although it is unlikely to be sole cause, since in that case only common species would presumably be present. Thus, it is reasonable to conclude that such pattern is a trait of these communities, for which the spatial scale we assessed might be large enough for them to be disconnected from one another. Fish community patterns reflected algae and echinoderms and the general picture. These three groups 131 could be driven by the same factors or maybe influencing each other’s distributions as seen elsewhere involving algae, echinoderms and fish (Parnell 2015).

The analysis of beta diversity in BIG revealed that variation in species composition for all groups (Table 1 and Fig. 4) was considerably high when compared to other studied systems, including different taxonomic groups from tropical rainforests (e.g. Baselga et al. 2012; Tonial et al. 2012). In general, around 90% of species composition changes from local sites within the metacommunity, which means it was not possible to predict a site’s composition with prior information on a different site. This also has direct implications for conservation, since it is not possible to encompass the whole regional diversity under a few geographically restricted protected areas. More interestingly, almost all variation in species composition is due to spatial replacement of species (turnover), with almost no contribution from species gain or loss (nestedness). This was also generally consistent within individual taxonomic group, as seen by the centroid values in Fig.4, although it is possible to see a wider variation of values, which is in line with previous criticism on the usage of mean pairwise values for general inferences (Baselga 2012, 2013). Higher contribution of turnover to beta diversity have previously been suggested for other low latitude areas (below parallel 37, Baselga et al. 2012; Bishop et al. 2015 but see Oliveira- Filho et al. in press) and could be related to different causes associated with spatial and historical constraints and/or different environmental selection (Simpson 1943; Qian et al. 2005; Baselga 2010). Indeed, further investigation revealed that environment sorting, especially related to depth differences in the bay are partly responsible for species variation in BIG (Carlos- Junior et al. in prep). The high value of 훽푆푂푅 and its main component 훽푆퐼푀 in the bay also indicates that these gradients driving species variation may be more abrupt within relatively smaller areas in the marine environment.

The method described above for computing rarity was adequate for identifying areas with uncommon compositions. Besides being consistent with other indices for calculating site endemism (results not shown here), it has the advantage of not being sensitive to richness. Independence from richness is a desirable trait for an index designed to grasp structures inside community composition that are not necessarily the result of sheer accumulation of different species. Indeed, the most interesting results are those with small richness but large singularity, and vice-versa, which are exactly the values that break the correlation with richness. Moreover, the framework here proposed 132

provides numbers that are interpretable and meaningful. For example, a site with 푆푖 = 0.5 has half of its species considered “rare” for that region and is “twice” more singular than one site which 푆푖 = 0.25. Interpretability and meaning are essential properties of useful diversity measures (Jost 2006), which can be understood and applied even by non-ecologists, like most decision makers. Nevertheless, it should be stressed that testing the abovementioned method under different scenarios and spatial scales could result in improvements. For example, we considered “rare” every species that occurred in less than half of the sampled units. This was the most objective concept of rare we could envision. Although presumably permissive (considering most communities follow a log-normal distribution where most of the species occur in few sites) it worked well for our system with similar results with other indexes. However, depending on the studied system objectivity may have to be disfavoured in order to come up with a less permissive (yet more subjective) threshold for rarity. Another problem may arise in communities with unusually high rates of rare species, such as the crustacean’s dataset from BIG. In those systems, singularity values get close (or, in our case, equals) to 1 and become a proxy for richness, losing its utility.

In summary, through a simple descriptive framework, it was possible to recognise interesting patterns of the marine diversity in BIG and even to hint possible mechanisms driving such patterns. Understanding these drivers should be a natural next step (see Carlos- Junior et al. in prep). It also remains to be tested whether the high beta diversity values observed for BIG are unusual or is typical for lower-latitude aquatic systems. Thus, the framework and datasets provided here will hopefully be useful to answer those and other broader ecological questions.

Acknowledgments We are grateful for insightful comments and suggestions on the singularity index given by Helen Rolim from INEA-RJ, and Tiago Rocha and Marcello Broggio from UN’s FAO. This study was funded by Science without Borders studentship scheme from the National Council for Technological and Scientific Development (CNPq) and by Brazilian Coordination for the Improvement of Higher Education Personnel (CAPES). JCC acknowledges the support of CAPES (Ciências do Mar 1137/2010); Fundação Carlos Chagas Filho de Amparo à Pesquisa do Estado do Rio de Janeiro (E-26/111.574/2014 and E26/201.286/2014) and CNPq (CNPq- 305330/2010-1). 133

Reference List Anderson, M.J., Crist, T.O., Freestone, A.L., Sanders, N.J., Cornell, H. V, Comita, L.S., Davies, K.F., Harrison, S.P., Kraft, N.J.B., Stegen, J.C. & Swenson, N.J. (2011). Navigating the multiple meanings of β diversity : a roadmap for the practicing ecologist. Ecology Letters, 14, 19–28. Baselga, A. (2013). Multiple site dissimilarity quantifi es compositional heterogeneity among several sites , while average pairwise dissimilarity may be misleading. Ecography, 36, 124–128. Baselga, A. (2010). Partitioning the turnover and nestedness components of beta diversity. Global Ecology and Biogeography, 19, 134–143. Baselga, A. (2012). The relationship between species replacement , dissimilarity derived from nestedness , and nestedness. Global Ecology and Biogeography, 1223–1232. Baselga, A., Gómez-Rodríguez, C. & Lobo, J.M. (2012). Historical legacies in world amphibian diversity revealed by the turnover and nestedness components of beta diversity. PLoS ONE, 7. Baselga, A. & Orme, C.D.L. (2012). Betapart: An R package for the study of beta diversity. Methods in Ecology and Evolution, 3, 808–812. Bastos, M. & Callado, C.H. (2009). O ambiente da Ilha Grande. Laboratório de Ideias. Bishop, T.R., Robertson, M.P., van Rensburg, B.J. & Parr, C.L. (2015). Contrasting species and functional beta diversity in montane ant assemblages. Journal of Biogeography, 42, 1776–1786. Burnham, K.P. & Anderson, D.R. (2002). Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach (2nd ed). Carlos-Junior, L.A., Neves, D.M., Barbosa, N.P.U., Moulton, T.P. & Creed, J.C. (2015). Occurrence of an invasive coral in the southwest Atlantic and comparison with a congener suggest potential niche expansion. Ecology and Evolution, 5, 2162–2171. Clarke, A. & Lidgard, S. (2000). Spatial patterns of diversity in the sea: Bryozoan species richness the North Atlantic. Journal of Ecology, 69, 799–814. Colwell, R.K., Chang, X.M. & Chang, J. (2004). Interpolating, extrapolating, and comparing incidence-based species accumulation curves. Ecology, 85, 2717–2727. Cornell, H.O.V.C., Arlson, R.O.H.K. & Hughes, T.P. (2007). Scale-dependent variation in coral community similarity across sites, islands, and island groups. Ecology, 88, 1707–1715. Creed, J.C., Pires, D.O. & Figueiredo, M.A. de O. (2007). Biodiversidade Marinha da Baía da Ilha Grande, Serie Biodn. (J.C. Creed, D.O. Pires & M.A. de O. Figueiredo, Eds.). MMA. Halpern, B.S., Walbridge, S., Selkoe, K.A., Kappel, C. V., Micheli, F., D’Agrosa, C., Bruno, J.F., Casey, K.S., Ebert, C., Fox, H.E., Fujita, R., Heinemann, D., Lenihan, H.S., Madin, E.M.P., Perry, M.T., Selig, E.R., Spalding, M., Steneck, R. & 134

Watson, R. (2008). A global map of human impact on marine ecosystems. Science, 319, 948–952. Harrison, S., Ross, S. & Lawton, J. (1992). Beta diversity on geographic gradients in Britain. Journal of Animal Ecology, 61, 151–158. Holt, R.D. (2003). On the evolutionary ecology of species’ ranges. Evolutionary Ecology Research, 5, 159–178. Jeffers, J.N.R. (1994). The importance of exploratory data analysis before the use of sophisticated procedures. Biometrics, 50, 881–883. Jost, L. (2006). Entropy and diversity. Oikos, 2. Kaehler, S. & Williams, G. a. (1996). Distribution of algae on tropical rocky shores: spatial and temporal patterns of non-coralline encrusting algae in Hong Kong. Marine Biology, 125, 177–187. Kindt, R., Van Damme, P. & Simons, A.J. (2006). Patterns of species richness at varying scales in western Kenya: Planning for agroecosystem diversification. Biodiversity and Conservation, 15, 3235–3249. Leibold, M.A., Holyoak, M., Mouquet, N., Amarasekare, P., Chase, J.M., Hoopes, M.F., Holt, R.D., Shurin, J.B., Law, R., Tilman, D., Loreau, M. & Gonzalez, A. (2004). The metacommunity concept: A framework for multi-scale community ecology. Ecology Letters, 7, 601–613. Mieszkowska, N., Kendall, M.A., Hawkins, S.J., Leaper, R., Williamson, P., Hardman- Mountford, N.J. & Southward, A.J. (2006). Changes in the range of some common rocky shore species in Britain - A response to climate change? Hydrobiologia, 555, 241–251. Parnell, P.E. (2015). The effects of seascape pattern on algal patch structure, sea urchin barrens, and ecological processes. Journal of Experimental Marine Biology and Ecology, 465, 64–76. Pauly, D., Watson, R. & Alder, J. (2005). Global trends in world fisheries: impacts on marine Global trends in world fisheries: impacts on marine ecosystems and food security. Philosophical Transactions of the Royal Society B, 360, 5–12. Qian, H., Ricklefs, R.E. & White, P.S. (2005). Beta diversity of angiosperms in temperate floras of eastern Asia and eastern North America. Ecology Letters, 8, 15–22. Simpson, G.G. (1943). Mammals and the nature of continents. American Journal of Science, 241, 1–31. Soares-Gomes, A. & Pires-Vanin, A.M.S. (2003). Padrões de abundância, riqueza e diversidade de moluscos bivalves na plataforma continental ao largo de Ubatuba, São Paulo, Brasil: uma comparação metodológica. Revista Brasileira de Zoologia, 20, 717–725. Soininen, J. (2014). A qualitative analysis of species sorting across organisms and ecosystems. Ecological Monographs, 95, 3284–3292. 135

Tonial, M., Silva, H., Tonial, I., Costa, M., Silva Júnior, N. & Diniz-Filho, J. (2012). Geographical patterns and partition of turnover and richness components of beta- diversity in faunas from Tocantins river valley. Brazilian Journal of Biology, 72, 497–504. Tuomisto, H. (2010). A diversity of beta diversities: Straightening up a concept gone awry. Part 2. Quantifying beta diversity and related phenomena. Ecography, 33, 23–45. Ugland, K.I., Gray, J.S. & Ellingsen, K.E. (2003). The species-accumulation curve and estimation of species richness. Journal of Animal Ecology, 72, 888–897. Whittaker, R.H. (1960). Vegetation of the Siskiyou Mountains, Oregon and California. Ecological Monographs, 30, 279–338. Zuur, A.F., Ieno, E.N. & Elphick, C.S. (2010). A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution, 1, 3–14.

136

Table 1 Multiple-site total beta diversity (Sørensen index) and its two components (turnover and nestedness) calculated for all six marine groups in BIG. Due to approximations, the sum of the two components might be slightly different from the total beta result.

Beta diversity TOTAL BETA TURNOVER NESTEDNESS

algae 0.93 0.90 0.03 Epifauna/flora coral 0.90 0.82 0.07 echinoderms 0.89 0.81 0.07

Infauna molluscs 0.94 0.91 0.03 crustaceans 0.97 0.95 0.02

Pelagic reef fish 0.93 0.89 0.04

137

Fig.1 The 42 sampled sites (red dots) at Ilha Grande Bay, southeastern Brazil, as highlighted in upper left corner.

138

139

Fig.2 Species accumulation curves for the six taxa sampled at 42 sites in Ilha Grande bay. The boxplots show the average and standard errors for richness after 1000 permutations. a) algae; b) corals; c) echinoderms; d) molluscs; e) crustaceans; f) reef fish.

140

141

142

Fig. 3 Richness (sites’ cell size) and Singularity (colours) from the 42 sampled locations at Ilha Grande bay, Brazil. Proportional richness and singularity are shown for all six taxa in 3-a). Total richness and singularity are shown for algae (b); corals (c); echinoderms (d); molluscs (e); crustaceans (f) and fish (g). As richness = singularity for crustaceans (see text for details), the legend for singularity is not shown.

143

Fig. 4 Ternary plot showing total beta diversity (Sørensen index, x axis) and its turnover (y axis) and nestedness (z axis) components calculated for all possible pairs of sites (red dots) for all six taxonomic groups sampled at BIG (same letter-designation as in Fig.2). All axes’ units are proportions (%). The blue dot marks the centroid value for each taxonomic group. 144

Drivers of beta diversity in marine rocky shore communities in Southeast Brazil

Lélis A. Carlos- Júnior12, Matthew Spencer2, Timothy P. Moulton1, Débora O. Pires3, Clóvis Castro3, Carlos Renato R. Ventura3, Carlos Eduardo L. Ferreira4, Cristiana S. Serejo3, Joel C. Creed1

1 Departamento de Ecologia e Evolução, Universidade do Estado do Rio de Janeiro, Rua São Francisco Xavier, 524 – Maracanã, Rio de Janeiro, CEP: 20550-013, Brazil

2 School of Environmental Sciences, University of Liverpool. Liverpool L69 3GP, UK.

3 Museu Nacional/UFRJ, Quinta da Boa Vista s/n, Rio de Janeiro, CEP: 20940-040, Brazil

4 Departamento de Biologia Marinha, Universidade Federal Fluminense, Niterói, CEP: 24001-970, Brazil

Introduction

Within a geographical region local communities are connected by the dispersal of multiple species (Hubbell 2001; Cottenie 2005). Traditionally, the variation in species composition among these connected sites (commonly denominated as beta diversity, Anderson et al. 2011) was regarded as the outcome of niche differentiation (Hutchinson 1957). In a nutshell, “everything is everywhere, but, the environment selects” (Baas Becking 1934). Thus, species would not be limited by dispersion, but they would get precluded to thrive in places where environmental conditions do not favour them, a process called environmental filtering. More recently, alternative explanations have suggested that dispersal could in fact be a limiting factor and differences in composition could arise from neutral processes (i.e. independent from niche differences), such as demographic stochasticity; or other non-environmental filtering related factors (Hubbell 2001; Chave 2004; Leibold et al. 2004).

In order to disentangle the drivers of variation in species composition the importance of estimating factors behind spatial structure in ecological communities, which was previously seen as “noise” in ecological data, has become evident (Legendre 1993). Thenceforth, there have been different efforts to model spatial structure (e.g. Borcard et al. 1992; Borcard & Legendre 2002; Blanchet et al. 2008) and incorporate it (explicitly or not) into ecological questions (Hubbell 2001; Chave & Leigh 2002). In aquatic environments, the incorporation of such spatial organisation among sites 145 becomes more challenging since water flux/currents complicate the spatial interactions among sites (Blanchet et al. 2008, 2011).

Subsequent to the incorporation of spatial and environmental variables for the potential explanation for beta diversity, studies have tried to unravel diversity drivers of ecological communities (Borcard et al. 1992; Peres Neto et al. 2006). Such efforts, however, are still not common in marine ecology (but see for example Chust et al. 2013; Navarro et al. 2015; Rishworth et al. 2016). Understanding the factors that underpin spatial distribution in marine communities is central in order to not only accurately evaluate diversity patterns but also to make informed decisions on management and conservation (Morfin et al. 2012; Chust et al. 2013). Tropical marine rocky shore systems, compared to temperate zones, are relatively poorly known, despite the fact they are under intensive multiple anthropogenic pressures (Kaehler & Williams 1996).

Current standard methods often used to estimate the environmental and spatial drivers of communities have been criticised. One of the commonest approaches, the selection of principal coordinates of neighbour matrices (PCNMs) by some linear canonical regression algorithm such as Redundancy Analysis (RDA), has been found to have inflated Type I errors (Gilbert & Bennett 2010). Also, it does not overcome linearity assumptions when dealing with non-linear ecological data (Gilbert & Bennett 2010; Warton et al. 2012; Carlos-Junior et al in prep; O'hara et al 2011). Our goal was to combine different methodological alternatives to formulate a framework to analyse community variation structure. To do so we used different marine shallow subtidal communities from a tropical bay in Brazil as model data to investigate spatial structures and to assess drivers of beta diversity.

Methods

Study Site

Ilha Grande Bay (Baía da Ilha Grande - BIG), is located in the state of Rio de Janeiro, southeast Brazil. The bay is a local hotspot covering around 150.000 ha and is situated between the two most urbanised regions of the country – Rio de Janeiro and São Paulo. This location brings multiple potential anthropogenic pressures that threaten 146 the bay’s unique diversity. This uniqueness results from the peculiar geomorphology of the region, which converges different types of terrestrial, freshwater and marine habitats and creates a distinctive fauna and biota (Creed et al. 2007; Bastos & Callado 2009). The coexistence of different habitats (mangroves, sand beaches, estuaries, rocky shores, etc.) and the consequent distinct physical and chemical conditions for marine organisms across the bay allowed us to test which (if any) factors could explain the differences in community composition.

Data collection

Species composition (presence/absence) data were collected by specialists using protocols developed for a Marine Rapid Assessment Program (RAP) methodology for three hard substrate benthic groups (Macroalgae, Cnidaria and Echinodermata), two soft substrate benthic groups (Mollusca and Crustacea) and reef fish. The RAP approach consists of short expeditions lead by specialists into sites with biological importance in order to examine the status of the region’s biodiversity and the health of local ecosystems and propose management strategies. Although it is not specifically designed for aquatic habitats it has been extensively used to assess marine systems around the world, being called Marine Rapid Assessment Program (MRAP) (e.g. McKenna et al. 2002; Dutra et al 2005; McKenna & Allen 2009).

For the benthos on hard substrate and fish the assessment was made through visual censuses on transects of approximately 100m long along the coastline. Each census was carried between the littoral fringe down to the point where the substrate changed to soft bottom; specimens were collected for identification when necessary. As the selected sampling sites varied substantially in depth, which influences diving time, each dive was restricted to a minimum of 45 minutes and a maximum of 90 minutes to avoid significant differences in sampling effort. For detailed methods see chapter 2 in Creed et al. (2007).

The benthos of soft substrate were sampled using corer for sampling the sediments. At each site five core samples (100mm of diameter x 150mm of height) were collected at each of two stations, one close to the rocky shore and the other 100m away. The sediment was sifted and the fauna identified. All sampling was carried out using SCUBA. 147

At all 42 sites, samples were taken to gather physiochemical properties of the water as well as information about sediment and geomorphology. In total, 31 environmental variables were collected (Carlos- Junior et al. in prep). Using only nautical charts sites were pre-chosen in order that sampling sites be distributed more or less evenly throughout the region. GPS was used to mark the exact location of the sites in situ.

Data analysis

In order to avoid overfitted models (Babyak 2004) principal components (PCs) of the centred variables were used as the environmental variables for regression. We selected the seven first PCs based on the Kaiser-Guttman and the broken stick criteria (Jackson 1993; Borcard et al. 2011).

For spatial descriptors we used the standard method of principal coordinates of neighbour matrices (PCNM) as described by Borcard & Legendre (2002) and only the eigenvectors describing positive autocorrelation were retained (Borcard & Legendre 2002; Dray et al. 2006) as explanatory variables. This framework arose as an alternative to trend surface analysis and provides a set of distance- based spatial filters describing multi-scale spatial organisation among sampling sites. It has been demonstrated that PCNMs are a special case of “Moran’s eigenvector maps” (MEMs) (Dray et al. 2006). Although some suggest that other types of MEMs may work better (Borcard et al. 2011), other comparative tests showed no significant differences and yield similar problems (Gilbert & Bennett 2010). We chose PCNMs as our spatial descriptors because previous attempts to model hydrodynamics in BIG (e.g. Ikeda & Stevenson 1980, 1982, Signorini 1980a,b), the long term general patterns of the region are considered rather complex and highly variable (Stevenson et al. 1998). The connectivity implied in other MEMs assumes symmetric spatial weighting matrices (Dray et al. 2006) where the influence of site i on site j is equal to the influence of j on i is unlikely to be the case in many aquatic systems (see Blanchet et al. 2011). Thus, we preferred to use a simple distance-based spatial descriptor (PCNMs) instead of a weighted connectivity matrix. We also added to the PCNMs plain latitudes and longitudes of sites as spatial variables.

Modelling Spatial and Environmental drivers of marine communities in BIG 148

We used the function manyglm from package mvabund (Wang et al. 2012) to fit binomial Generalised Linear Models (GLMs) to our multivariate community composition (presence/absence) matrices. Starting from a null model we then added one explanatory variable at a time until there was no further improvement in the sum of Akaike Information Criterion (AIC, Akaike 1973; Wagenmakers & Farrell 2004) over each one of the response variables. Although stepwise regression for model selection is controversial (Freedman et al. 1992; Westfall et al. 1998; Babyak 2004) the AIC-based approach used here was shown to work well in controlling Type I and II error rates (Carlos- Júnior et al. in prep). Our devised variable selection method is available in the Supporting Information as function mod.selec.

The explanatory power from the models was estimated by a coefficient of determination for logistic regression models called Coefficient of Discrimination (D- value hereafter, Tjur 2009). It has a simple interpretation analogous to the well-known R-squared (R²) used for linear frameworks. Thus, we could calculate how much of community composition could be explained by our environmental and/or spatial models in comparison to the null model (NM). After selecting important PCs and PCNMs we calculated the D- value for the environmental model (EM, containing only the environmental PCs), as well as from the spatial model (SM, with only important PCNMs included) and the final model (FM) which contained all selected environmental and spatial variables. The R script for the full analysis is available in the Supporting Information.

Results

Across the 42 sites 768 species were recorded: 110 benthic macroalgae (algae henceforth), 26 cnidarians (Anthozoa and Hydrozoa, but generally called corals hereafter for brevity), 27 echinoderms, 374 molluscs, 61 crustaceans and 170 reef fish species. For macroalgae, this number is equivalent to one quarter of the whole known diversity of the state of Rio de Janeiro. The high number of molluscs found makes BIG a hotspot of diversity for this group in Brazil. Almost half (40%) of the crustaceans identified were new records either for BIG or the state of Rio de Janeiro.

Epifaunal (algae, corals and echinoderms) and fish beta diversity were explained to some degree by environmental and spatial variables which can be seen by the gain of EM and SM compared to the NM (Fig. 2). Except for algae communities, in general, 149

SM had a higher contribution in explaining community variation than EM, especially for corals. Corals also had the largest proportion of variation in composition explained by environmental and spatial variables, 31%. Among those groups with any chosen driver, echinoderms had the smallest gain in explained variation when compared to null model, 10%. For fish 퐷_푣푎푙푢푒퐸푀 + 퐷_푣푎푙푢푒푆푀 < 퐷_푣푎푙푢푒퐹푀, possibly due to potential interactions between each fraction’s effects and redundancy (e.g. effects of spatially structured environmental variables). For fish, the sum of the gains of EM and SM compared to null model (0.09 and 0.23 respectively) is smaller than the FM gain (0.26). Infaunal species (molluscs and crustaceans) had no selected environmental drivers or spatial descriptors.

In general, species composition was explained by the first principal component (PC1), although PC5 was also selected as an algae diversity driver (Table II). Depth- related variables (such as bottom depth) had the main leverage for PC1 whereas PC5 was mainly related to nutrient content (e.g. phosphate) and water productivity (chlorophyll content). The western side of the bay had the shallowest waters, richer in nutrients (Fig. 3).

Broad scale patterns depicted by PCNM 1, 2, 3 and 4, latitudes and longitudes were always among the selected spatial filters for most taxa, although some other finer scales were selected for fish and corals community composition (Table II). These broad PCNMs depict a west-east community organisation pattern whereas PCNMs 8, 9 and 11 showed finer scale differences among sites (Fig. 4).

Discussion

In general terms, variation in species composition observed for algae, corals, echinoderms and reef fish was partly explained by environmental variables and broad scale spatial descriptors. The selected environmental variables were related to depth differences across the bay, whereas most of the chosen spatial descriptors depicted broad scale differentiation in species composition in a west-east gradient. Nevertheless, most of variation in species composition was not explained by any given environmental and/or spatial descriptor.

Variation in benthic algae, corals, echinoderms and fish communities partly reflected differences in depth or depth-related aspects of sites. Higher variation was 150 found in shallower study locations. The role of depth in structuring marine assemblages is well known and described for different taxa and in different places (Kendall & Haedrich 2006; Reiss et al. 2011; Navarro et al. 2015; Coll et al. 2016; Lauria et al. 2016). For bottom dwelling organisms, depth might be a proxy to several physical and chemical conditions (e.g. bottom temperature, light availability) in the water that affects species distributions. Unsurprisingly, depth and bottom related variables are found to be relevant in modelling benthic species spatial ranges (Reiss et al. 2011). To a lesser extent, algae diversity also responded to nutrient availability, such as bottom phosphorus and chlorophyll concentrations and nitrite. Also, similarly to our results, it has been demonstrated elsewhere an inverse relationship between depth and Atlantic demersal fish diversity (Kendall & Haedrich 2006). Depth may be especially relevant as this region is subjected to sporadic but weak coastal upwelling of cold, nutrient rich ACAS (=South Atlantic Central Water which penetrates subsurface within the bay and can cause significant thermal, salinity and density stratification as well as nutrient enrichment of the bottom detectable as 8-9C difference in temperature within the top 20 m depth (Soares-Gomes & Pires-Vanin 2003; Creed et al. 2007).

As for environmental variables, one spatial variable, PCNM1, prevailed on affecting most of the portion of variation that was spatially structured. The exception was macroalgae, which instead had longitude selected as an important spatial descriptor of the ecological data. Both PCNM1 and longitude ascribe similar broad scale spatial structure, splitting the bay in two major bio-regions. From PCNM1 (Fig.4) we can divide the bay in one western side with negative spatial autocorrelation, depicting more idiosyncratic communities (higher variation in composition) and the eastern side exhibiting positive autocorrelation among sites. This consistent broad scale separation within four out of the six studied taxa might actually be the spatial aftermath of environmental filtering since, as seen above, the west side of the bay depicts shallower waters, which segregates epifaunal and fish communities. The effect of depth at varying scales on algal communities which in turn influences the distribution of echinoderms and ecological processes like predation from fish has been already reported (Parnell 2015) and could be the explanation for the patterns found here. For corals and fish, some other more complex/fine scale spatial descriptors were selected, indicating the existence of finer spatially structured habitat subgroups within each one of the two broad bio-regions. 151

It is noteworthy that whether this spatial pattern is the outcome of some hidden environmental filter or the observed consequence of true spatial processes, such as differential immigration from sink populations, it has direct implications for conservation in the area. Management should englobe the distinctiveness between the two sides of the bay. Some general more or less evenly distributed protected areas for the eastern side should account for most of communities, which are more similar in this area (with few exceptions, e.g. the outer coast of Grande Island). On the other hand, the west’s shallow areas should be treated individually, taking into account its peculiarities and higher variation.

Variation in presence or absence of infaunal species (crustaceans and molluscs) could not be explained by any measured environmental or spatial variables. Despite the fact that species accumulation curves showed that both groups (especially crustaceans) could be slightly underestimated, the complete lack of drivers suggests distinct ecological pressure, when compared to benthic organisms and fish. Also, species- poor communities, such as the crustaceans communities with only eight species at the richer sites, are usually not affected by many environmental gradients (Blanchet et al. 2014)

Most of the observed variation in species composition was not explained by any candidate explanatory variables, even for those groups to which there were selected environmental and/or spatial drivers. Although it may seem counterintuitive, this is consistent with most other similar studies in different environments showing a relevant amount of unexplained variation, including among marine organisms (Cottenie 2005; Chust et al. 2013; Lewis et al. 2015; Navarro et al. 2015) . This recurrent result could be due to uncaught effects of unmeasured explanatory variables, poor quality of the measured explanatory variables (e.g. point samples taken from inconstant descriptors, Borcard et al. 1992, but see Økland 1999) or even actual lack of environmental and/spatial barriers at the studied scale. In the specific case of our study area, the complex hydrodynamics of the region (Stevenson et al. 1998) could lead to a less predictable organisation of species distribution patterns. Although this could still be true the consistency of these observations throughout diverse natural systems suggests this is likely to be a real trait of ecological communities. Unexplained variation in species composition could be the outcome of demographic stochasticity or other neutral processes (Borcard et al. 1992; Hubbell 2001; Chave & Leigh 2002; Chave 2004; Chust et al. 2013, but see Økland 1999). Thus, environmental filtering may be not pivotal to 152 species presence or absence at a specific scale in a given area although it may control their abundances. Indeed, this differential effect of environmental and spatial descriptors on driving abundances and presences/absences has been recently demonstrated elsewhere (Blanchet et al. 2014; Navarro et al. 2015).

Generalised Linear Models (GLMs) and statistical modelling thinking in general have been widely used for ecological univariate analysis (Bolker et al. 2009; Zuur et al. 2010). These approaches have some desirable properties for the analysis of ecological data that are not found in most studies applied to community ecology studies (Warton et al. 2012, 2015; O’Neil & Schutt 2013). Nevertheless, only recently have computational and theoretical advances enabled its extension to analysing multivariate response data, such as community datasets with multiple species abundances and/or presences/absences (Wang et al. 2012). The script available in the Supplementary Material was one of the first attempts (Rishworth et al. 2016) to apply the GLM framework to disentangling drivers for marine communities. Future advances in such methods are expected to improve the available tools for tackling ecological problems. A first challenge is finding a way of partitioning the explained variation (similar to what is done for linear models, Borcard et al. 1992; Peres Neto et al. 2006) to find environmental and spatial combined x isolated effects on the total D-value. This would allow researchers to better estimate the relative roles of environmental drivers and spatial processes in community organisation.

References Akaike, H. (1973). Information theory and an extension of the maximum likelihood principle. Proceedings of the Second International Symposium on Information Theory (eds B.N. Petrov & F. Caski), pp. 267–281. Akademiai Kiado, Budapest. Anderson, M.J., Crist, T.O., Freestone, A.L., Sanders, N.J., Cornell, H. V, Comita, L.S., Davies, K.F., Harrison, S.P., Kraft, N.J.B., Stegen, J.C. & Swenson, N.J. (2011). Navigating the multiple meanings of β diversity : a roadmap for the practicing ecologist. Ecology Letters, 14, 19–28. Baas Becking, L.G.M. (1934). Geobiologie of inleiding tot de milieukunde (W.P. Van Stockum & Zoon, Eds.). The Hague, the Netherlands. Babyak, M. a. (2004). What you see may not be what you get: a brief, nontechnical introduction to overfitting in regression-type models. Psychosomatic medicine, 66, 411–421. 153

Bastos, M. & Callado, C.H. (2009). O ambiente da Ilha Grande. Laboratório de Ideias. Blanchet, G.F., Legendre, P., Bergeron, J.A.C. & He, F. (2014). Consensus RDA across dissimilarity coefficients for canonical ordination of community composition data. Ecological Monographs, 84, 491–511. Blanchet, F.G., Legendre, P. & Borcard, D. (2008). Modelling directional spatial processes in ecological data. Ecological Modelling, 215, 325–336. Blanchet, F.G., Legendre, P., Maranger, R., Monti, D. & Pepin, P. (2011). Modelling the effect of directional spatial ecological processes at different scales. Oecologia, 166, 357–368. Bolker, B.M., Brooks, M.E., Clark, C.J., Geange, S.W., Poulsen, J.R., Stevens, M.H.H. & White, J.S.S. (2009). Generalized linear mixed models: a practical guide for ecology and evolution. Trends in Ecology and Evolution, 24, 127–135. Borcard, D., Gillet, F. & Legendre, P. (2011). Numerical Ecology with R. Springer New York, New York, NY. Borcard, D. & Legendre, P. (2002). All-scale spatial analysis of ecological data by means of principal coordinates of neighbour matrices. Ecological Modelling, 153, 51–68. Borcard, D., Legendre, P. & Drapeau, P. (1992). Partialling out the Spatial Component of Ecological Variation Author ( s ): Daniel Borcard , Pierre Legendre and Pierre Drapeau Published by : Ecological Society of America PARTIALLING OUT THE SPATIAL COMPONENT OF ECOLOGICAL VARIATION1. Ecology, 73, 1045– 1055. Chave, J. (2004). Neutral theory and community ecology. Ecology Letters, 7, 241–253. Chave, J. & Leigh, E.G.J. (2002). A Spatially Explicit Neutral Model of b-Diversity in Tropical Forests. Theoretical Population Biology, 62, 153–168. Chust, G., Irigoien, X., Chave, J. & Harris, R.P. (2013). Latitudinal phytoplankton distribution and the neutral theory of biodiversity. Global Ecology and Biogeography, 22, 531–543. Coll, M., Steenbeek, J., Sole, J., Palomera, I. & Christensen, V. (2016). Modelling the cumulative spatial–temporal effects of environmental drivers and fishing in a NW Mediterranean marine ecosystem. Ecological Modelling, 331, 100–114. Cottenie, K. (2005). Integrating environmental and spatial processes in ecological community dynamics. Ecology Letters, 8, 1175–1182. Creed, J.C., Pires, D.O. & Figueiredo, M.A. de O. (2007). Biodiversidade Marinha da Baía da Ilha Grande, Serie Biodn. (J.C. Creed, D.O. Pires & M.A. de O. Figueiredo, Eds.). MMA. Dray, S., Legendre, P. & Peres-Neto, P.R. (2006). Spatial modelling: a comprehensive framework for principal coordinate analysis of neighbour matrices (PCNM). Ecological Modelling, 196, 483–493. 154

Freedman, L., Pee, D. & Midthune, D. (1992). The Problem of Underestimating the Residual Error Variance in Forward Stepwise Regression. Journal of the Royal Statistical Society. Series D (The Statistician), 41, 405–412. Gilbert, B. & Bennett, J.R. (2010). Partitioning variation in ecological communities: Do the numbers add up? Journal of Applied Ecology, 47, 1071–1082. Hubbell, S.P. (2001). The Unified Neutral Theory of Biodiversity and Biogeography. Princeton University Press, Princeton, NJ. Hutchinson, G.E. (1957). Concluding remarks. Cold Spring Harbor Symposia on Quantitative Biology, 22, 415–427. Ikeda, Y. & Stevenson, M. (1980). Determination of circulation and short period fluctuation in Ilha Grande Bay (RJ), Brazil. Brazilian Journal of Oceanography, 29, 89–98. Ikeda, Y. & Stevenson, M.R. (1982). Seasonal characteristics of hydrography, turbulence and dispersion near Ilha Grande (RJ), Brazil, based on R/V ‘Prof. W. Besnard’ data. Brazilian Journal of Oceanography, 31, 11–32. Jackson, D.A. (1993). Stopping Rules in Principal Components Analysis : A Comparison of Heuristical and Statistical Approaches. Ecology, 74, 2204–2214. Kaehler, S. & Williams, G. a. (1996). Distribution of algae on tropical rocky shores: spatial and temporal patterns of non-coralline encrusting algae in Hong Kong. Marine Biology, 125, 177–187. Kendall, V.J. & Haedrich, R.L. (2006). Species richness in Atlantic deep-sea fishes assessed in terms of the mid-domain effect and Rapoport’s rule. Deep Sea Research Part I: Oceanographic Research Papers, 53, 506–515. Lauria, V., Garofalo, G., Gristina, M. & Fiorentino, F. (2016). Contrasting habitat selection amongst cephalopods in the Mediterranean Sea: When the environment makes the difference. Marine Environmental Research, 119, 252–266. Legendre, P. (1993). Spatial Autocorrelation : Trouble or New Paradigm ? Ecology, 74, 1659–1673. Leibold, M.A., Holyoak, M., Mouquet, N., Amarasekare, P., Chase, J.M., Hoopes, M.F., Holt, R.D., Shurin, J.B., Law, R., Tilman, D., Loreau, M. & Gonzalez, A. (2004). The metacommunity concept: A framework for multi-scale community ecology. Ecology Letters, 7, 601–613. Lewis, R., Marrs, R.H., Pakeman, R.J. & Lennon, J. (2015). Climate drives temporal replacement and nested-resultant richness patterns of Scottish coastal vegetation patterns of Scottish coastal vegetation. Morfin, M., Fromentin, J.M., Jadaud, A. & Bez, N. (2012). Spatio-temporal patterns of key exploited marine species in the Northwestern Mediterranean sea. PLoS ONE, 7. Navarro, J., Coll, M., Cardador, L., Fernández, Á.M. & Bellido, J.M. (2015). Progress in Oceanography The relative roles of the environment , human activities and 155

spatial factors in the spatial distribution of marine biodiversity in the Western Mediterranean Sea. Progress in Oceanography, 131, 126–137. O’Neil, C. & Schutt, R. (2013). Doing Data Science, Firstn. O’Reilly. Økland, R.H. (1999). On the variation explained by ordination and constrained ordination axes. Journal of Vegetation Science, 10, 131–136. Parnell, P.E. (2015). The effects of seascape pattern on algal patch structure, sea urchin barrens, and ecological processes. Journal of Experimental Marine Biology and Ecology, 465, 64–76. Peres Neto, P.R., Legendre, P., Dray, S. & Borcard, D. (2006). Variation Partitioning of Species Data Matrices : Estimation and Comparison of Fractions. Ecology, 87, 2614–2625. Reiss, H., Cunze, S., König, K., Neumann, H. & Kröncke, I. (2011). Species distribution modelling of marine benthos: a North Sea case study. Marine Ecology Progress Series, 442, 71–86. Rishworth, G.M., van Elden, S., Perissinotto, R., Miranda, N.A.F., Steyn, P.-P. & Bornman, T.G. (2016). Environmental influences on living marine stromatolites: insights from benthic microalgal communities. Environmental microbiology, 18, 503–13. Signorini, S.R. (1980a). A study of the circulation in bay of Ilha Grande and Bay of Sepetiba: part I, a survey of the circulation based on experimental field data. Brazilian Journal of Oceanography, 29, 41–55. Signorini, S.R. (1980b). A study of the circulation in Bay of Ilha Grande and Bay of Sepetiba: part II: an assessment to the tidally and wind-driven circulation using a finite element numerical model. Brazilian Journal of Oceanography, 29, 57–68. Soares-Gomes, A. & Pires-Vanin, A.M.S. (2003). Padrões de abundância, riqueza e diversidade de moluscos bivalves na plataforma continental ao largo de Ubatuba, São Paulo, Brasil: uma comparação metodológica. Revista Brasileira de Zoologia, 20, 717–725. Stevenson, M.R., Dias-Brito, D., Stech, J.L. & Kampel, M. (1998). How do cold water biota arrive in a tropical bay near rio de janeiro, brazil? Continental Shelf Research, 18, 1595–1612. Tjur, T. (2009). Coefficients of Determination in Logistic Regression Models—A New Proposal: The Coefficient of Discrimination. American Statistician, 63, 366–372. Wagenmakers, E.-J. & Farrell, S. (2004). AIC model selection using Akaike weights. Psychonomic Bulletin & Review, 11, 192–196. Wang, Y., Naumann, U., Wright, S.T. & Warton, D.I. (2012). Mvabund- an R package for model-based analysis of multivariate abundance data. Methods in Ecology and Evolution, 3, 471–474. Warton, D.I., Foster, S.D., De’ath, G., Stoklosa, J. & Dunstan, P.K. (2015). Model- based thinking for community ecology. Plant Ecology, 216, 669–682. 156

Warton, D.I., Wright, S.T. & Wang, Y. (2012). Distance-based multivariate analyses confound location and dispersion effects. Methods in Ecology and Evolution, 3, 89–101. Westfall, P.H., Young, S.S. & Lin, D.K.J. (1998). Forward selection error control in the analysis of supersaturated designs. Statistica Sinica, 8, 101–117. Zuur, A.F., Ieno, E.N. & Elphick, C.S. (2010). A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution, 1, 3–14.

157

Table I- Selected variables for Environmental Model (EM) and Spatial Model (SM) for each taxon.

Models EM SM Macroalgae PC1; PC5 longitude Cnidaria PC1 PCNMs 1,11,2,3,8 and long. Echinodermata PC1 Latitude, PCNM 4 Crustacea - - Mollusca - - Fish PC1 longitude, latitude, PCNMs 1,9

158

Fig.1 Our study site Ilha Grande Bay in Southeastern Brazil (highlighted in red box in upper left corner). Numbers represent 42 sample sites where rocky shore communities were assessed.

159

Fig. 2 Stacked bar showing proportion of explained (dark blue) and unexplained (light blue) variation in community composition for all six taxa using the different models. Coding first letter: A= Algae; Co= Corals; E= Echinoderms; F= Fish; M= Molluscs; C= Crustaceans. Model coding: EM= Environmental Model; SM= Spatial Model; FM= Final Model; AM= All Models.

160

Fig. 3 Heatmap depicting A) depth range in Ilha Grande Bay hot colours showing shallower waters; B) Phosphorus concentration in BIG, hot colours showing higher concentrations.

161

162

Fig. 4 PCNMs selected as spatial descriptors for community variation of different taxa in BIG. The size of the bubbles are proportional to the absolute values of fitted scores of the cannonical axes and the colour represent positive (black) or negative (white) spatial correlation.

163

Patterns of co- occurrences and the role of competition in structuring communities in tropical marine rocky shores

Lélis A. Carlos- Júnior12, Matthew Spencer2, Timothy P. Moulton1, Débora O. Pires3, Clóvis Castro3, Carlos Renato R. Ventura3, Carlos Eduardo L. Ferreira4, Cristiana S. Serejo3, Joel C. Creed1

1 Departamento de Ecologia e Evolução, Universidade do Estado do Rio de Janeiro, Rua São Francisco Xavier, 524 – Maracanã, Rio de Janeiro, CEP: 20550-013, Brazil

2 School of Environmental Sciences, University of Liverpool. Liverpool L69 3GP, UK.

3 Museu Nacional/UFRJ, Quinta da Boa Vista s/n, Rio de Janeiro, CEP: 20940-040, Brazil

4 Departamento de Biologia Marinha, Universidade Federal Fluminense, Niterói, CEP: 24001-970, Brazil

Introduction

How do communities come together (Gotelli 1999)? The question that lasted throughout the last century still lurks on the ecologist’s mind in the twenty- first. Early on, the subject has brought up controversy, from the synecology notion that communities were superorganisms, with defined boundaries and identities (Clements 1916) to the alternative explanation lead by Gleason (1926) in which “precise structural uniformity… does not exist”. This debate over stochastic versus deterministic processes governing species assemblages evolved and persisted thenceforth.

Influenced by niche theory (Hutchinson 1957), assembly rules were proposed to explain patterns of co- occurrence in bird species (Diamond 1975). These rules described communities as the result of non- random combinations of species, determined by interspecific competition and niche overlap. Some pairs of species were forbidden to co- exist in the same location due to similarities in their ecological demands and traits. Therefore, competition played a major role in structuring species association. Soon, it became evident that the matter should be tested against a null hypothesis in which all attributes but the one being investigated, namely the non- random co- occurrence of species, were fixed in the community under survey (Connor and Simberloff 1979; Diamond and Gilpin 1982; Connor et al. 2013). Thus, the best way to test it was the creation of “null communities” matrices (sites × species) and the further comparison of the observed real community with its null counterparts. This type of “natural experiment” (Gotelli and Graves 1996; Gotelli 2016) allow researchers to 164 contrast patterns of co- occurrences between the real observed community and the idealised communities where species occur undependably from the others.

Yet both steps, first creating null matrices holding ecological properties but discarding non- random co- occurrences and second comparing the real community attributes with those from the null matrices, proved to be a hard challenge (Connor et al. 2013; Sanderson and Pimm 2015). Creating all possible null matrices with the same unbiased probability (called equidistribution) requires mathematical tools that could be utterly time consuming and prohibitive to large ecological data (Miklós and Podani 2004; Strona et al. 2014). On one hand, null matrices with no constraints in row or column totals could yield an enormous number of unrealistic null communities, making the null hypothesis artificially easy to be falsified. On the other hand, too many constraints are likely to create “null” matrices that are in fact just small perturbations of the original real one, making it nearly impossible to escape from 퐻0 (Gotelli 2000; Sanderson and Pimm 2015). Additionally, the selection of the best measure to provide a fair comparison between null and real matrices and establishing the existence or not of non- randomness is also troublesome (Diamond and Gilpin 1982; Wright and Biehl 1982; Sanderson and Pimm 2015). For example, using all possible pairs of species instead of the ones more likely to compete (such as sister species) , causing the “dilution effect” , has been criticised (Diamond and Gilpin 1982; Sanderson and Pimm 2015). Several other metrics have been proposed producing sometimes opposite results regarding the importance of competition in the assemblage of ecological communities (Wright and Biehl 1982; Harvey et al. 1983; Connor et al. 2013; and see chapter six in Sanderson and Pimm 2015 for an excelent review of ensemble metrics used in ecology).

After decades of heat debates, it has been of fairly consensus that methods that start from a null matrix (in the linear algebraic sense, i.e. a matrix of 0`s) and gradually fill it with 1`s obeying established constraints (e.g. the knight's tour Sanderson et al. 1998; Gotelli and Entsminger 2001) performed better than the ones that modify the original given binary matrix. A simple modification of the swap algorithm, called trial- swap, proposed by Miklós and Podani (2004) provided satisfactory results, that is, equiprobable distributions.. Later, an alternative method called the “curve ball algorithm” was also proved to produce equidistribution (Verhelst 2008; Strona et al. 2014; Carstens 2015) . Following the debate on metrics, Sanderson and Pimm (2015) have recently proposed the analysis of species co- occurrences pair-by-pair. 165

Thus, we decided to use the vast knowledge obtained by this century-long debate to understand the role of competition in structuring tropical marine rocky shore communities using the null community’s matrix approach. Although the importance of interspecific interactions has been demonstrated for the first time for marine assemblages, especially top-down regulation (Paine 1966), most of the studies on the importance of competition to species association come from terrestrial systems, leaving a gap of knowledge of marine environments (Greenstreet et al. 2007) .

Our goal was to understand whether the presence of one species had no effect on the other’s presence/absence or were there any pairs of species that occur less often than expected. More specifically, we wanted to know if the presence of any given species in a sampled location would turn less likely the probability of finding any other species in BIG. For this, we formulated a pairwise framework to investigate if the presences of all species were independent from others for all possible pairs of species found.

Secondly, we also wanted to examine if the observed number of shared species between sites were what one would expect if the number of shared species was determined by chance alone. Thus, we tested the probability of finding random communities (of same size as those observed) with the same or less numbers of shared species between every pair of sites. In order words, we assessed if the observed pairs of sites shared less species (being more different) than expected by chance.

Methods

Study site and community datasets

We used data collected in a tropical rocky shore bay, Ilha Grande Bay (BIG, from the Portuguese acronym), in south-eastern Brazil and already described in previous studies (Fig.1; Creed et al. 2007; Carlos- Junior in prep a,b). The community datasets comprise presence/absence data from six different taxonomic groups ranging from three hard bottom benthos, macroalgae, cnidarians and echinoderms, to two infaunal organisms, molluscs and crustaceans and reef fish. The species data were collected from 42 sites in BIG for all taxa but reef fish. As reef fish were assessed in 43 sample units and we treated the taxonomic groups separately for the whole analysis, we kept the fish data table with one additional row. There were 110 algal species, 26 cnidarians, 27 echinoderms, 374 molluscs, 61 crustaceans and 175 reef fish species, 166 totalising 773 species. For more details on data collection and on the study site, see Creed et al. 2007 and Carlos- Junior in prep a,b.

Two ways of computing null communities

Before deciding which algorithm to use in computing null matrices for the BIG datasets, we compared the performance of two chosen approaches: the more widely used trial-swap algorithm as proposed by Miklós and Podani (2004) and a somewhat related method, the “curveball algorithm”. The trial-swap method consists of a modification of more traditional swap algorithms, such as the “knight’s tour” (Sanderson et al. 1998; Gotelli and Entsminger 2001). It sets a priori the number of swaps to be made on a matrix. Although its original form is proven to be capable of providing a set of matrices with equal probability, it is also time consuming for computation and may be prohibitive for larger datasets (typical in ecological studies), where many swaps are required. Thus, it is combined with two fast algorithms are used for creating a first null matrix and then the trial-swap method creates further perturbations to generate equidistribution in the results, although these additional steps still need to be proved (Miklós and Podani 2004; Strona et al. 2014).

The “curveball” algorithm was recently proposed as a faster alternative to the trial-swap for ecological studies (Strona et al. 2014) although its efficiency in providing uniform sampling of binary matrices had already been pointed out previously (Verhelst 2008). The proof of its capacity in yielding equidistribution in the alternative resulting matrices was later demonstrated (Carstens 2015).

It was not our main goal to comprehensively compare the two frameworks, but rather decide which one to use in our datasets for answering our ecological questions, we followed a quick way for choosing. Similarly to what has been done elsewhere (Gotelli and Entsminger 2001; Miklós and Podani 2004; Sanderson and Pimm 2015) from a single binary matrix 3 × 3 with both row and columns sums fixed to (1,2,1) it is possible to construct five different matrices (Fig.S1). Starting from each one of them at a time, we calculated the proportion of each of the resulting matrices for the two methods after 10000 iterations. We also calculated the time the whole process took for each one of the 10000 iterations. 167

The results (Supplementary Material S1) suggest that although it took considerably longer for the curveball algorithm to make calculations on our computer, it provided the five possible outcomes with the same probabilities, whereas the trial-swap was slightly biased toward producing the same matrix as the input. Equiprobablity in generating all the alternative resulting matrices (i.e. being non-preferential) is the most fundamental condition of a null model algorithms. Additionally, as our matrices sizes were not an impediment for the slower computational time observed for the curveball, we decided to carry on using the curveball algorithm to simulate null communities from the BIG datasets.

Generating null binary matrices from BIG presence/absence datasets

In order to test if the presences of the species found in BIG were independent from other species, we used the curveball algorithm on each one of the binary matrices of the six sampled taxonomic groups.

First, we determined all possible pairs of species for all six taxonomic groups: algae (5995 pairs of species), cnidarians (325), echinoderms (351), molluscs (69751), crustaceans (1830) and reef fish (15225). For each one of those pairs, we observed the number of co-occurrences, that is, the number of sites in which both species were present. Then, we generated 10000 null binary matrices using the original species composition data and assessed the distribution of the co-occurrences for each one of the pairs in each iteration. Thus, for a given observed pair of species, there were 10000 results of co-occurrences. Following this, we evaluated where the observed number of co-occurrences of each pair fell within its expected random distribution curve and estimated the probability of finding a number of co-occurrences as extreme as the one observed for the real pair. As our interest relied on potential exclusion of a species by another, we assessed the probability of finding a number equal or smaller than the observed. Thus, we searched for unusually small number of co-occurrences between species pairs in a 5% threshold (0.05), as a conventional rate. This full approach of investigating all individual pairs of species was recently proposed by Sanderson and Pimm (2015) in their book. It is as an alternative to the traditionally used ensemble metrics, which they call “cloaking metrics” that usually use general attributes of all pairs and hide interesting anomalies in the data. In order to account for the potential increase in Type I errors caused by calculating thousands of probabilities we calculated 168 the False Discovery Rate (FDR) for the analysis of each dataset, which controls the expected proportion of discoveries (rejected null hypothesis) that are false (Benjamini and Hochberg 1995).

We then repeated all steps above, but changing from an R-mode analysis to a Q- mode analysis, that is, investigating pairs of sites (the observations of the original matrix) instead of pair of species (the variables of the matrix). We examined the probability of each pair of site to share the same number of species or less than the observed number of shared species. Thus, for the 861 pairs of sites sampled at BIG (903 for the fish data) for each one of the six datasets we investigated the chance of finding pairs of sites that were more dissimilar (shared less species) than expected by chance. The script for the full analysis in R is available in the Supplementary Material 2.

Results

Only a few pairs of species from the mollusc’s dataset and the reef fish dataset co- occurred in BIG less frequently than expected by the random communities. Except for these, there was no evidence suggesting inter-dependence of species occurrences among the datasets.

There were no unusually values of co- occurrences for pairs of species of any group of hard bottom benthos. None of the 5995 pairs of algae species, 325 pairs of cnidarians and 351 paired echinoderms was found to co- occur in the bay less frequently than expected in a 5% threshold. The same was observed among the 1831 pairs of crustaceans infaunal species.

One out of 69751 pairs of mollusc species was found at same sites less often than expected by 10000 randomisations of the presence/absence data. The two species were: Corbula sp.1 × Chrysallida somersi (Fig.2, Table 1a). The probabilities of finding values as extreme as the observed in the real datasets are present in the last column of Table 1-a.

Five pairs of fish species, out of 15225, were less frequently seen co- occurring than expected by the 10000 random matrices. One bottom dwelling species, the green puffer Sphoeroides greeleyi, was present in two of these unusual pairs: S. greeleyi × Chromis multilineata; S. greeleyi × Pareques acuminatus. The brown chromis C. multilineata was also found to be less frequently seen co- occurring with Serranus 169 flaviventrus. The other two pairs were Eucinostomus gula × Halichoeres poeyi and Mycteroperca acutirostris × M. bonaci (Fig. 3, Table 1b). The probability of finding equal or lower values among the random matrices of the observed values is shown in the last column of Table 1b.

The distribution of all unusual pairs can be found in Fig.4 for molluscs and Fig. 5 for reef fish species.

Similarly, among most of the taxonomic groups, there was no pair of sites departing from what was expected by chance in regard of the number of species they shared. Only three pairs of sites shared less species than expected for benthic macroalgae. On the other hand, 34 pairs of sites (3.7% of the 903 possible pairs) had less reef fish species in common than expected in a 5% threshold. They are listed in Table 2a-b. From the reef fish results (Table 2b) is possible to see that these unusually dissimilar sites are mainly within the western side of the bay and between sites in this region and the ones around the main island of the area (Fig.4 and Table 2b).

Discussion

In general, the distribution (presence/absence) of the six studied taxonomic groups from BIG did not indicate the existence of interspecific competition (or any negative interspecific interaction) as a driving force of these communities at the observed spatial scale. Notwithstanding, it was found that some species’ occurrences were indeed not independent from others, suggesting that competition might be present underr some peculiar situations. The few pairs of species likely to be restricted by competition were presented in the molluscs and reef fish datasets.

For our benthic taxonomic groups, algae, cnidarians and echinoderms, there was no evidence of co-occurrence interdependence for any studied pair of species. As seen elsewhere (Carlo- Junior in prep) the bulk of variation within these communities also did not respond to environmental and spatial gradients measured at the given metacommunity scale. Interestingly, some of the first propositions of ecological communities within a metacommunity not being “niche assembled” by processes such as competition and environmental filtering (Hutchinson 1957) were made thinking in marine benthos systems (Hubbell 1997). Instead, these communities could arise by so called “neutral” processes (meaning not niche-related) and driven mainly by dispersal 170 limitation and local extinctions (Hubbell 1997; Hubbell 2001; Chave 2004). It is rather self-evident to any observer that real species are different and have niches. However, these might not be relevant in controlling community presence/absences at a metacommunity scale, although they are likely to be important drivers of local diversity, as demonstrated by the zonation patterns observed long ago throughout benthic systems across the globe (Connell 1961; Paine 1966; Paine 1974; Kaehler and Williams 1996; Kaehler and Williams 1998; Duffy and Hay 2000). In other words, the processes governing biodiversity at one scale do not necessarily prevail at others (Wiens 1989; Levin 1992; Schneider 2001).

Similarly to hard bottom benthic organisms, our results showed the infaunal crustaceans’ occurrences also to be unrestricted by competition among species. The crustaceans exhibited an odd diversity pattern (Carlos-Junior in prep), where most sites were impoverished of species (in comparison to the other groups) and only very few species occurred in more than five sites. Thus, it is not surprising that at the studied scale, we could not find any sign of competition between species pairs of this group.

The results for the other infaunal group, molluscs, showed that even though competition restrict the distribution of some commonly found species as the clam Corbula sp , it is not ubiquitous among mollusc’s species. Even before calculating the False Discovery Rate only 418 out of 69751 pairs (0.6%) presented co-occurrences less frequent than expected. Contrary to crustaceans, mollusc’s data exhibited the higher values of richness among all ecological groups assessed in the bay and were highly diverse across the whole area (Carlos- Junior in prep).

The other group that showed some pairs with unusually low values of co- occurrences was reef fish, with five pairs. Once again, although we understand that this is insufficient to argue that competition is an important driver of such communities, it is noteworthy to see how relevant it seems to be to some specific organisms. Some of the patterns observed as statistically unusual could arise not by competition but rather be due to some peculiarity of the species involved. For example, Sphoeroides greeleyi seems to be very habitat- restricted, occurring mainly some shallow shores on the west side of the bay. Thus, some others species not as much geographically restricted as S. greeleyi (or restricted to somewhere else) could co- occur with it in very few places. This seems to be the case for the pattern observed for S. greeley × Chromis multilineata 171 and Pareques acuminatus (pairs 2 and 3, Fig.3b-c), since their geographic range did not seem to clearly overlap with that of S. greeley. No co-existence between two species is a necessary but insufficient condition for competitive exclusion. Besides not co- occurring, the two species’ habitat range should be interspersed (Diamond and Gilpin 1982; Connor et al. 2013). For example, the mollusc pair seemed to have non- overlapping interspersed habitats, as seen in Fig.2. Therefore, by examining the distribution of the fish pairs 1 and 2 abovementioned, they do not necessarily represent actual competitors, although one could argue that within the metacommunity of the bay and considering the mobility of fish, all habitats are within reach, and therefore, somewhat interspersed. For example, the sister species Mycteroperca acutitrostris and M. bonaci (Fig. 3e) could be considered to have non- interspersed habitats, though it seems clear that their lack overlapping could arise by competitive exclusion, which precludes one species from the region where the other is found. They were commonly recorded at the bay (one occurring in 15 sites, the other in 23; Table 2) and were never seen occurring at the same sample unit. These two groupers are bottom dweller predators, not seen swimming big distances and usually strongly territorial. Thus, Mycteroperca spp. indicate that true checkerboard distributions (Diamond 1975; Diamond and Gilpin 1982; Connor et al. 2013) could be found in BIG, even though not commonly.

Our results also showed that, apart from some situations, in general the number of shared species among sites did not depart from random expectations. This was consistent with previous results showing that most of variation between sites in the bay could not be explained by environmental filters or spatial descriptors (Carlos-Junior et al in prep). The number of shared species between sites could be the result of deterministic processes, in which more similar sites (in habitat conditions for example) would share more species than expected by chance. Also, it could be the outcome of neutral processes, like demographic stochasticity, local extinction followed by random immigration, etc., which could lead to a site composition pattern indistinct from what one would expect from randomly sampling the regional pool of species (Hubbell 2001). Nevertheless, a small proportion of site by site comparison demonstrated to share less species than expected for algae and fish communities. The subtle determinism for algae sites arose from the most distinctive sites from the west side of the bay (Carlos Junior et al in prep) which are non-randomly different from other sites at other areas of the bay. 172

As also previously demonstrated, the western portion of this region comprises shallower waters that are partly (yet statistically significant) responsible for diversity variation in algae communities (Carlos- Junior et al in prep). This partial effect could be the explanation for the shared species patterns seen here. The same processes could be the explanation for the fish data, with a considerably clearer pattern. As seen in Fig. 4, most of pairs of sites sharing less species than expected depicted a Western- Eastern species differentiation.

One last point worth consideration was regarding the algorithm choice for matrix randomisation. Interestingly, the most often used trial-swap algorithm calculated by the function randomizeMatrix from package picante (Kembel et al. 2010) produced slightly biased distribution of random matrices, whereas the “curveball algorithm” (Strona et al. 2014) seemed to provide equiprobable results (Supplementary Material 1). This could be the reason why no pair of species were selected by the trial-swap method at the 5% threshold (results not shown), since the initial matrix affected the distribution of null matrices, which could inflate Type II errors. On the other hand, contrary to what observed elsewhere (Strona et al. 2014), the curveball algorithm took a considerably longer time during our analysis. Future investigation and comparisons should address these questions to provide a comprehensive investigation on the matter and provide theoretical basis for best choice on future studies involving the generation of null matrices.

In summary, our results showed that although competitive exclusion could be observed at some specific situations, it was not pervasive in explaining variation in distinct marine rocky shore communities at BIG. Competition and other negative interspecific interactions could therefore not be determinant in controlling composition at a metacommunity scale, but instead act structuring local diversity.

References Benjamini Y, Hochberg Y. 1995. Controlling the False Discovery Rate: a Practical and Powerful Approach to Multiple Testing. J. R. Stat. Soc. 57:289–300. Carstens CJ. 2015. Proof of uniform sampling of binary matrices with fixed row sums and column sums for the fast Curveball algorithm. Phys. Rev. E - Stat. Nonlinear, Soft Matter Phys. 91:1–8. Chave J. 2004. Neutral theory and community ecology. Ecol. Lett. 7:241–253. Clements F. 1916. Plant sucession, analysis of the development of vegetation. :512. 173

Connell JH. 1961. The Influence of Interspecific Competition and Other Factors on the Distribution of the Barnacle Chthamalus Stellatus. Ecology 42:710–723. Connor E, Simberloff D. 1979. The Assembly of Species Communities : Chance or Competition. Ecology 60:1132–1140. Connor EF, Collins MD, Simberloff D. 2013. The checkered history of checkerboard distributions. Ecology 94:2403–2414. [accessed 2016 Oct 24]. http://doi.wiley.com/10.1890/12-1471.1 Creed JC, Pires DO, Figueiredo MA de O. 2007. Biodiversidade Marinha da Baía da Ilha Grande. Serie Biod. Creed JC, Pires DO, Figueiredo MA de O, editors. MMA. Diamond JM. 1975. Assembly of species communities. In: Cody M, Diamond J, editors. Ecology and evolution of communities. Cambridge: Harvard Univ Press. p. 342–444. Diamond JM, Gilpin ME. 1982. Examination of the “Null” Model of Connor and Simberloff for Species Co-Occurrences on Islands. Oecologia 52:64–74. Duffy JE, Hay ME. 2000. Strong impacts of grazing amphipods on the organization of a benthic community. Ecol. Monogr. 70:237–263. Gleason HA. 1926. The individualistic concept of plant association. Bull. Torrey Bot. Club 53:7–26. Gotelli NJ. 1999. How Do Communities Come Together? Science (80-. ). 286:1684 LP- 1685. Gotelli NJ. 2000. Null model analysis of species co-occurrence patterns. Ecology 81:2606–2621. Gotelli NJ. 2016. Checkerboards and Missing Species Combinations: Are Ecological Communities Assembled by Chance? Chance 29:38–45. Gotelli NJ, Entsminger GL. 2001. Swap and fill algorithms in null model analysis: rethinking the knight’s tour. Oecologia 129:281–291. Gotelli NJ, Graves GR. 1996. Null models in ecology. Smithsonian Institution Press. Greenstreet S, Robinson L, Reiss H, Kröncke I, Callaway R, Snelgrove P, Costello M, Bergmann M, Fraser H, Craeymeersch J, et al. 2007. Review of Theoretical Community Ecology : Implications for Marine Communities. FRS Collaborative Report, 08/07. 127 pp. Harvey PH, Colwell RK, Silvestown JW, May RM. 1983. Null models in Ecology.pdf. Annu. Rev. Ecol. Syst. 14:189.211. Hubbell SP. 1997. A unified theory of biogeography and relative species abundance and its application to tropical rain forests and coral reefs. Coral Reefs 16:S9–S21. Hubbell SP. 2001. The Unified Neutral Theory of Biodiversity and Biogeography. Princeton, NJ: Princeton University Press. Hutchinson GE. 1957. Concluding remarks. Cold Spring Harb. Symp. Quant. Biol. 22:415–427. 174

Kaehler S, Williams GA. 1998. Early development of algal assemblages under different regimes of physical and biotic factors on a seasonal tropical rocky shore. Mar. Ecol. Prog. Ser. 172:61–71. Kaehler S, Williams G a. 1996. Distribution of algae on tropical rocky shores: spatial and temporal patterns of non-coralline encrusting algae in Hong Kong. Mar. Biol. 125:177–187. Kembel SW, Cowan PD, Helmus MR, Cornwell WK, Morlon H, Ackerly DD, Blomberg SP, Webb CO. 2010. Picante: R tools for integrating phylogenies and ecology. Bioinforma. 26:1463–1464. Levin SA. 1992. The problem of pattern and scale in ecology. Ecology 73:1943–1967. Miklós I, Podani J. 2004. Randomization of presence-absence matrics: comments and new algorithms. Ecology 85:86–92. Paine RT. 1966. Food Web Complexity and Species Diversity. Am. Nat. 100:65–75. Paine RT. 1974. Intertidal community structure: Experimental studies on the relationship between an dominant competitor and its principal predator. Oecologia 15:93–120. Sanderson JG, Moulton MP, Selfridge RG. 1998. Null matrices and the analysis of species co-occurrences. Oecologia 116:275–283. Sanderson JG, Pimm SL. 2015. Patterns in Nature: The analysis of species co- occurrences. The University of Chicago Press. Schneider DC. 2001. The Rise of the Concept of Scale in Ecology. Bioscience 51:545– 553. Strona G, Nappo D, Boccacci F, Fattorini S, San-Miguel-Ayanz J. 2014. A fast and unbiased procedure to randomize ecological binary matrices with fixed row and column totals. Nat. Commun. 5:4114. Verhelst ND. 2008. An efficient MCMC algorithm to sample binary matrices with fixed marginals. Psychometrika 73:705–728. Wiens JA. 1989. Spatial Scaling in Ecology Spatial scaling in ecology1. Source Funct. Ecol. 3:385–397. Wright SJ, Biehl CC. 1982. Island Biogeographic Distributions: Testing for Random, Regular, and Aggregated Patterns of Species Occurrence. Am. Nat. 119:345–357.

175

Table 1 Description of the pair of species which co-occur at Ilha Grande Bay (BIG) less frequently than expected by the randomisation of 10000 binary matrices with fixed row and column sums both values being equal to those of the observed presence/absence community table of a) molluscs; b) reef fish species. The first column is the pair designation; followed by the name of the two components of the pair; the number of sites each one of them is found at BIG; the number of sites they were found co- occurring; and the probability of finding the same or smaller value of co-occurrences for the corresponding pair among the 10000 randomised matrices. a)

Molluscs unusual pair of species pair n° sp1 sp2 observed #co- Probability (sp1,sp2) ocu 1 Corbula sp. Chrysallida somersi 15,21 2 0.0000

b)

Reef fish unusual pairs of species pair n° sp1 sp2 observed #co- Probability (sp1,sp2) ocu 1 Chromis multilineata Serranus flaviventris 17,32 8 0.0000 2 Sphoeroides greeleyi Chromis multilineata 6,17 1 0.0000 3 Sphoeroides greeleyi Pareques acuminatus 6,32 3 0.0000 4 Eucinomostus gula Halichoeres poeyi 8,29 1 0.0000 5 Mycteroperca acutirostris Mycteroperca bonaci 15,23 0 0.0000

Table 2 Description of the pair of sites sharing less reef fish species than expected by the randomisation of 10000 null matrices. The first column is the pair designation; followed by the name of the two components of the pair; the number of fish species found at each of the sites; the number of species they shared at Ilha Grande Bay; and the probability of finding the same or smaller value of shared species for the corresponding pair among the 10000 randomised matrices.

Pairs of sites with unusual number of shared fish species pair n° site1 site2 # spp # shared Probability (s1,s2) 1 1 7 59,15 2 0.0000 2 1 11 59,29 7 0.0000 3 1 14 59,7 0 0.0001 4 1 20 59,10 1 0.0001 5 2 7 38,15 0 0.0000 6 2 11 38,29 4 0.0000 7 2 20 38,10 0 0.0000 176

8 4 7 36,15 2 0.0001 9 4 11 36,29 6 0.0000 10 7 9 15,41 2 0.0001 11 7 35 15,38 1 0.0000 12 7 37 15,24 1 0.0017 13 7 41 15,48 3 0.0005 14 7 43 15,47 3 0.0001 15 9 11 41,29 4 0.0000 16 9 14 41,7 0 0.0017 17 9 20 41,10 1 0.0018 18 11 22 29,28 5 0.0003 19 11 23 29,30 5 0.0001 20 11 30 29,33 6 0.0004 21 11 33 29,43 8 0.0008 22 11 35 29,38 3 0.0000 23 11 36 29,29 4 0.0000 24 11 37 29,24 3 0.0000 25 11 38 29,37 6 0.0002 26 11 39 29,65 8 0.0000 27 11 40 29,31 5 0.0002 28 11 41 29,48 7 0.0000 29 11 42 29,39 8 0.0016 30 11 43 29,47 4 0.0000 31 14 33 7,43 0 0.0014 32 14 39 7,65 0 0.0000 33 14 41 7,48 0 0.0009 34 14 43 7,47 0 0.0012

177

Fig. 1 The 42 sample sites surveyed in Baía da Ilha Grande (BIG, Ilha Grande Bay), southeastern Brazil.

Fig. 2 Ilha Grande bay map depicting sites where the two species Corbula sp. And Chrysallida somersi occurred together (green points), where only Corbula sp. occurred 178

(red points) and where only C. somersi was present. Also, locations where none of them was found is shown in yellow.

179

Fig. 3 Ilha Grande Bay (BIG) map showing distributions of pairs of reef fish species that co- occur less frequently than expected by chance. a) Chromis multilineata × Serranus flaviventrus; b) C. multilineata × Sphoeroides greeleyi; c) S. greeleyi × Pareques acuminatus; d) Eucynostomus gula × Halichoeres poeyi and e) Mycteroperca acutirostris × M. bonaci.

180

Fig. 4 Ilha Grande Bay map showing links (red dotted lines) between every one of the 34 pairs of sites found to share less reef fish species than expected by the randomisation of 10000 null matrices. Most of the lines form an East- West segregation (see text for details).

181

Title: Generalised Linear Models outperform commonly used Canonical Analysis in estimating spatial structure of presence/absence data Short Running Title: Better models for assessing spatial structures Word count: 5433 words Authors: Lélis A Carlos-Júnior1, 2*, Joel C Creed2, Rob Marrs1, Rob J Lewis3, Timothy P Moulton2, Rafael Feijó- Lima2, Matthew Spencer1

1 School of Environmental Sciences, University of Liverpool. Liverpool L69 3GP, UK.

2 Programa de Pós- Graduacão em Ecologia e Evolucão, Universidade do Estado do Rio de Janeiro, Rua São Francisco Xavier, 524 – Maracanã, Rio de Janeiro, CEP: 20550-013, Brazil

3 Department of BioScience, Aarhus University, Denmark

*Correspondence author. E-mail: [email protected]

School of Environmental Sciences, Nicholson Building.Liverpool, L69 3GP. &

Universidade do Estado do Rio de Janeiro. Rua São Francisco Xavier 524, PHLC Sala 525, CEP 20550- 900, Rio de Janeiro, RJ, Brazil. Summary

1. Identifying spatial structures in ecological communities is crucial to understand variation in species diversity. Although Generalised Linear Models (GLMs) have been suggested for analysing ecological data, data transformation followed by usage of linear algorithms, such as Redundancy Analysis (RDA) is a fairly common approach in community ecology studies. Following recent debate about differences in performances of GLMs and linear methods in the literature we wanted to test both frameworks for estimating spatial structures in community composition data. Our goal was to simulate realistic presence/absence data typical of many beta diversity studies in order to systematically compare performance of RDA and GLM. For model selection we used standard Forward Selection as it is commonly used in RDA studies and a similar approach based on Akaike Information Criterion for GLM. 2. We used three real baseline datasets (one terrestrial, one marine and one freshwater) with their respective original sets of positive Principal coordinates of neighbour matrices (PCNMs) as spatial descriptors to generate new simulated communities with known spatial structure. We then created different simulation scenarios varying the number of non-zero-coefficient PCNMs and their spatial scale in order to compare the two frameworks under distinct conditions. Performance of each method was assessed by scoring overall accuracy as the 182

proportion of PCNMs whose inclusion/exclusion status was correct and counting Type I and Type II errors. 3. Overall GLM followed by an AIC-based model selection (GLM/AIC) performed better than RDA with forward selection (RDA/FW) in selecting spatial explanatory variables. In contrast, RDA/FW performed unpredictably, but often retained too many explanatory variables leading to high Type I error rates. We found that spatial scale had a negligible effect on GLM/AIC performance but strongly affected RDA/FW’s error rates. 4. We encourage the use of GLM/AIC for studies searching for spatial descriptors of presence/absence species data, since this framework outperformed RDA/FW in situations most likely to be found in real natural communities. It is likely that such recommendations might be extendable to other types of explanatory variables.

Key-words: Redundancy Analysis (RDA), beta diversity, Principal Coordinates of Neighbour Matrices (PCNMs), statistical modelling, Type I and Type II errors.

Introduction

Ecological communities tend to be spatially structured in response to environmental gradients that are themselves organised in space, or to spatially contagious processes such as growth, dispersion and species interactions (Peres-Neto & Legendre 2010; Legendre & Legendre 2012). Thus, identifying spatial variability and different scales of organisation in natural communities is a central question in ecology (Legendre 1993). Answering this question requires the construction of explanatory variables based on spatial relationships among sites (Dray et al. 2006).

Amidst some proposed alternatives, one popular approach applied to ecological systems is called principal coordinates of neighbour matrices (PCNMs, Borcard & Legendre 2002; Dray et al. 2006). This method creates spatial explanatory variables from the eigenvectors of a principal coordinate analysis (Gower 1966) of a truncated distance matrix between sample sites (Borcard & Legendre 2002; Dray et al. 2006). Despite their popularity in ecological studies some evidence suggests PCNMs often yield inflated Type I errors (i.e. erroneously detecting an effect when there is none) and overestimated R² statistics as a result of the spurious selection of unneeded axes (Gilbert & Bennett 2010). 183

In many studies the response variables for which ecologists seek to find explanatory (usually spatial and/or environmental) variables are community composition datasets containing either abundances or presence/absence information (here, we focus on the latter). One intrinsic obstacle to the analysis of such datasets is the fact that they fall outside the scope of standard statistical approaches that are designed to deal with Euclidian distances and normally distributed data (Legendre & Gallagher 2001; Bolker et al. 2009). For community ecology studies searching for drivers of variation in species composition, i.e. beta diversity (Anderson et al. 2011), the problem can be tackled by various approaches. One of the most popular strategies is to adapt the community dataset to a linear framework, using Canonical Analysis (Legendre & Legendre 2012) like Redundancy Analysis (RDA, Ter Braak & Prentice 1988). The RDA algorithm searches for optimal linear combinations (in the least- squares sense, see Legendre & Legendre 2012) of the explanatory variables that best explain the variation in the transformed community composition data (Legendre & Gallagher 2001; Borcard et al. 2011; Blanchet et al. 2014). The results are plotted in a reduced space with orthogonal axes. Then, the significant explanatory variables are selected by Forward Selection (FW, sensu Blanchet et al. 2008) using two thresholds: the adjusted R² and a P-value alpha (see below for more information and Blanchet et al. 2008 for detalis). This full approach will be hereafter called RDA/FW for brevity. The aforementioned framework is widely used in beta diversity assessments of multivariate species composition (presence/absence) data (see Legendre et al. 2005; Borcard et al. 2011; Legendre & Legendre 2012; Blanchet et al. 2014; Eisenlohr & Oliveira-Filho 2015; and Saiter et al. 2015 for some examples). More recently, some studies have proposed Generalised Linear Models (GLMs) as an alternative that does not require data transformation and can be adjusted to the actual observed distribution of the data (Warton et al. 2012, 2015, 2016). Also, the use of a philosophical/methodological approach borrowed from information theory such as Akaike Information Criteria (AIC, Akaike 1973) has also been advocated in preference to traditional significance testing practices for best model selection (Anderson et al. 2000; Wagenmakers & Farrell 2004). This framework will be named GLM/AIC hereafter.

Some papers have contrasted several aspects of these two different lines of thought and highlighted some alarming problems with standard methods applied to community ecology studies (Warton 2005; Gilbert & Bennett 2010; O’Hara & Kotze 184

2010; Warton et al. 2012). Among the main issues are erroneous assumptions about the behaviour of variance as the mean varies (Warton et al. 2012) and incorrect designation of error structure (Warton et al. 2012, 2015, 2016), which is not overcome by data transformation (O’Hara & Kotze 2010). On the other hand, under some circumstances, such as testing for significance of coefficients, linear methods with adequate transformation of data were found to perform better than GLMs (Ives 2015). Few attempts have been made to comprehensively compare the two frameworks using realistic simulated community composition data. In particular, we wanted to test both approaches on presence/absence data, which are often the only data that can be consistently collected over large spatial scales. Thus, our goal was to simulate realistic presence/absence data typical of beta diversity studies (sensu Legendre et al. 2005 and Anderson et al. 2011) in order to systematically compare performances of RDA/FW and GLM/AIC.

Materials and methods

Baseline Datasets

We compared the two approaches to spatial variable selection using simulated community data based on three real community composition datasets with a range of properties:

D) Presence/Absence of 110 marine benthic macroalgae species from a Rapid Assessment Program of biodiversity of 42 sample sites spanning roughly 2000 km2 at Ilha Grande Bay, Rio de Janeiro, Brazil (tropical southwest Atlantic) (Creed et al. 2007). E) Presence/Absence of 588 plant species from grassland covering 500 km2 of Scotland’s soft coast. Data were collected from 3639 5 × 5 m quadrats from 94 sites. We used sites as our sample unit treating species as present when they occur in at least one quadrat at a site, and absent otherwise (see Lewis et al. 2014 for more information). F) Presence/Absence of 47 freshwater aquatic macroinvertebrate insect species collected from 31 sample sites in five tributaries of the Guapiaçú River, Rio de Janeiro, Brazil (R. Feijó- Lima unpublished data). 185

For each of the datasets we calculated the corresponding spatial variables to be used as explanatory variables for regression. Principal coordinates of neighbour matrices (PCNMs) have been widely used for building orthogonal spatial variables and were later recognized as a special case of distance based “Moran’s eigenvectors maps” (MEMs) (Dray et al. 2006). PCNMs were computed as described in Borcard & Legendre (2002), and only those PCNMs associated with positive eigenvalues, i.e. describing positive spatial autocorrelation, were retained (Borcard & Legendre 2002). Larger eigenvalues are associated with broader scale spatial structures while smaller eigenvalues represent fine-scale spatial structures. This method provides a set of explanatory variables describing multi-scale spatial arrangements of the sample sites (Borcard & Legendre 2002; Dray et al. 2006). Dataset A provided 15 positive PCNMs from 42 sites, dataset B had 20, and dataset C had only two PCNMs with positive autocorrelation.

Simulating communities with chosen spatial drivers

We simulated realistic communities using the three baseline datasets as templates with their respective original sets of positive PCNMs. We then varied the number of PCNMs with non-zero coefficients and created new binary (presence/absence) communities (with the same number of sites and same expected number of species as the real ones) reflecting only the effect of those PCNMs with non- zero coefficients.

In order to simulate new binary communities, we first estimated a coefficient matrix 퐁 of size (m variables + 1 row with intercepts× p species) from each real data set. This was achieved using the manyglm function with binomial errors in R package mvabund (Wang et al. 2012), with explanatory matrix X (n sites × m positive PCNMs + 1 first column with 1’s ). The matrix 퐁 gives the effect of each explanatory variable on the logit-transformed probabilities of presence. The mvabund package provides a GLM framework for multivariate response data.

We then created new hypothetical scenarios by generating a new coefficient ∗ ∗ matrix 퐁 , of the same size as 퐁, whose elements 푏푘푗 were given by

186

∗ 푏푘푗 = 푏1푗, if 푘 = 1, 푗 = 1,2, … , 푝, ∗ { 푏푘푗~ 퐹̂푏 , if 푘 − 1 ∈ 퐾, 푗 = 1,2, … , 푝, eqn 1 ∗ 푏푘푗 = 0, otherwise,

where 퐹̂푏 is the empirical distribution function of 푏푘푗 (k=2, 3, …, m+1, j= 1, 2, ∗ …, p) (Evans et al. 2000), and the 푏푘푗 are sampled with replacement. The set K defines in which rows of 퐁∗ the non-zero coefficients were allocated: we studied 13 such sets (see below and Table 1 a-c). In other words, we used the originally-estimated intercepts in each simulation (first row of eqn 1), and drew those coefficients assigned to non-zero values (second row of eqn 1) from the empirical distribution of all the originally- estimated explanatory variable coefficients.

We then calculated predicted probabilities of presence 푝̂푖푗 for the jth species at the ith site. Given the matrix 퐘̂ = 퐗퐁∗ (n sites × p species) of predicted logit probabilities of presence, the predicted probability of presence is

exp(푦̂푖푗) 푝̂푖푗 = . eqn 2 1+ exp(푦̂푖푗)

The simulated presence/absence value for species j at site i was sampled from a

Bernoulli distribution with success probability 푝̂푖푗 . The result is a community matrix with the same number of sites and the same expected number of species as the real community, and with realistic coefficients for spatial eigenvectors. As in the maximum likelihood estimation done by manyglm (Wang et al. 2012), species and sites were assumed conditionally independent when generating simulated presence/absence data, given the values of the explanatory variables. Note that it is not possible to simulate binary data using RDA, because RDA does not generate predicted probabilities of presence.

We compared the GLM vs. RDA variable selection under up to 13 different scenarios, differing in the number of non-zero coefficients (nVar) and whether these coefficients were associated with small or large spatial scales. We simulated up to six different choices of the number of non-zero coefficients: none, one, two, approximately half, approximately three-quarters, and all (Table 1 a-c, rows). We also simulated up to three different spatial scaling patterns. As mentioned above, PCNMs associated with larger eigenvalues represent larger spatial scales. We ordered the PCNMS in descending 187 order of eigenvalues, and arranged the non-zero coefficients within matrix B* in three different ways (Table I a-c, columns): only broad-scale PCNMs with non-zero coefficients (scaling 1); only fine-scale PCNMs with non-zero coefficients (scaling 2); half broad-scale, half fine-scale (scaling 3). Because not every combination of number of non-zero coefficients and spatial scaling is possible, there were 13 possible combinations overall, except for dataset C, which had only two positive PCNMs and therefore four possible scenarios.

RDA and GLM

We used the default RDA function from the R package vegan (R Core Team 2015; Oksanen et al. 2016), with simulated community composition as the response variable, and orthogonal positive PCNMs generated by truncation of the distance matrix of the sample sites as explanatory variables. In order to perform a transformation- based RDA (Borcard et al. 2011; Blanchet et al. 2014) we used the Hellinger transformation, as recommended by Legendre & Gallagher (2001) and Borcard et al. (2011); but also see Blanchet et al. (2014).

Binomial GLMs were fitted to the same data using the manyglm function in R package mvabund (Wang et al. 2012).

Comparing model selection between RDA and GLM frameworks

We compared the results of model selection between the approach usually taken in the RDA and a somewhatsimilar approach for GLMs: forward selection (FW) for RDA as described by Blanchet et al. (2008), and forward selection using a stopping rule based on minimum Akaike Information Criterion (AIC) for GLM (Akaike 1973; Wagenmakers & Farrell 2004). FW selects models by adding variables to model until either the smallest P-value among the remaining excluded variables exceeds an alpha threshold, or the adjusted R2 exceeds that of a model with all variables included. This is implemented in the function forward.sel in the packfor package (Dray et al. 2013). We used an AIC-based method to select GLMs, starting from a null model and adding one explanatory variable at a time, until no further improvement in the sum of AIC over 188 each of the response variables was possible. We used this approach because the usually large number of PCNMs makes it difficult to compare the AIC sum over all possible GLMs.

Performance of each method on simulated data was assessed by two criteria. First, we assessed how many PCNMs with zero coefficients were incorrectly included in the final model (Type I errors). Second, we assessed how many PCNMs with non- zero coefficients were incorrectly excluded from the final model (Type II errors). Also, we assessed overall accuracy as the proportion of PCNMs whose inclusion/exclusion status was correct. Each one of the combinations of conditions from Table I was replicated 1000 times for each dataset described in section Baseline datasets and tested under the two selection strategies, resulting in 13000 (13 possible combinations) simulated datasets for datasets A and B. Since 푚 = 2 in dataset C, only four conditions were applicable and so 4000 simulated datasets were generated. The script for the full analysis in R (R Core Team 2014) is available in the Supporting Information.

Results

Overall, GLM outperformed RDA in model selection (Fig.1 a-c), including variables with non-zero coefficients and correctly excluding those with null coefficients from the final model with a general accuracy of 97% for the three datasets against 83% for RDA. Moreover, the average performance of GLM was always high with the lowest value being 92% whereas accuracy in RDA was more variable, with values ranging from 63% to 98%, depending on modelling conditions (Table 2 a-c).

In general, GLM/AIC had a fairly predictable performance: it performed nearly perfectly when few or no of the available variables had non-zero coefficients (i.e. nVar = 0, 1, 2 or m/2), then it showed a drop in accuracy when many or all the variables should be included in the model (푛푉푎푟 = 3푚/4 or 푛푉푎푟 = 푚) (blue lines in Fig.1 a-c). It is also noteworthy that when the model had a small number of variables to select from (River dataset C with only two PCNMs), selection in GLM/AIC was close to 100% accuracy, with only six events of variables being incorrectly excluded from the model throughout the whole set of replicates (Table 2 c). There was also some discernible pattern in RDA’s FW scores: its performance peaked at 푛푉푎푟 = 0 and 푛푉푎푟 = 푚, with intermediate values showing a considerable decrease in selection success. Despite this generally bimodal behaviour of the model selection success curve for RDA/FW, the loss 189 of accuracy for intermediate values of nVar (drop in red lines across different nVar values in Fig.1 a-c) varied substantially among datasets, making general inferences about results more difficult.

The two methods differed substantially in regard to the type of errors they most often produced. The AIC-based method for model selection of GLMs had almost no Type I errors (Table 2 a-c). However, when 푛푉푎푟 = 3푚/4 or 푛푉푎푟 = 푚 for datasets A and B, some variables that should be included in the final model were left out, yielding Type II error rates that were sometimes considerably greater than those observed for RDA/FW under the same conditions (e.g. Table 2 b). Nevertheless, GLM/AIC never had less than 92% accuracy overall. On the other hand, RDA/FW often included more variables than it should in the model, leading to high Type I error rates (Table 2 a-c). Such errors in RDA/FW especially occurred when 0 < 푛푉푎푟 ≤ 3푚/4. Under some conditions, up to one third of the variables selected by RDA/FW had zero coefficients.

Whether the spatial pattern was fine, broad or mixed scale (scaling 1, 2 and 3, respectively) had little effect on GLM/AIC performance (Fig.2). A slight difference in variable selection scores between scaling 1 to 2 and 3 was only found in one modelling condition, in dataset B (Fig. 2b, 푛푉푎푟 = 14). On the other hand, scaling often affected RDA/ FW performance, although there was no obvious general pattern across different conditions and datasets (Fig.2).

Discussion

In selecting spatial explanatory variables, GLM followed by an AIC-based model selection (GLM/AIC) performed better than the widely-used approach of RDA followed by forward selection (RDA/FW). Not only did GLM/AIC have better performance overall, but its performance varied little between simulation conditions. In contrast, RDA/FW performed unpredictably, but often retained too many explanatory variables (Table 2).

The problems arising from data with non- Gaussian error distributions, such as classic community presence and absence data, in a linear modelling framework are not new to science (Wolda 1981; McCullagh & Nelder 1989; Legendre & Gallagher 2001). Classical linear models such as RDA (Legendre & Anderson 1999; Legendre & Legendre 2012), make assumptions regarding constancy of variance in the data (ter 190

Braak & Prentice 1988) that cannot be true for presence-absence data, even after data transformation (O’Hara & Kotze 2010; Warton et al. 2012). Incorrectly assuming linearity (and constant variance) may lead to serious problems. Unfortunately, RDA is an algorithmic method that makes implicit decisions about the distribution of variances (ter Braak and Prentice 1988; Warton et al. 2012) and does not provide the flexibility to separate systematic variation from random variation in the way that statistical models do (Warton et al. 2015; and see O’Neil & Schutt 2013 for differences between algorithms and statistical models). Among those, GLMs allow this desirable possibility of being unequivocal about the type of data distribution and are expected to perform better for data departing from linearity premises (O’Hara & Kotze 2010; Warton et al. 2012, 2015). Statistical models are now common in univariate ecological studies (Bolker et al. 2009; Zuur et al. 2010) but recent advances in theory and computational tools can now extend their operation to multivariate analysis (Wang et al. 2012; Warton et al. 2016). RDA and related methods such as Canonical Correspondence Analysis (CCA) remain popular, despite doubts about their performance (Gilbert & Bennett 2010, but see Diniz-Filho et al. 2012).

Another relevant aspect of the general performances of the two methods concerns the peaks of performance. The scores in the GLM/AIC framework were close to ideal across datasets when the number of variables that should be selected was none or was small relative to the number of variables available. The performance only decayed when many or all of the available variables should have been retained in the final model. Thus, if a few explanatory variables are responsible for most of the variation in the response, GLM/AIC will outperform RDA/FW (Fig. 1). On the other hand, RDA/FW worked best precisely in situations thought unlikely in real systems, when 푛푉푎푟 = 0 (where GLM/AIC also performed equally well) and 푛푉푎푟 = 푚. The two approaches also differed in the type of errors they most often produced (although usually with GLM/AIC presenting lower error rates). Whilst GLM/AIC had higher Type II error rates, RDA/FW typically often presented Type I errors, leading to final models with too many variables. This was consistent among all three datasets (Table 2) and is in contrast with results from previous studies where GLMs produced higher Type I error rates compared to a linear model (Ives 2015). For beta diversity studies, where the aim is to identify the most important environmental variables associated with differences in community composition, leaving out a few variables that affect 191 composition is better, in our opinion, than including many variables whose effects are not important. On the contrary, in other scenarios such as when one tries to select pivotal attributes that could be important for the conservation of a population or community, it might be more conservative to accept a higher risk of committing Type I errors. Furthermore, model selection problems involve a trade-off between bias and variance, with inclusion of unnecessary variables inflating the uncertainty in parameter estimates (Miller 1990). AIC is often a good way to deal with this trade-off (Anderson et al. 2000), and in our simulations, an AIC-based approach worked well. Thus, we suggest that GLM/AIC will usually outperform RDA/FW in selecting spatial explanatory variables for presence/absence community composition data. Despite our interest in some attributes of the PCNMs for our simulations, such as differences in spatial scale, it is also likely that the results demonstrated here hold true for other types of explanatory variables (e.g. environmental) not tested here.

The spatial scale represented by the PCNMs had a negligible effect on GLM/AIC’s performance, with only one condition in one dataset slightly differing in results between different scales. In contrast, RDA/FW’ performance was strongly affected by spatial scale. In real systems, where the spatial scale at which community composition varies is not known a priori, the performance of RDA/FW could therefore be unpredictable.

In summary, we discourage using traditional RDA/FW to search for spatial descriptors of variation in multivariate presence/absence data. In such cases, we recommend using the GLM/AIC framework instead. Similar recommendations are likely to apply to other forms of community abundance data with non-normal error distributions (e.g. count data with many zeros or proportional data, Bolker et al. 2009; Warton et al. 2012, 2016) and to environmental as well as spatial explanatory variables.

Acknowledgments

The authors acknowledge financial support from National Council for Technological and Scientific Development, (CNPq) for the Science without Borders scholarship and CNPq-305330/2010-1 (J.C.C.). We also acknowledge additional funding from Brazilian Coordination for the Improvement of Higher Education Personnel (CAPES), CAPES- Ciências do Mar (J.C.C 1137/2010) and Fundação Carlos Chagas Filho de Amparo à Pesquisa do Estado do Rio de Janeiro (J.C.C., FAPERJ-E- 192

26/111.574/2014 and E26/201.286/2014). We thank James Hutton Institute, Aberdeen, for providing data. We are also grateful for Dr Petr Šmilauer for valuable suggestions given at BES 2015 and Dr Ian Smith for technical support.

Data Accessibility

R script available as online supporting information

Author Contributions statement

LCJ, MS and JCC conceived the ideas and designed methodology; TM, RM, RF, RJL and JCC provided the data; LCJ and MS analysed the data; LCJ and MS led the writing of the manuscript. All authors contributed critically to the drafts and gave final approval for publication.

References Akaike, H. (1973) Information theory and an extension of the maximum likelihood principle. Proceedings of the Second International Symposium on Information Theory (eds B.N. Petrov & F. Caski), pp. 267–281. Akademiai Kiado, Budapest. Anderson, D.R., Burnham, K.P. & Thompson, W.L. (2000) Null hypothesis testing problems prevalence and an alternative. The Journal of Wildlife Management, 64, 912–923. Anderson, M.J., Crist, T.O., Freestone, A.L., Sanders, N.J., Cornell, H. V, Comita, L.S., Davies, K.F., Harrison, S.P., Kraft, N.J.B., Stegen, J.C. & Swenson, N.J. (2011) Navigating the multiple meanings of β diversity : a roadmap for the practicing ecologist. Ecology Letters, 14, 19–28. Blanchet, G.F., Legendre, P., Bergeron, J.A.C. & He, F. (2014) Consensus RDA across dissimilarity coefficients for canonical ordination of community composition data. Ecological Monographs, 84, 491–511. Blanchet, G., Legendre, P. & Borcard, D. (2008) Forward selection of spatial explanatory variables. Ecology, 89, 2623–2632. Bolker, B.M., Brooks, M.E., Clark, C.J., Geange, S.W., Poulsen, J.R., Stevens, M.H.H. & White, J.S.S. (2009) Generalized linear mixed models: a practical guide for ecology and evolution. Trends in Ecology and Evolution, 24, 127–135. Borcard, D., Gillet, F. & Legendre, P. (2011) Numerical Ecology with R. Springer New York, New York, NY. Borcard, D. & Legendre, P. (2002) All-scale spatial analysis of ecological data by means of principal coordinates of neighbour matrices. Ecological Modelling, 153, 193

51–68. Ter Braak, C.J.F. & Prentice, I.C. (1988) A Theory of Gradient Analysis. Advances in Ecological Research, 18, 271–317. Creed, J.C., Pires, D.O. & Figueiredo, M.A. de O. (Eds.). (2007) Biodiversidade Marinha da Baía da Ilha Grande, Serie Biodn. MMA. Diniz-Filho, J.A.F., Siqueira, T., Padial, A.A., Rangel, T.F., Landeiro, V.L. & Bini, L.M. (2012) Spatial autocorrelation analysis allows disentangling the balance between neutral and niche processes in metacommunities. Oikos, 121, 201–210. Dray, S., Legendre, P. & Peres-Neto, P.R. (2006) Spatial modelling: a comprehensive framework for principal coordinate analysis of neighbour matrices (PCNM). Ecological Modelling, 196, 483–493. Eisenlohr, P. V. & Oliveira-Filho, A.T. de. (2015) Revisiting patterns of tree species composition and their driving forces in the Atlantic Forests of Southeastern Brazil. Biotropica, 47, 689–701. Evans, M., Hastings, N. & Peacock, B. (2000) Statistical Distributions. Willey. Gilbert, B. & Bennett, J.R. (2010) Partitioning variation in ecological communities: Do the numbers add up? Journal of Applied Ecology, 47, 1071–1082. Gower, J.C. (1966) Some distance properties of latent root and vector methods used in multivariate analysis. Biometrika, 53, 325–338. Ives, A.R. (2015) For testing the significance of regression coefficients, go ahead and log-transform count data. Methods in Ecology and Evolution, 6, 828–835. Legendre, P. (1993) Spatial Autocorrelation : Trouble or New Paradigm ? Ecology, 74, 1659–1673. Legendre, P. & Anderson, M.J. (1999) Distance-based redundancy analysis: Testing multispecies responses in multifactorial ecological experiments. Ecological Monographs, 69, 1–24. Legendre, P., Borcard, D. & Peres-Neto, P.R. (2005) Analyzing beta diversity: partitioning the pstial variation of community composition data. Ecological Monographs, 75, 435–450. Legendre, P. & Gallagher, E.D. (2001) Ecologically meaningful transformations for ordination of species data. Oecologia, 129, 271–280. Legendre, P. & Legendre, L. (2012) Numerical Ecology, Third Engln. Elsevier Ltd, Amsterdam. Lewis, R.J., Pakeman, R.J. & Marrs, R.H. (2014) Identifying the multi-scale spatial structure of plant community determinants of an important national resource. Journal of Vegetation Science, 25, 184–197. McCullagh, P. & Nelder, J.A. (1989) Generalized Linear Models, 2° Editionn. Chapman and Hall/CRC, Boca Raton. 194

Miller, A. (1990) Subset Selection in Regression. Chapman and Hall, London. O’Hara, R.B. & Kotze, D.J. (2010) Do not log-transform count data. Methods in Ecology and Evolution, 1, 118–122. O’Neil, C. & Schutt, R. (2013) Doing Data Science, Firstn. O’Reilly. Oksanen, A.J., Blanchet, F.G., Friendly, M., Kindt, R., Legendre, P., Mcglinn, D., Minchin, P.R., Hara, R.B.O., Simpson, G.L., Solymos, P., Stevens, M.H.H. & Szoecs, E. (2016) Package ‘ vegan ’. Peres-Neto, P.R. & Legendre, P. (2010) Estimating and controlling for spatial structure in the study of ecological communities. Global Ecology and Biogeography, 19, 174–184. R Development Core Team (2014) R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna. Saiter, F.Z., Eisenlohr, P. V., Barbosa, M.R. V., Thomas, W.W. & Oliveira-Filho, A.T. de. (2015) From evergreen to deciduous tropical forests: how energy–water balance, temperature, and space influence the tree species composition in a high diversity region. Plant Ecology & Diversity, 9, 1–10. Wagenmakers, E.-J. & Farrell, S. (2004) AIC model selection using Akaike weights. Psychonomic Bulletin & Review, 11, 192–196. Wang, Y., Naumann, U., Wright, S.T. & Warton, D.I. (2012) Mvabund- an R package for model-based analysis of multivariate abundance data. Methods in Ecology and Evolution, 3, 471–474. Warton, D.I. (2005) Many zeros does not mean zero inflation : comparing the goodness- of-fit of parametric models to multivariate abundance data. Environmetrics, 16, 275–289. Warton, D.I., Foster, S.D., De’ath, G., Stoklosa, J. & Dunstan, P.K. (2015) Model-based thinking for community ecology. Plant Ecology, 216, 669–682. Warton, D.I., Lyonsy, M., Stoklosa, J. & Ivesz, A.R. (2016) Three points to consider when choosing a LM or GLM test for count data. Methods in Ecology and Evolution, 7, 882–890. Warton, D.I., Wright, S.T. & Wang, Y. (2012) Distance-based multivariate analyses confound location and dispersion effects. Methods in Ecology and Evolution, 3, 89–101. Wolda, H. (1981) Similarity indices, sample size and diversity. Oecologia, 50, 296–302. Zuur, A.F., Ieno, E.N. & Elphick, C.S. (2010) A protocol for data exploration to avoid common statistical problems. Methods in Ecology and Evolution, 1, 3–14. 195

Supporting Information

Additional Supporting Information may be found in the online version of this article

Appendix S1. Rscripts used for the simulations and analyses.

Table 1. Simulation scenarios for simulated datasets. Rows are numbers of non-zero coefficients in the simulated coefficient matrix B* (m variables + 1 × p species) as defined by set K (see main text), and columns are spatial scaling patterns. Dashes indicate combinations that were not possible. Table 1. a) algae community data, m= 15; b) Scotland vegetation data, m= 20; c) River macroinvertebrate data , m=2. Cells contain sets of indices of explanatory variables. The corresponding column index in X and row index in B* are one greater because the first column and row correspond to the intercepts. When nVar=0, none of the variables had non-zero coefficients.

Scaling 1 2 3 (a) 0 None - - 1 {1} {15} - 2 {1,2} {14,15} {1,15} ⌊푚/2⌋ {1,2, … ,6} {10,11, … , 15} {1,2,3,13,14,15} ⌊3푚/4⌋ {1,2, … ,10} {6, 7, … , 15} {1,2, … ,5,11,12, … ,15} 푚 {1,2, … ,15} - -

(b) 0 None - - 1 {1} {20} - 2 {1,2} {19,20} {1,20} ⌊푚/2⌋ {1,2, … ,10} {11,12, … , 20} {1,2, … ,5,16,17, … ,20} ⌊3푚/4⌋ {1,2, … ,14} {7, 8, … , 20} {1,2, … ,7,14,15, … ,20} 푚 {1,2, … ,20} - -

(c) 1 2 3 0 None - - 1 {1} {2} - 2 {1,2} - - ⌊푚/2⌋ - - - ⌊3푚/4⌋ - - - 푚 - - -

196

Table 2. Scores (in proportions) showing differences in performance between GLM and RDA frameworks and proportions of Type I and II errors during 1000 simulations in different spatial scale conditions for each method. a) simulated data based on macroalgae in Ilha Grande Bay ; b) data based on plant species from Scottish coastal grassland and c) data based on aquatic macroinvertebrate insect species from a river in Brazil.

GLM RDA General Scal1 Scal2 Scal3 General Scal1 Scal2 Scal3 (a) Correct 0.94 0.92 0.96 0.95 0.86 0.83 0.94 0.83 Type I 0.00001 0 0 0.00004 0.12 0.16 0.04 0.16 Type II 0.06 0.08 0.04 0.05 0.01 0.009 0.02 0.009 (b) Correct 0.98 0.97 0.99 0.98 0.75 0.82 0.73 0.64 Type I 0 0 0 0 0.25 0.18 0.27 0.36 Type II 0.02 0.03 0.01 0.02 0.00001 0 0.00003 0.00001 (c) Correct 0.99 0.99 1 - 0.89 0.98 0.63 - Type I 0 0 0 - 0.11 0.02 0.37 - Type II 0.0006 0.0008 0 - 0 0 0 -

197

15

13

11

glm rda

Scores 9

7

5 (a)

0 1 2 6 10 15 Number of PCNMs with non zero coefficients

20

18

16

14 glm rda Scores

12

10 (b)

8

01210 14 20 Number of PCNMs with non zero coefficients

198

2

1 glm rda Scores

(c)

0

012 Number of PCNMs with non zero coefficients

Fig.1 Overall performance comparison between GLM/AIC (blue) and RDA/FW (red) methods on simulated presence/absence data. Scores were measured by number of PCNMs correctly included/excluded from the final model. This comparison was made across different numbers of PCNMs with non-zero coefficients (x axis). A) simulated data based on macroalgae in Ilha Grande Bay ; B) data based on plant species from Scottish coastal grassland and C) data based on aquatic macroinvertebrate insect species from a river in Brazil.

199

15

13

11 1.glm 2.glm 3.glm 1.rda

Scores 9 2.rda 3.rda

7

5 (a)

012610 15 Number of PCNMs with non zero coefficients

20

18

16 1.glm 2.glm 14 3.glm 1.rda Scores 2.rda 3.rda 12

10 (b)

8

0 1 2 10 14 20 Number of PCNMs with non zero coefficients 200

2

1.glm 1 2.glm 1.rda Scores 2.rda

(c)

0

012 Number of PCNMs with non zero coefficients

Fig.2 Performance of GLM/AIC (blue) and RDA/FW (red) modelling approaches under variation in spatial scale of PCNMs with non-zero coefficients. Spatial scale was defined as broad (1), fine (2) or mixed (3) (where applicable). A) simulated data based on macroalgae in Ilha Grande Bay ; B) data based on plant species from Scottish coastal grassland and C) data based on aquatic macroinvertebrate insect species from a river in Brazil.