O deep learning ou aprendizado profundo está revolucionando a biologia. Estamos no limiar de uma nova era, onde algoritmos de ponta não só encontram mas também traçam o caminho das células em experimentos microscópicos com uma precisão antes inimaginável.
Um estudante de biologia consegue identificar um neurônio em uma fotografia, mas treinar um computador para fazer o mesmo é uma tarefa desafiadora. Jan Funke, biólogo computacional do Janelia Research Campus do Howard Hughes Medical Institute em Ashburn, Virgínia recorda que há 14 anos fez sua primeira tentativa com uma confiança quase arrogante, acreditando ser simples desenvolver um algoritmo capaz de replicar tal habilidade humana, mas ele rapidamente descobriu que estava redondamente enganado.
A nossa visão é um produto de milhões de anos de evolução, é um milagre de segmentação de informações visuais. Conseguimos distinguir objetos individuais, mesmo quando estão amontoados ou sobrepostos, o que mostra que a mente humana, com sua intricada rede de percepções e interpretações, é uma mestra nesse jogo de identificação. Por outro lado, os algoritmos precisam aprender essa habilidade desde o princípio, como aponta Anna Kreshuk, cientista da computação no Laboratório Europeu de Biologia Molecular em Heidelberg, Alemanha. Imitar a visão humana, especialmente em sua capacidade de segmentar e interpretar o que vê, é um desafio monumental.
Esse desafio torna-se ainda mais premente quando consideramos a biologia. Com o crescimento exponencial tanto na escala quanto na complexidade dos experimentos de imagem biológica, surge uma demanda crescente por ferramentas computacionais que possam segmentar características celulares e subcelulares com mínima intervenção humana. É uma intenção ambiciosa, dada a infinita variedade de formas que objetos biológicos podem assumir e as inúmeras maneiras pelas quais podem ser imaginados.
David Van Valen, um biólogo de sistemas do Instituto de Tecnologia da Califórnia em Pasadena, ilustra bem essa dificuldade observando que, até recentemente, seus colegas poderiam coletar um conjunto de dados em um mês, mas depois passariam até seis meses corrigindo erros dos algoritmos de segmentação existentes. A análise de dados, nesse contexto, tornou-se um gargalo significativo, consumindo muito mais tempo do que a própria coleta de dados.
Felizmente, estamos presenciando uma evolução nesse sentido, à medida que os biólogos computacionais começam a explorar as arquiteturas algorítmicas conhecidas como deep learning ou aprendizado profundo. Essas tecnologias estão desbloqueando capacidades que aceleram drasticamente processos na biologia. Kreshuk até se atreve a sugerir que a segmentação, como um todo, será resolvida em um futuro previsível. Contudo, o campo também deve encontrar maneiras de estender esses métodos para acompanhar a evolução imparável das técnicas de imagem de ponta.
O treinamento de máquina
A jornada de transformação na segmentação celular é uma nova oportunidade para decifrar os mistérios da biologia com a ajuda da tecnologia. Em seus primórdios, a segmentação assistida por computador exigia uma supervisão extensiva por parte dos biólogos, era um processo artesanal, em que cada experimento demandava uma adaptação meticulosa dos algoritmos para identificar as fronteiras entre as células em um espécime específico.
Essa realidade da biologia começou a mudar com o advento de ferramentas de análise de imagem, como o CellProfiler e o ilastik. Desenvolvidas por Anne Carpenter, Thouis Jones e Anna Kreshuk com suas respectivas equipes, essas ferramentas trouxeram o poder do aprendizado de máquina para simplificar o processo de segmentação. Nessa nova abordagem, os usuários “ensinavam” o programa com exemplos, marcando imagens de demonstração e criando precedentes para o software seguir, mas ainda havia limitações de generalização, sendo otimizadas para experimentos específicos.
A verdadeira virada de jogo veio com os algoritmos de deep learning, que, inspirados na arquitetura neural do cérebro humano, conseguiram extrapolar padrões complexos após serem treinados com grandes volumes de informação. Aplicados aos dados de imagem, esses algoritmos definiram de forma mais robusta e consistente as características que representam células e outros objetos biológicos, não apenas em um conjunto de imagens, mas em múltiplos contextos.
Um marco nesse avanço foi o desenvolvimento do U-Net em 2015, por Olaf Ronneberger e sua equipe. Trata-se de um framework que se mostrou particularmente transformador, permanecendo até hoje como a arquitetura subjacente à maioria das ferramentas de segmentação. Quase uma década depois, sua influência ainda é incontestável.
Inicialmente, muitos esforços se concentraram na identificação de núcleos celulares. Esses elementos, sendo grandes e ovais, com pouca variação na aparência entre os tipos de células, pareciam um ponto de partida lógico, mas mesmo essa tarefa se mostrava desafiadora para a biologia em amostras de tecido celularmente densas. Em 2019, uma equipe liderada por Peter Horvath desenvolveu o nucleAIzer usando o U-Net, superando centenas de outras ferramentas em um desafio de segmentação nuclear em microscopia de luz.
O próximo passo desafiador para a biologia foi extrapolar a forma do resto da célula. Algoritmos como o StarDist, desenvolvido por Martin Weigert e Uwe Schmidt, introduziram uma estratégia mais holística, gerando polígonos em forma de estrela para segmentar núcleos e, ao mesmo tempo, extrapolar a forma mais complexa do citoplasma circundante.
A abordagem mais generalista veio com o CellPose, desenvolvido em 2020 por Marius Pachitariu e Carsen Stringer. Utilizando ‘campos de fluxo’ que descrevem a difusão intracelular de marcadores moleculares comuns em microscopia de luz, o CellPose consegue atribuir com alta precisão cada pixel em uma imagem a uma célula específica, demonstrando uma aplicabilidade ampla em diferentes métodos de microscopia de luz.
Beth Cimini, especialista em bioimagem no Broad Institute, destaca uma das “mágicas” do CellPose em favor da biologia: sua capacidade de separar com eficiência células que estão em contato, permitindo uma compreensão mais profunda e detalhada da vida em sua escala mais fundamental.
Uma abordagem acessível e eficiente para a biologia
O progresso não se dá apenas por avanços no design de algoritmos. Esses métodos, ainda alicerçados na estrutura fundamental do U-Net, dependem fortemente do treinamento eficaz. “Dados melhores, rótulos melhores – esse é o segredo“, como aponta Van Valen, líder no desenvolvimento da ferramenta de segmentação DeepCell.
A tarefa de rotular implica em compilar uma coleção de imagens microscópicas, delinear núcleos, membranas e outras estruturas de interesse, e alimentar o software com essas anotações para que ele possa aprender as características que definem esses elementos. Para o CellPose, por exemplo, meio ano foi dedicado à coleta e curadoria de uma vasta gama de imagens microscópicas, formando um conjunto de treinamento amplo e representativo.
Entretanto, construir um grande conjunto de treinamento manualmente anotado rapidamente se torna uma tarefa difícil, o que vem levando especialistas em aprendizado profundo a desenvolver estratégias para trabalhar de maneira mais inteligente, e não necessariamente mais árdua.
A diversidade no conjunto de treinamento é uma prioridade. “Ter um pouco de muitas coisas diferentes é melhor do que ter muito do mesmo“, diz Weigert. Por exemplo, uma coleção de imagens de tecidos cerebrais, musculares e hepáticos, utilizando diversas abordagens de coloração e rotulagem, tende a produzir resultados mais generalizáveis do que imagens de apenas um tipo de tecido. Horvath também vê valor em incluir imperfeições – como imagens desfocadas – que ensinam o algoritmo a superar tais problemas em dados reais.
Outra estratégia crescentemente popular é permitir que os algoritmos façam a anotação em massa e, em seguida, envolver humanos para verificar os fatos. Van Valen e seus colegas usaram essa abordagem “humana no circuito” para desenvolver o conjunto de dados de imagens TissueNet, que contém mais de um milhão de pares de núcleos de células anotados. Eles confiaram a uma comunidade de novatos e especialistas a tarefa de corrigir as previsões de um modelo de aprendizado profundo treinado com apenas 80 imagens anotadas manualmente. A equipe de Van Valen desenvolveu posteriormente um algoritmo de segmentação chamado Mesmer, demonstrando que este poderia igualar o desempenho da segmentação humana após ser treinado com dados do TissueNet.
Mesmo assim, o retrabalho para novas tarefas pode ser árduo, e para agilizar o processo, Kreshuk e Florian Jug, biólogo computacional da Fundação Human Technopole em Milão, criaram o BioImage Model Zoo, um repositório comunitário de modelos de aprendizado profundo pré-treinados, onde os usuários podem procurar um modelo pronto para uso, em vez de lutarem para treinar o próprio.
Ainda assim, a falta de familiaridade de muitos cientistas de laboratórios tradicionais com os detalhes dos algoritmos de aprendizado profundo é um obstáculo significativo para a implementação. Em contrapartida, há muitas vias para a acessibilidade, como o exemplo citado por Cimini, que atribui o sucesso do CellPose à sua interface gráfica de usuário direta, além de suas capacidades de segmentação. “Empenhar esforços para tornar as ferramentas amigáveis, acessíveis e menos intimidadoras é a forma de alcançar a maioria dos biólogos“, ela diz. Muitos algoritmos, incluindo CellPose, StarDist e nucleAIzer, também estão disponíveis como plug-ins para ferramentas populares de análise de imagens, como ImageJ/Fiji, napari e CellProfiler.
Essa fase da jornada na segmentação celular reflete um movimento em direção a uma ciência mais inclusiva e colaborativa, onde as barreiras entre a biologia experimental e a computação avançada estão sendo derrubadas.
Avanços e desafios da segmentação celular
Na vanguarda do progresso na biologia em relação à segmentação de núcleos e células, estão os estudos de transcriptômica espacial, que envolvem múltiplas rodadas de rotulagem e imagem de tecidos, revelando perfis de expressão gênica em escala celular com detalhes sem precedentes.
No entanto, a identificação e interpretação automatizada de ‘pontos’ de expressão gênica permanecem um desafio a ser superado, e diante desta complexidade, a equipe de Van Valen desenvolveu uma rede de aprendizado profundo, auxiliada por um algoritmo clássico de visão computacional, para discernir esses pontos com confiança. Esta inovação é integrada ao Polaris, uma solução generalizável para a análise de uma ampla gama de experimentos de transcriptômica espacial.
Por outro lado, a análise de volumes tridimensionais em microscopia de luz ainda enfrenta a barreira da escassez de dados de imagem 3D disponíveis publicamente e a complexidade de tornar esses dados úteis para o treinamento de algoritmos.
Avanços notáveis, no entanto, foram feitos na segmentação de dados 3D gerados por métodos de microscopia eletrônica de volume, com o desafio não de apenas aprender o que é sinal, mas distinguir diferentes tipos de sinais. Esses métodos são particularmente importantes em estudos de conectômica, que buscam gerar mapas de ‘fiação’ neuronal do cérebro.
Aqui, a precisão é de extrema importância. Jan Funke ressalta que um único erro por micrômetro de fibra neural ou por comprimento de axônio pode tornar todo o esforço inútil. No entanto, o volume de dados é tão grande que os algoritmos precisam ser eficientes para concluir a reconstrução em um prazo razoável. Neste contexto, algoritmos baseados em U-Net, como os aplicados pelo Consórcio FlyWire, demonstraram ser extremamente precisos, alcançando uma precisão de 99,2% em comparação com avaliadores humanos na reconstrução da fiação cerebral de uma mosca adulta.
Apesar do amadurecimento dos algoritmos de segmentação para conectômica, o desafio reconhecido por especialistas da biologia agora é também descobrir como fazer a revisão dessa segmentação.
O futuro da biologia com a segmentação celular
A segmentação celular coloca desafios e oportunidades em igual medida para a biologia. Uma questão premente é a interoperabilidade entre diferentes plataformas de imagem. Um algoritmo treinado para amostras rotuladas com hematoxilina e eosina, comumente usadas em histologia, pode não ser eficaz em imagens de microscopia confocal, por exemplo. Da mesma forma, os métodos projetados para segmentação em microscopia eletrônica geralmente são incompatíveis com dados de microscopia de luz, devido às diferenças nas escalas, técnicas de coloração e protocolos de tratamento.
Bo Wang, especialista em inteligência artificial da Universidade de Toronto, ressalta a necessidade de modelos de fundação versáteis que possam generalizar entre formatos de dados de imagem distintos. Essa visão foi o cerne de um desafio de dados na Conferência NeurIPS do ano passado, destinado a testar a capacidade de diversos grupos em desenvolver soluções inovadoras.
Olhando além do consagrado U-Net, é provável que esses novos modelos exijam arquiteturas computacionais mais avançadas, como os transformers. Esses algoritmos, já fundamentais em grandes modelos de linguagem e na previsão de estruturas proteicas como o AlphaFold, demonstraram ser superiores em identificar padrões sutis, mas cruciais nos dados. A equipe de Van Valen já está explorando essa fronteira com o desenvolvimento do algoritmo CellSAM, sinalizando um otimismo de que as soluções de primeira geração surgirão nos próximos anos.
Além da segmentação, os pesquisadores estão direcionando suas ferramentas para aplicações mais sofisticadas. Funke, por exemplo, está utilizando insights derivados da segmentação para classificar características funcionais de neurônios com base em sua morfologia. De maneira similar, a equipe de Horvath colaborou em um método chamado proteômica visual profunda, que utiliza algoritmos de aprendizado profundo para analisar amostras de tecido com precisão, abrindo caminhos promissores para o perfil molecular de patologias como o câncer e a identificação de tratamentos apropriados.
Anna Kreshuk expressa entusiasmo similar, almejando tornar o espaço da morfologia quantitativamente analisável e integrá-lo ao espaço ômico. O espaço ômico refere-se ao estudo integrado de várias ‘ômicas’ – disciplinas da biologia que se concentram no estudo em grande escala de conjuntos de moléculas biológicas. Sendo assim, a afirmação de Kreshuk sinaliza uma era de análise mais profunda para a biologia, onde a morfologia e a genômica, proteômica e transcriptômica podem ser combinadas para uma compreensão mais rica e multifacetada da biologia.
Fonte: Nature