Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors

Dados que alimentam IA ficando escassos: Como ficará o desenvolvimento da tecnologia?

O desenvolvimento de sistemas de IA tem se baseado em enormes quantidades de dados extraídos da internet. No entanto, uma nova pesquisa da Data Provenance Initiative, liderada pelo MIT, revela que esse fluxo de informações está diminuindo rapidamente. Essa descoberta traz à tona uma crise emergente de consentimento, onde publicadores e plataformas online estão limitando o uso de seus dados para treinamentos de IA.

Para compreender a gravidade da situação, é crucial entender o papel dos dados no treinamento de sistemas de IA. Modelos generativos, como o ChatGPT da OpenAI, o Gemini do Google e o Claude da Anthropic, dependem de bilhões de exemplos de texto, imagens e vídeos. Essas informações, em sua maioria, são coletados de sites públicos por pesquisadores e compilados em grandes conjuntos de dados que podem ser utilizados livremente ou complementados com outras fontes.

Por muitos anos, desenvolvedores de IA conseguiam reunir informações de forma relativamente fácil. No entanto, a explosão recente da IA generativa provocou tensões com os proprietários dessas informações que agora se mostram relutantes em permitir o uso de suas informações sem algum tipo de compensação ou consentimento explícito.

A pesquisa da Data Provenance Initiative examinou 14.000 domínios web incluídos em três conjuntos de dados amplamente utilizados no treinamento de IA: C4, RefinedWeb e Dolma. O estudo identificou uma crise emergente de consentimento, com uma estimativa de que 5% de todos os dados e 25% dos dados de fontes de alta qualidade nesses conjuntos foram restringidos. Essas restrições são implementadas principalmente através do Protocolo de Exclusão de Robôs (robots.txt), uma ferramenta antiga que permite aos proprietários de sites evitar que bots automáticos rastreiem suas páginas.

Além disso, o estudo revelou que até 45% dos dados no conjunto C4 foram restringidos pelos termos de serviço dos sites. Shayne Longpre, autor principal do estudo, destacou que essa rápida diminuição no consentimento para o uso de dados terá implicações não apenas para empresas de IA, mas também para pesquisadores, acadêmicos e entidades não comerciais.

As consequências da restrição de dados

A restrição crescente de disponibilidade de informação representa um desafio significativo para o desenvolvimento contínuo de IA. Modelos generativos precisam de um fornecimento constante de dados de alta qualidade para manter suas capacidades atualizadas e melhorar suas saídas. No entanto, a reação dos proprietários de dados à extração indiscriminada de suas informações pode comprometer esse processo de desenvolvimento desta tecnologia.

Alguns publicadores começaram a cobrar pelo acesso aos conteúdos, Plataformas como Reddit e StackOverflow agora exigem pagamento das empresas de IA para compartilhar seus dados. Além disso, alguns publicadores têm recorrido a ações legais, como o caso do The New York Times, que processou a OpenAI e a Microsoft por violação de direitos autorais, alegando que as empresas usaram artigos de notícias para treinar seus modelos sem permissão.

Para contornar essas barreiras, algumas empresas de IA têm buscado acordos com publicadores. A OpenAI, por exemplo, firmou parcerias com organizações como a Associated Press e a News Corp, proprietária do Wall Street Journal, para garantir acesso contínuo aos seus conteúdos. No entanto, essas soluções podem não ser viáveis para todas as entidades envolvidas na pesquisa e desenvolvimento de IA.

O impacto das restrições de dados é especialmente severo para startups menores e pesquisadores acadêmicos que dependem de conjuntos de dados públicos, mas não têm recursos para licenciar dados diretamente de publicadores. Um exemplo é o Common Crawl, um conjunto de dados que inclui bilhões de páginas de conteúdo web e é mantido por uma organização sem fins lucrativos. Esse recurso tem sido fundamental para mais de 10.000 estudos acadêmicos, conforme mencionado por Longpre.

Com a dificuldade crescente em acessar dados reais, algumas empresas de IA estão explorando a utilização de dados sintéticos, gerados pelos próprios sistemas de IA. No entanto, muitos pesquisadores questionam a capacidade atual dos sistemas de IA de produzí-los com qualidade suficiente para substituir os que é criado por humanos.

Embora os proprietários de sites possam tentar impedir a coleta de suas informações adicionando restrições em seus arquivos robots.txt, essas solicitações não são juridicamente vinculativas e a conformidade é voluntária. Motores de busca importantes e várias empresas de IA, incluindo OpenAI e Anthropic, declararam que respeitam essas solicitações. No entanto, algumas empresas, como o motor de busca Perplexity, foram acusadas de ignorar tais restrições.

Uma das principais conclusões do estudo da Data Provenance Initiative é a necessidade de desenvolver novas ferramentas que permitam aos proprietários de sites controlar de forma mais precisa o uso de seus dados. Alguns sites podem não se opor ao uso de suas informações por organizações sem fins lucrativos ou instituições educacionais, mas desejam bloquear o uso comercial. Atualmente, não existe uma maneira eficaz de diferenciar entre esses usos ou bloquear um enquanto permite o outro.

O estudo da Data Provenance Initiative revela uma realidade complexa e desafiadora para o futuro da inteligência artificial. Entre o desenvolvimento e evolução da tecnologia e as questões éticas, há um longo caminho que está sob o olhar atento de empresas e órgãos reguladores.

Fonte: The New York Times

Futuro Relativo

Futuro Relativo

Um espaço de divulgação, de diálogo, de pensar e porque não dizer, de construir o futuro 🪐
Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors