Como o Radar decide o que entra, classifica e pontua cada paper.
Toda análise do Radar passa por sete etapas automatizadas, e cada decisão dessas etapas merece estar à vista. Este é o registro vivo do que o sistema olha, do que ele ignora, do que ele pontua e onde ele se cala. Se algo soar desalinhado, a porta está aberta para conversa.
O papel da IA neste trabalho
Antes de qualquer detalhe técnico, vale dizer com clareza por que a IA está no centro do Radar e o que isso implica para quem lê.
Cobrir manualmente a produção científica de quatro universidades não é viável. Cada semana entram dezenas de novos papers nos repositórios públicos, e classificá-los, sintetizar achados e cruzar com potencial de aplicação exigiria uma equipe dedicada em tempo integral. Sem IA, o Radar não existe. Pelo menos não nesse ritmo, com essa amplitude.
A contrapartida desse alcance é a falibilidade. O modelo lê metadados (título, abstract, palavras-chave) e produz uma leitura informada, mas não definitiva. Categorias podem soar deslocadas em casos de borda. Scores são heurísticos, não medidas aferidas. Achados podem ser amenizados ou exagerados na tradução. A análise é uma tendência: orienta para onde olhar, não conclui o que decidir.
Mesmo com essa imprecisão, o Radar entrega um ponto de contato que antes não existia. Sem ele, parte dessas pesquisas seguiria invisível para quem poderia investir, fomentar, parcerizar ou aplicar. Com ele, o trabalho do leitor muda de natureza: deixa de ser garimpo e vira leitura crítica do que já foi pré-selecionado. A decisão final continua exigindo o paper original. Esse passo não terceirizamos.
O fluxo, em uma página
Cada paper que chega ao Radar passa por sete etapas. Da primeira à última, o caminho é:
Coletar → Deduplicar → Classificar → Persistir → Analisar → Mapear oportunidades → Enriquecer.
- Coletar. Cada universidade tem coletores que buscam metadados em fontes públicas. Não baixamos PDFs nem reproduzimos conteúdo integral. Só título, autores, data, abstract e palavras-chave.
- Deduplicar. Antes de gravar, calculamos um hash único do paper (URL + título + universidade + data). Se o paper já está no banco, ignoramos. Idempotência é regra: a mesma rodada pode ser executada várias vezes sem produzir duplicatas.
- Classificar. Decidimos se o paper é tecnologia aplicada e em qual das 14 categorias se encaixa. Esta etapa é a que define se o paper entra ou não no acervo.
- Persistir. Só papers classificados como relevantes vão para o banco. Os demais são descartados sem deixar rastro além do registro de execução.
- Analisar. Um modelo de IA produz uma análise estratégica estruturada (resumo executivo, problema, metodologia, achados, aplicações, mercado, ideia de startup, política pública, parceria), junto de três scores e um nível de maturidade.
- Mapear oportunidades. Como subproduto da análise, o modelo lista até 4 oportunidades concretas (startup, parceria, política pública, produto corporativo), cada uma com tipo, descrição e impacto.
- Enriquecer. Um segundo passo de IA traduz o paper em dois textos longos para leitor não-técnico: uma matéria didática e um perfil dos pesquisadores. Essa etapa é best-effort. Se falhar, o paper continua publicado, sem os textos editoriais.
O que o fluxo não faz: não revisa o paper, não verifica replicação, não compara com a literatura prévia, não atribui peso por veículo de publicação. A análise é estratégica e aplicada, não acadêmica.
De onde vêm os papers
Quatro universidades cearenses (UFC, UECE, Unifor e IFCE), em duas camadas de coleta.
OpenAlex como fonte principal
OpenAlex é o catálogo bibliográfico aberto que indexa papers por afiliação institucional. Hoje é a fonte primária do Radar. Os repositórios institucionais cearenses estão instáveis (UFC, UECE, IFCE) ou com cobertura irrisória (Unifor); o OpenAlex agrega cerca de 200 milhões de trabalhos acadêmicos e cruza autoria com instituição.
Cada universidade tem um identificador OpenAlex próprio:
| Universidade | OpenAlex Institution ID |
|---|---|
| UFC | I243754102 |
| UECE | I102939073 |
| Unifor | I3125581668 |
| IFCE | I3018325552 |
A consulta filtra na origem por três condições simultâneas:
- Afiliação institucional: o paper precisa ter pelo menos um autor associado à universidade.
- Período recente: janela padrão de 2023 a 2025 (configurável por coletor).
- Tema técnico: o paper precisa estar associado a pelo menos um dos cinco conceitos OpenAlex abaixo. Esse é o primeiro filtro temático, antes mesmo do Radar olhar o conteúdo.
| Conceito OpenAlex | ID |
|---|---|
| Computer science | C41008148 |
| Engineering | C127413603 |
| Artificial intelligence | C154945302 |
| Deep learning | C108583219 |
| Mathematics | C33923547 |
Também filtramos por tipo de trabalho: apenas article, preprint, dissertation ou book-chapter. Notas curtas, reviews editoriais e errata ficam de fora.
Quando o OpenAlex retorna um paper, reconstruímos o abstract a partir do inverted index que ele expõe (palavra → posições no texto), pegamos até 20 autores e até 12 palavras-chave (combinando keywords e conceitos de nível ≥2). O link do paper aponta para a landing page primária; quando ela não existir, para o best open access location; em último caso, para o DOI.
Repositórios institucionais como fallback
Em paralelo ao OpenAlex, mantemos coletores diretos dos repositórios institucionais. Eles são instáveis, mas servem como segunda camada de varredura quando o OpenAlex não cobre algo.
| Universidade | Fonte | URL |
|---|---|---|
| UFC | DSpace (RSS) | https://repositorio.ufc.br/feed/rss_2.0/site |
| UECE | DSpace (RSS) | https://siduece.uece.br/siduece/feed/rss_2.0/site |
| IFCE | DSpace (RSS) | https://repositorio.ifce.edu.br/feed/rss_2.0/site |
| Unifor | OJS (RSS) + scraping leve | https://periodicos.unifor.br/rpen/gateway/plugin/WebFeedGatewayPlugin/rss2 + https://www.unifor.br/producao-cientifica |
Limites operacionais
- Tempo máximo por requisição: 20 segundos nos coletores RSS, 25 segundos no OpenAlex.
- Máximo de itens por coletor por rodada: 50. Em rodadas regulares, esse número fica em torno de 30.
- Deduplicação interna: itens com a mesma URL ou o mesmo título dentro da mesma rodada são colapsados antes da classificação.
- User-agent identificado:
RadarTechCearaBot/0.1 (+https://bugaboo.studio/radar). O OpenAlex recebe também um mailto de contato, conforme política de uso da API.
O que conta como tecnologia e inovação
Toda a relevância do acervo está nesta etapa. Aqui o Radar separa o que vai virar boletim do que será silenciosamente descartado.
O filtro híbrido
A classificação combina dois mecanismos, nessa ordem:
- Keyword first. Procuramos termos específicos no título, no abstract e nas palavras-chave. Se um termo bater com uma das 14 categorias técnicas listadas adiante, o paper é considerado relevante e classificado nessa categoria. É barato, rápido e auditável: dá para apontar exatamente qual termo motivou a inclusão.
- IA como fallback. Quando nenhum termo específico bate, ou quando bate apenas um termo genérico como "tecnologia" ou "inovação", um modelo de IA decide. Ele recebe o título, o abstract, as palavras-chave e a universidade, e retorna em JSON estrito: relevante (sim/não), categoria, motivo curto.
Essa combinação preserva explicabilidade onde dá, e usa IA só onde é necessário. Cada paper carrega no banco a marca de como foi classificado, por keyword (com o termo que disparou) ou por IA (com a justificativa textual).
Você é um classificador de papers cientificos em tecnologia e inovação no Ceará. Retorne JSON estrito indicando se o paper é relevante para tecnologia/inovação, com categoria e motivo.
, system prompt do classificador, em
src/lib/ai/classify.ts
Antes da comparação, o texto e os termos da lista são normalizados, caixa baixa, sem acentos. Por isso os termos abaixo aparecem sem acentuação: é como o sistema os procura. Um paper com a palavra "inteligência" no título bate com inteligencia na lista.
Categorias e termos
São 14 categorias técnicas. Um paper que bate em qualquer uma delas é considerado relevante e gravado.
| Categoria | Termos que disparam match |
|---|---|
| IA | inteligencia artificial, artificial intelligence, machine learning, deep learning, rede neural, neural network, llm, modelo de linguagem, nlp, processamento de linguagem, computer vision, visao computacional, generative ai, ia generativa |
| Software | engenharia de software, software engineering, devops, qualidade de software, api, arquitetura de software |
| Data Science | ciencia de dados, data science, big data, analytics, data mining, estatistica aplicada, predictive, modelagem preditiva |
| Cybersecurity | seguranca da informacao, cibersecurity, cybersecurity, ciberseguranca, criptografia, blockchain, malware, intrusao, pentest |
| Telecom | telecom, redes de computadores, 5g, 6g, wireless, iot, internet das coisas, edge computing |
| Infrastructure | cloud, nuvem, devops, kubernetes, containers, microservico, serverless |
| Robotics | robotica, robotics, manipulador, drone, uav |
| Embedded | sistemas embarcados, embedded, fpga, microcontrolador, arduino, raspberry |
| Automation | automacao, automation, automacao industrial, rpa |
| Industry 4.0 | industria 4.0, industry 4.0, manufatura digital, gemeo digital, digital twin |
| Energy Tech | energia renovavel, smart grid, fotovoltaic, eolica, armazenamento de energia |
| Healthtech | healthtech, saude digital, telemedicina, bioinformatica, medical imaging |
| Edtech | edtech, educacao digital, ensino remoto, moodle, gamificacao educacional |
| Govtech | govtech, governo digital, e-gov, transparencia publica, dados abertos |
| Startups | startup, empreendedorismo, inovacao aberta, spin-off |
Existe ainda uma 16ª categoria, Other, usada quando a IA decide que o paper é relevante mas não se encaixa em nenhuma categoria específica.
Termos genéricos não bastam
Existe uma segunda lista, mais ampla, com termos que sozinhos não classificam o paper. Eles apenas sinalizam que vale acionar a IA para decidir:
tecnologia, inovacao, transformacao digital, computacao, algoritm, software, digital.
Um paper que mencione apenas "tecnologia" sem nenhum termo específico não entra automaticamente, ele vai para a IA, que pode confirmar ou rejeitar. Esse desenho protege o acervo de inflação por palavras-passe-partout.
Papers irrelevantes não são persistidos
Esta é uma decisão consciente de produto. Quando a classificação resulta em "não relevante", o paper não vai para o banco, nem o título. Ficam apenas as estatísticas agregadas no log de execução (IngestionRun). O Radar é um acervo curado, não um espelho do que as universidades publicam. Reduzir o escopo a tecnologia aplicada é parte do valor do produto.
O que a análise produz
Quando um paper passa o filtro, um segundo modelo de IA gera a análise estratégica. A saída é estruturada e validada por schema (Zod): se vier inválida, o paper é rejeitado nessa etapa e fica registrado como erro na rodada.
Você é um analista sênior de inteligência tecnológica da Bugaboo Studio atuando no radar de papers do Ceará. Gere uma análise estratégica estruturada em JSON para o paper a seguir. Seja direto, objetivo e orientado a aplicação prática. Foque em potencial de mercado, startup, política pública e parcerias universidade-empresa.
, system prompt do analista, em
src/lib/ai/analyzePaper.ts
A análise tem três blocos: textos, scores e classificações.
Os nove campos narrativos
Cada paper relevante recebe nove blocos de texto. Cada um responde a uma pergunta específica do leitor decisor:
| Campo | O que descreve |
|---|---|
| Resumo executivo | A leitura de uma página, para quem precisa decidir se vale aprofundar. |
| Problema endereçado | Que problema concreto o paper se propõe a resolver. |
| Metodologia | Como os pesquisadores abordaram o problema. |
| Principais achados | O que de fato foi descoberto, em linguagem aplicada. |
| Aplicações práticas | Onde, na prática, esse conhecimento pode ser usado. |
| Potencial de mercado | Existe um mercado endereçável? Para quem? |
| Ideia de startup | Que negócio poderia surgir daqui, uma única hipótese, não um cardápio. |
| Aplicação em política pública | Como governo, agências e fomento podem usar essa pesquisa. |
| Oportunidade de parceria | Onde uma empresa ou um centro de P&D faria sentido como parceiro da universidade. |
Os três scores
Cada paper recebe três notas, em escala de 0 a 10 (números inteiros):
| Score | O que mede |
|---|---|
| Inovação | Quão original é a contribuição em relação ao estado da arte. |
| Aplicabilidade | Quão pronto o resultado está para uso prático fora do laboratório. |
| Potencial econômico | Quão grande é o mercado endereçável da aplicação imaginada. |
Os scores são leituras heurísticas geradas pela IA a partir do conteúdo do paper. Eles servem para ordenar e filtrar o acervo, não para julgar mérito acadêmico, técnico ou científico. Um paper com score alto não é necessariamente um bom paper; é um paper com sinais de aplicação prática maior segundo a leitura do modelo.
Os enums classificatórios
Além dos scores numéricos, três classificações categóricas:
| Classificação | Valores possíveis | O que significa |
|---|---|---|
| Maturidade | LOW, MEDIUM, HIGH |
Quão próximo o resultado está de aplicação real (prova de conceito vs. piloto vs. uso já demonstrável). |
| Tipo de oportunidade | STARTUP, PARTNERSHIP, PUBLIC_POLICY, CORPORATE_PRODUCT |
Em qual movimento essa pesquisa pode virar produto ou ação concreta. |
| Nível de impacto | LOW, MEDIUM, HIGH |
Tamanho potencial do efeito de cada oportunidade gerada. |
E cada paper produz até 4 oportunidades mapeadas, cada uma com tipo, título, descrição (10 a 2.000 caracteres), nível de impacto e categoria temática. Quatro é o teto; um paper modesto pode produzir só uma, e tudo bem.
A tradução para o leitor
A última camada é editorial. A análise estratégica é densa e estruturada; o objetivo do enriquecimento é traduzir o paper para quem não leria o original. Dois textos em markdown são gerados:
- Matéria para leigos. Texto longo no formato de uma reportagem de divulgação científica. Contém seis seções obrigatórias: O cenário atual · O que os pesquisadores fizeram · Como funciona na prática · Resultados e evidência · Implicações práticas · Limitações e próximos passos. Tamanho livre, tão longo quanto o tema exigir, tão curto quanto possível.
- Perfil dos pesquisadores. Apresenta quem assina o paper, na exata medida em que o paper informa. Quando o material só traz nome e universidade, é isso que o texto diz.
A regra que define essa camada é a mais dura de todo o pipeline. Ela está reproduzida abaixo como aparece no código:
REGRAS INVIOLÁVEIS: · Use APENAS as informações fornecidas sobre o paper (título, abstract, autores, universidade, palavras-chave, data, fonte). · NÃO invente dados, números, experimentos, afiliações, bios, trajetórias, patentes ou resultados que não estejam no material fornecido. · Se uma informação não estiver disponível, diga explicitamente "o paper não detalha" ou similar; nunca preencha com suposições. · Escreva em português do Brasil, tom didático, frases curtas, vocabulário acessível. · Markdown puro. Sem HTML, sem emojis.
, system prompt do enriquecimento, em
src/lib/ai/enrichPaper.ts
O enriquecimento é a camada mais visível para o leitor final, e a única defesa contra alucinação é essa regra. Por isso ela aparece tão crua: o que estiver na matéria precisa estar no paper.
O que o Radar não faz
Ser explícito sobre limites é parte do contrato:
- Não avalia mérito científico. O Radar não diz se um paper é bom, importante ou bem revisado. Não substitui revisão por pares.
- Scores não são verdades. São leituras heurísticas geradas por IA a partir de metadados. Servem para ranquear e filtrar, não para tomar decisão de investimento ou parceria sem leitura do paper original.
- Classificação automática pode errar. Em casos de borda (paper interdisciplinar, terminologia incomum, abstract curto), tanto o filtro de keywords quanto a IA podem categorizar errado. Os textos de análise carregam, em ressalva, o que a IA não conseguiu inferir.
- Não armazena o que rejeita. Papers julgados não relevantes não ficam no banco. Não há como auditar individualmente cada descarte; existe apenas o agregado por rodada.
- Não reproduz conteúdo integral. Coletamos metadados públicos e geramos análises derivadas. Para a leitura completa, sempre voltamos ao link do paper original.
- Não é indexado por buscadores. O site declara
noindex, nofollowno metadata por enquanto, é um produto em construção, com circulação controlada.
Versionamento dos critérios
Este documento descreve o estado dos critérios em 2026-04-26. Toda mudança que afete o que entra ou como é analisado, nova categoria, nova lista de termos, novo score, mudança de provider de IA, alteração de prompt, deve atualizar este arquivo no mesmo PR que altera o código. Critérios não documentados não existem para o leitor.
Esses critérios moldam tudo o que aparece no Radar. Se algum deles soar errado, injusto ou impreciso (em uma categoria, em um score, no que entra ou no que fica de fora), queremos saber. Mande um email contando o que mudaria e por quê:
Cada feedback é lido pela equipe da Bugaboo Studio. Quando uma sugestão muda os critérios, a alteração aparece neste mesmo documento, com a nova data de versão.