Montando queries complexos
A seguir vamos apresentar a técnica mais fácil e segura de se montar uma query complexa.
Dividindo para conquistar
Vamos supor que queremos pesquisar: Hipertensão Arterial em jovens, crianças ou recém-nascidos
Como fazer?
- A recomendação é criar várias pesquisas:
arterial hypertension [All Fields]
arterial hypertension [Title/Abstract]
young [Title/Abstract]
cildren [Title/Abstract]
newborn [Title/Abstract]
E depois, fazemos uma pesquisa final concatenando os termos e usando conectores booleanos (AND e OR e parêntesis).
Repare como é mais fácil montar os ANDs e ORs neste ambiente e sem todas as palavras. Jovens, Crianças e Neonatos ficam entre parêntesis e utilizam a cláusula OR para se UNIR todos eles (‘#3 OR #4 OR #5’). Já hipertensão arterial fica de fora, à esquerda, seguida do conector booleano AND (‘#2 AND’), pois queremos pesquisar esta patologia neste grupo / faixa etária.
Então funcionou? Tudo Correto?
Sempre há erros - estude os resultados
Vamos analisar os resultado,
Lendo os resultados, vemos que aparecem palavras que não havíamos pesquisado como childhood, neonate, infant, e adolescent. Você verá que este problema não existe em pesquisas com IA, uma vez que a IA tem habilidades semânticas reconhecendo palavras parecidas, ouse seja, tokens transformados em números ou embeddings. Logo, palavras similares ou correlacionadas ocupam espaços de embeddings próximos, uma mesma região (ver mais adiante como funciona uma LLM).
Portanto, podemos melhorar nossa pesquisa adicionando estas palavras novas, ou melhor, seus radicais (stem-words). E ao final teremos vários OR encadeados.
Aqui trocamos children e childhood por child* (com um asterisco ao fim, um wildcard), onde child é um radical ou stem-word.
Dica
pesquisa final - todas com [title/abstract]
#2 - arterial hypertension
#3 - young
#5 - newborn
#7 - child*
#8 - infant*
#9 - neonat*
Nota
Query - #2 AND (#3 OR #5 OR #7 OR #8 OR #9)
Resultado final
Passamos de 2911 artigos para 3909. Descobrimos possíveis 998 FN!
Aviso
Observem como é difícil indentificar Falsos Negativos (FN)