União de bases e tesauro UFSCar
Passo-a-passo para unir metadados de bases de dados diferentes no VantagePoint - exemplo: Lattes e Web of Science (WOS)
Antes de iniciar a união dos arquivos é necessário verificar se ambos os campos estão adequados, isto é, se possuem informações que podem ser comparadas. No exemplo abaixo, foi necessário adequar o campo DOI do Lattes, pois havia, em grande parte dos registros com DOI válido, o seguinte endereço: http://dx.doi.org/ antes do número do DOI, diferente da base da Web of Science (WoS). Para retirar, optou-se por acessar o arquivo de configuração (.conf) do Lattes. Para isto, o arquivo de configuração SyncLattes 1.4 foi aberto, através da opção Tools > Import Engine Editor, conforme ilustra a Figura 1 e, no campo DOI, adicionada a definição de campo para procurar e substituir a string http://dx.doi.org/ por vazio, na Função Find and Replace:
Desta forma, o campo DOI do Lattes foi adequado para efetuar a comparação com o valor DOI da base da WoS.
Regex to find : |
http://dx.doi.org/ |
String to replace with : |
Figura 2 - Realizando a adequação do campo DOI, através da tela de configuração do VantagePoint
Feche a janela de configuração e volte na aba SUMMARY do Vantage. Clique com o botão direito no campo DOI e exclua o campo (Delete field). Será necessário apagar e incluir o campo DOI no Summary, visando atualizá-lo.
Para incluí-lo novamente, siga os passos abaixo:
- Clique em FIELDS > Incremental Import... > Change Dataset Properties > Change Database Configurations > Replace Database > SyncLattes v1.4.conf > OK
- Clique em SyncLattes v1.4 > OK
- Abrirá uma janela de mensagem: ... VantagePoint will search... > Clique em SIM
- Outra mensagem: xxxx changes were made. > OK
- Assign Databases: OK
- DataSet Properties: OK
- Choose Database and Fields : clique no campo DOI > OK
Pronto, o campo DOI foi incluído e adequado!
Após a adequação, os arquivos das bases Web of Science (WoS) e Lattes poderão ser então comparados, usando a função List Comparison, formando o Grupo Lattes no arquivo da base da Wos e vice e versa.
OBSERVAÇÃO: Antes de iniciar o processo de comparar e agrupar as bases, é importante que ambos os arquivos (ex: WoS e Lattes) estejam abertos em uma única área de trabalho do VantagePoint, conforme ilustra Figura 3:
Figura 3 - Mantendo os arquivos de ambas as bases abertos em uma única área de trabalho do VantagePoint
Iniciando o processo de comparar usando a opção GROUPS > List Comparison...
Figura 4 - Iniciando o processo de comparação das bases
Selecione o campo desejado para a comparação. O exemplo ilustrado na Figura 5 mostra a comparação pelo campo DOI:
Figura 5 - Criação do Grupo LATTES para comparar o campo DOI da base da WoS com o campo DOI da base Lattes
Após a comparação, dê dois cliques no Grupo para ordenar os campos, visando facilitar a verificação de quais registros foram encontrados na comparação.
Figura 6 - Ordenando os registros pelo grupo LATTES
Na sequência, salve os registros selecionados em um novo arquivo, usando a opção: FILE > Create Sub-dataset ... > OK.
Figura 7 - Criando um Sub-dataset (novo arquivo) com os registros encontrados pelo grupo LATTES
Para realizar a comparação inversa, basta repetir os passos anteriores, agrupando pela nova base e na sequencia salvar em novo arquivo. Obs.: os registros encontrados deverão ser a mesma quantidade encontrada anteriormente.
Figura 8 – Comparação entre o campo DOI do Lattes com o campo DOI da WoS
Figura 9 - Criando um Sub-dataset (novo arquivo) com os registros encontrados pelo grupo WoS
UNINDO OS ARQUIVOS
Feche os arquivos completos do Lattes e WoS e deixe abertos somente os arquivos resultantes dos agrupamentos (Lattes e WoS).
Importante: ambas as bases precisam estar na mesma área de trabalho do VantagePoint e não em janelas separadas, conforme mostra a Figura 10 a seguir:
Figura 10 - Arquivos do Lattes e WoS na mesma área de trabalho do VantagePoint
Para realizar a união dos arquivos, utilize a opção TOOLS > Data Fusion...
Figura 11 - Adicionando todos os campos de ambas as bases para formar um novo conjunto de dados (ainda duplicados)
Figura 12 - Tela de aviso da formação do novo conjunto de dados
Caso apareça uma tela de aviso, clique em Sim.
Após a união dos arquivos, ainda duplicados, salve como um novo arquivo.
Figura 13 – Salvando a união dos registros do Lattes e WoS (ainda duplicados)
Para resolver o problema da duplicação, crie um novo campo (DOI + DOI) através da união do campo DOI de ambas as bases, clicando na opção FIELDS > Merge Fields...
Figura 14 – Criando um novo campo (DOI + DOI) através da união do campo DOI de ambas as bases
Figura 15 - Combinando os registros pelo campo DOI + DOI
Após a realização da junção, será criado um novo campo DOI + DOI no SUMMARY com os registros sem duplicação.
Figura 16 - Novo arquivo resultante da união das bases (sem duplicação)
Nessa etapa é importante remover registros duplicados, caso existam.
Figura 17 – Removendo os registros duplicados
Seleciona o campo fundido e clica em OK. Será gerado um novo arquivo vpt. com os dados fundidos sem duplicatas.
Figura 18 – Utilizando o código UT como campo único, para a remoção das duplicatas.
A tela de Exibição de Registro mostrará todos os metadados juntos, de ambas as bases.
Figura 19- Metadados de ambas as bases em um único registro
Tesauro para o Controle de Autoridade da UFSCar
**#ufscar - universidade federal de sao carlos |
Como citar: REIS, J. E.; CAMARGO, R. C.; SARVO, D. O.; AMARAL, R. M. Indicadores da produção científica a partir de controle de autoridade: o caso UFSCar. In: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO – ENANCIB, 20., 2019, Florianópolis. Anais... Florianópolis: UFSC, 2019. Disponível em: https://conferencias.ufsc.br/index.php/enancib/2019/paper/view/548/921.