CONCEPTOS
BÁSICOS SOBRE BUSQUEDAD DE INFORMACIÓN EN LINEA
Recuperación
de información en línea
Función
de los operadores boleanos
Orden de procesamiento de operadores boleanos
Truncamiento
Tipos de Truncamiento
Portal y Motores de Búsqueda
Los operadores boleanos y algunos motores de búsqueda
en internet
Representación de operadores boleanos con símbolos
matemáticos
Truncamiento y motores de búsqueda
Operadores de proximidad
Limte por tipo de documento
Limite por campos (partes del record)
Estos
concepto básicos aplican a la búsqueda en Internet, la mayoría de las bases
de datos y el trabajo de la biblioteca. La
mayoría de los sistemas de recuperación de información utilizan los
operadores boleanos para la recuperación de información en línea.
Existen tres operadores boleanos AND, OR y NOT.
Estos operadores a su vez se basan en el concepto de conjuntos (sets)
del álgebra.
Hay
sistemas de recuperación de información más sofisticados que otros. Aquellos
sistemas que son más sofisticados, además de utilizar los operadores boleanos
también utilizan operadores de proximidad y otras técnicas de búsqueda.
Los operadores de proximidad especifican en qué orden y cuán
cerca se prefiere una palabra o término de otra en una oración, párrafo o
texto completo. Al utilizar
operadores boleanos y operadores de
proximidad combinados con los campos o elementos del récord (título, autor,
abstracto, texto completo del récord) donde se desea conseguir la información
buscada de recuperación de información tiende a ser más precisa y relevante.
En
algunos sistemas de información o motores de búsqueda los operadores boleanos
se usan con palabras y otros utilizan los símbolos matemáticos que éstas
representan. Los operadores
boleanos representados por palabras son los siguientes:
AND
– Es la unión o multiplicación de dos conjuntos (sets) de palabras o
conceptos
OR
- Es la suma de dos
conjuntos similares de palabras o conceptos.
NOT
- Es la resta de un conjunto no
deseado
Los
operadores boleanos representados por símbolos matemáticos son:
AND
- se
representa como una multiplicación con símbolo de x
OR - se representa como una suma con el símbolo de +
NOT
- se representa como una resta con
el símbolo de –
Ejemplo:
Se desea información sobre “la nutrición de gatos”. Esta necesidad de información debe ser analizada antes de
iniciar la búsqueda identificando palabras claves o conceptos claves.
Además, hay que identificar los posibles sinónimos, formas alternas de
escribir el término, el singular y plural del término que se desea buscar.
El análisis de la necesidad de información sobre “la nutrición para
gatos” puede hacerse de la siguiente forma:
(cat OR cats OR feline) AND nutrition,
Como
los operadores boleanos están basados en los principios matemáticos de
multiplicación, suma y resta de conjuntos es necesario indicar que cada sistema
de recuperación de información en línea tiene un orden específico para
procesar cada operador boleano. De esta forma, cuando en una expresión de búsqueda
aparezcan los tres operadores (AND, OR, NOT) el sistema empezará a procesarlos
en un orden específico, por ejemplo: habrá
sistemas que procesaran AND primero, luego OR Y finalmente NOT.
Por otro lado, habrá otros sistemas que procesan primero OR, luego AND
y finalmente NOT.
El
orden en que los sistemas procesan los operadores boleanos es importante tenerlo
en cuenta porque puede conducir a resultados no deseados.
Es por esta razón que se utilizan paréntesis como en las operaciones
algebraicas para indicarle al sistema que aquéllo entre paréntesis debe ser
procesado primero. Este orden que
utiliza cada sistema para procesar los operadores boleanos se llama
“default”y cada sistema tendrá un orden distinto.
El truncamiento es una técnica para recuperar
información en sistemas de información que utilizan el vocabulario natural (opuesto
a vocabulario controlado) para almacenar información.
El vocabulario natural es nuestra forma de hablar de día a día.
Las computadoras no piensan como lo seres humanos sino que ejecutan
exactamente o literalmente la orden
que se le da. Es por esto, que si
queremos buscar información sobre “la mujer puertorriqueña”y buscamos en
Internet por ejemplo: mujer AND
puertorriqueña.
El
sistema buscará exactamente estos términos.
Es decir el sistema no entiende que a usted le interesan récords donde
el término mujer aparezca en plural (mujeres) o donde aparezca en el sinónimo
de puertorriqueña (boricua). Cada
sistema de recuperación de información utiliza símbolos diferentes para
indicar truncamiento. Algunos de
estos símbolos son: ? #, $.
Es por esto que antes de utilizar un sistema debe familiarizarse de cómo
funciona el mismo.
Para efectos de ejemplos se usará el símbolo de ? para indicar truncamiento. Existen varios tipos de truncamiento: a la derecha, a la izquierda y dentro de palabras.
Truncamiento
a la derecha:
Ejemplos: mujer? Recuperará “mujeres”, “mujercita” y “mujerzuela”,
etc.
Truncamiento
a la izquierda:
? computadora recuperará “microcomputadoras”y “minicomputadoras”.
Truncamiento dentro
de la palabra:
wom? Recuperará “women”u “woman”.
¿Qué
es un portal y un motor de búsqueda?
Portal
- Es una página en Internet que
presenta gran variedad de información clasificada por temas amplios y subtemas
dentro de esos temas amplios. Además,
puede ofrecer un sin número de otros servicios.
El usuario escoge un un área o subtema a donde
desea encontrar información. El
portal puede o no tener un motor de búsqueda. Yahoo es un portal con motor de búsqueda. Ejemplo: http://www.yahoo.com.
Motor de búsqueda – Es un interfase con un sistema sofisticado de recuperación de información que utiliza algorísmos matemáticos y estadísticos para recuperar la información. El motor de búsqueda utiliza los conceptos básicos de operadores boleanos junto a un sistema de indización para recuperar la información. Las páginas en Internet que operan como motores de búsqueda solamente no presentan en su página la información clasificada. Estas páginas presentan únicamente el motor de búsqueda que es un encasillado donde usted entra la información que desea buscar. Ejemplo: Google http://www.google.com.
|
Operadores
boleanos |
Alta
Vista |
Excite
|
Infoseek
|
|
AND |
Búsqueda
avanzada |
Búsqueda
avanzada |
no |
|
OR |
Búsqueda
avanzada |
Búsqueda
avanzada |
no |
|
NOT |
Búsqueda
avanzada and NOT |
Búsqueda
avanzada |
no |
|
Operador
por “default |
OR |
AND,
OR |
OR |
|
Desactivar
el operador por “default” |
Usar
operadores de búsqueda avanzada |
Usar
operadores de búsqueda avanzada |
Usar operadores especiales |
REPRESENTACIÓN
DE OPERADORES BOLEANOS CON SÍMBOLOS MATEMÁTICOS
|
Símbolos
matemáticos |
Alta
Vista |
Excite |
Infoseek |
|
Términos requeridos + |
Búsqueda
simple |
Búsqueda
organizada |
sí |
|
Excluye términos - |
Búsqueda
simple |
Búsqueda
avanzada |
sí |
|
Añade términos x |
no |
no |
no |
TRUNCAMIENTO
Y MOTORES DE BÚSQUEDA
|
|
Alta
Vista |
Excite |
Infoseek |
|
Truncamiento automático |
No |
No |
sí |
|
Truncamiento a la derecha |
sí |
no |
no |
|
“Masking” |
sí |
no |
no |
|
|
Alta
Vista |
Excite |
Infoseek |
|
Adyacente en orden requerido |
no |
no |
sí |
|
Adyacente (dentro de un número especificado de
palabras |
no |
no |
no |
|
Cerca (dentro de un número de palabras especificado) |
no |
no |
No |
Tipo
de documento
|
Alta
Vista |
Excite |
Infoseek |
|
Página de Internet |
sí |
sí |
sí |
|
Usenet (grupo de usuarios de Internet) |
|
|
|
|
Tema o materia |
no
|
sí |
sí |
|
Fecha |
sí |
no |
no |
|
Páginas de Internet (asesoradas (reviewed) |
no |
Sí |
sí |
|
Usenet FAQs |
no |
no |
sí |
|
Dirección electrónica (e-mail address) |
no |
no |
sí |
LIMITE
POR CAMPOS (PARTES DEL RECORD)
|
Campos
o partes del récord |
Alta
Vista |
Excite |
Infoseek |
|
URL
|
sí |
no
|
no |
|
Título |
sí |
no |
no |
|
Encabezamiento de materia |
sí |
no |
no |
|
Texto del documento solamente |
sí |
no |
no |
|
Otros |
sí
(bastantes) |
No |
no |