ТЪРСЕЩИ МАШИНИ (ТЪРСАЧКИ)

Принцип на действие и видове

Търсещите машинки (търсачки) са средства за търсене, които позволяват намиране на информация 
по зададени от потребителя термини (ключови думи). 
Съставени са от три компонента: 
1. “Робот” или “спайдер”, който периодично обхожда хиляди Уеб сървъри  в събиране на сведения за нови 
информационни ресурси и на изменения на съществуващите. Принципът на събиране и каталогизиране
на страници е прост: Като започва с дадена страница и проследява съдържанието й (индексира), роботът
проследява други  URL или хипервръзки в самата страница, открива новите страници и процедира с тях
по същия начин. Така за кратко време роботът успява да събере огромен брой страници. 
2. Индекс, или база-данни, съдържаща копие от всяка страница (пълния текст или сведения за заглавие, 
ключови термини и др. информация), обходена от робота. Има търсачки, които индексират пълния текст на 
документа, т.е. всяка дума от този текст може да бъде търсеща – ако се зададе в полето на търсене, този
документ ще бъде повикан в резултатите(Excite, Alta Vista, Google, HotBot, Infoseek, WebCrawler).
При други търсачки роботите регистрират само заглавие, подзаглавни данни, анотации,  или просто 
първите няколко реда от текста, които носят информация за темата на документа. (Lycos, ALIWEb, Galaxy,
WWW search, Magelan). 
3. Механизъм за търсене, който позволява на потребителя да въведе интересуващите го понятия, да търси
в тази база-данни и да получи списък от адреси на сайтове по интересуващата го тема. При първото 
поколение търсачки подреждането им става  най-често според честотата на срещане на думите от запитването.  
Във второто поколение търсачки резултатите обикновено се подреждат по честота на посещаемост от други
потребители и по брой на направени хипервръзки към тях. Най-отгоре в списъка ще появят най-популярните
и посещавани сайтове, към които са направени най-много препратки. 

На създателите на Уеб сайтове се препоръчва да подадат сами информацията, от която се нуждаят търсачките, за да може техният сайт да бъде индексиран правилно и “повикван” при търсене. Информацията за съдържанието, основните теми и ключови думи на сайта може да се представи в т.н. мета тагове.

При кодиране на текста с езика HTML в секцията “HEAD” се представят   няколко ключови думи, които описват съдържанието на документа и които най-вероятно ще бъдат зададени при търсене. Например за “Съюз на библиотечните и информационните работници” би трябвало да се впишат следните понятия: Bulgarian Library Association, Union of Librarians, Information Professionals, Bulgarian Libraries.

Важно: 

Когато използвате търсачка, вие не търсите целия Уеб и цялото 
кибепространство. 
Вие търсите в една част, отрязък от Уеб, уловен от конкретната търсачка в нейната 
база-данни

Базите-данни на отделните търсачки се припокриват 60%,  а 40%  от съдържанието им не се повтаря в останалите. Колкото и мощни да ни изглеждат търсачките, извиквайки хиляди документи по една тема, доказано е, че  те не регистрират дори половината от наличните документи в Уеб! По данни от 2000 г. само 16 % от документите се обхващат от търсешите машини.
Приблизителният брой търсещи машини в мрежата е 260.

Списък с  адресите на търсещите машини в Интернет ще намерите на:

http://www.refdesk.com/newsrch.html или: http://searchenginewatch.com/links/


Търсачката GOOGLE.com

Най-мощната световна търсеща машина е GOOGLE www.google.com. Tя е най-популярна и в България, защото в началото на 2002 г. предостави търсене на редица езици, включително и на български.
Ако при повикването на GOOGLE се зареди английският й вариант, от началната страница се избира “Language tools” ( инструменти за търсене на даден език).  Отваря се страница с падащо меню – списък на езиците. Избираме български и въвеждаме интерсуващите ни понятия. В отговор на нашето запитване Google ще ни предостави списък от уеб сайтове, като първи в списъка с появят най-често посещаваните сайтове и тези, към които са направени най-много препратки. Така напр. при задаване на английски “ Library Bulgaria” ще се зареди библиотеката на БАН, тъй като нейният сайт е най-често посещаваният и редица чуждестранни институции са направили хипервръзка 
(
link) към този сайт.

Ще се убедим във възможностите на Google , като направим няколко упражнения.

УПРАЖНЕНИЕ:
Въведете в кутийката за търсене:

1/  национално сдружение на общините ( да намерим сайта на сдружението)

2/  конкурс награди Паница  (да намерим условията за участие)

3/  Библия (да намерим пълния текст на български език)

4/  Сирак Скитник (да намерим истинското му име)

Какво е “кеширано” – в отворения разултат въведения от нас израз за търсене е оцветен.

Какво означава бутонът “Върви ми ”? Ако вместо “търси”, натиснем него, Google ни отвежда направо в страницата, която според Google е най-сполучливият отговор на нашето питане. Въведете “Дупница” и натиснете “Върви ми”. Влизаме веднага сайта на общиа Дупница.

Какво е “разширено търсене”? Google ни дава възможност за прецизиране на търсенето по език, дата на публикуване, формат на файла както и за търсене в определени полета от страницата – URL, заглавие и т.н. Напр. искаме понятието “български модернизъм” да се среща в заглавието на документа – това ни гарантира, че понятието е основна тема на публикацията. Затова при Срещания задаваме условие “български модернизъм” да се среща само в “заглавието на страницата”.

УПРАЖНЕНИЕ:
1. Открийте иновационните практики от последната седмица, които публикува Фондация за реформа в местното самоуправление.
2. Открийте дали Националният статистически институт е публикувал на сайта си данни от последното преброяване. Какви са числеността и процента на българи, турци и арменци?
3. Исторически документи за Пейо Яворов и участието му в македонското освободително движение

Ако въведем фразата “Пейо Яворов”, ще получим повече от 500 документа, съдържащи неговото име.  Търсачката GOOGLE подрежда най-отпред най-значимите резултати – биография и документи , посветени изключително на Яворов, последвани от документи, в които името му се споменава по някакъв повод.  При задаване на по-обща тема, при която се получават многобройни резултати, GOOGLE предоставя възможност за търсене само в получените резултати. За целта се придвижете в долния край на страницата и натиснете “ТЪРСИ В РЕЗУЛТАТИТЕ”.  Сега можете да добавите МАКЕДОНИЯ”. Този път се получават 125 резултата. Ако въведете ЧЕТА,  ще получите 14 резултата, които вероятно съдържат информация за участието на Яворов в революционна чета.

Аналогичен пример със стесняване на търсенето:  “български език” – “български език  история” – “български език история Македония”. 

  1. Пълният текст на песента “Стани, стани, юнак  балкански”

  2. Резолюция 1441 на ООН (на руски, допълнителни думи за търсене: 8 ноября, Совет безопасности).

КАКВО ОЩЕ МОЖЕ GOOGLE ?

Досега търсехме информация в текстови файлове. Да не забравяме, че Уеб е мултимедийна услуга, която освен текстови, предлага картинни, аудио и видео файлове.

Натиснете КАРТИНКИ от главната страница на GOOGLE.   Това означава, че ще търсим изображения – графики, фотографии, произведения на изобразителното изкуство.

УПРАЖНЕНИЕ: Въведете в кутийката за търсене “Иван Вазов”,   Sunflowers , “golden retriever”, ‘пролет’, “майстора” и разгледайте резултатите.

Друга световна търсеща машина, позволяваща търсене на български език, е

All the Web: http://www.alltheweb.com

 

УПРАЖНЕНИЕ: Открийте чрез търсачката All the Web http://www.alltheweb.com пълния текст на Устава на Българската православна църква.

Руски търсачки:

Aport : http://www.aport.ru.
List.ru: http://www.list.ru.
Rambler: http://.www.rambler.ru.

 


Общи и специфични машини за търсене

Общи търсачки са тези,  които предоставят възможност за търсене във всички области на знанието. Такива са популярните и известни Alta Vista, Excite, Infoseek, Yahoo.com, Northern Light, Fast Search, Google .

Специфични търсачки са тези, които търсят в бази–данни по определена тема или по специфичен отрасъл. По този начин увеличават възможността за намиране на релевантна информация в дадена област, защото каталогизират информация, която не се улавя от общите машини.

Подробен тематичен указател на специализирани търс a чки ще откриете на: http://www.beaucoup.com/ ,  както и на  http://www.refdesk.com/newsrch.html - виж “ Search engines by type”

Други примери за специфични търсачки:
Searchedu.com
. Обхожда информацията в над 20 милиона университетски и образователни сайтове: http://www.searchedu.com

TechWeb: http://www.techweb.com - извиква информация от сървъри, съхраняващи техническа информация

Employment search engines: http://www.refdesk.com/emplsrch.html - указател на търсчки, специализирани за търсене на работа.

Monster.com – най-посещаваната машина  за търсене на работа

http://www.monster.com/

CаreerPath : http://www.careerpath.com/ - друга популярна търсачка за търсене на работа

Scirus . http://www.scirus.com/ - специализирана търсеща машина за научни изследвания.  Роботът й обхожда само сървъри с име на домейн “edu” ( образование ).
Упр. 1:
Scirus http://www.scirus.com/ : статии за лингвистичните понятия: a/ THEMA и   RHEMA. ;
b/ Е COCRITICISM: 45 резултата за  ECOCRITICISM . Между тях:

“Cultural Environmental Studies: Annotated Bibliography Below is a brief list of texts that offer a variety of models of intersections of cultural studies and environmental studies. In making our selections we have sought to move beyond the mostly literary dimensions of ecocriticism (the most well-established branch of cultural environmental studies” Забележка: търсенето на същия термин в онлайн речници и енциклопедии не даде резултат. За сравнение: търсене в Google даде 2,100 резултата.

 

Упр. 2. Embassy world: http://www.embassyworld.com/ : Намиране на адреси на български  посолства в други страни.

Упр. 3.  Нека открием  лични страници: http://www.beaucoup.com/ . Например на David Stern + Yale – стесняваме търсенето   с Yale, защото има и други лични страници с това име.


Търсене с помощта на метамашини

Всички примери дотук бяха експериментирани с индивидуални търсачки. Наричат се “индивидуални”, защото всяка разполага с по-голяма или по-малка база от данни, с копия от уеб документи, които техните “роботи” са обходили. Метамашините не разполагат със свои бази-данни. Те са механизми за едновременно търсене в базите данни на повече от 10 индивидуални търсачки. Предимството им е, че са много бързи и извикват на потребителската страница само първите няколко резултата (тези с най-висок рейтинг) от базите данни на индивидуалните търсачки. Имат един недостатък – не са полезни при сложни изрази за търсене, използващи булевите оператори  AND, OR, AND NOT . Te sa най-надеждни и точни, когато търсенето се състои от една ключова дума.

Примери за метатърсачки:

Ixquick.com

http://www.ixquick.com/

Metacrwaler.com

http://www.metacrawler.com/index.html

Beacom.com

http://www.beaucoup.com/

УПРАЖНЕНИЕ: Нека зададем израза “ library catalogs”   в търсачката Ixquick.com , за да потърсим адреси на библиотечни каталози в Уеб. Получава се списък от 71 указатели на каталози и индивидуални каталози с най-висока посещаемост. Ixquick.com  избира тези 71 от общо 2,877,405 резултата и ги подрежда по рейтинг. Друг пример: материали за подготовка за TOEFL.

КАКВО ОЩЕ МОГАТ ТЪРСЧКИТЕ? – да търсят по естествен език.
Някои търсчки на английски могат да отговорят на добре формулиран от
Вас въпрос. Напр. How to write grant proposals?” (как да пишем проекти за дарения) ще издири сайтове с методика на подготовка и писане на проекти за финансиране от дариталски фондове. Опитайте с InfoSeek.com (http://www.infoseek.com)

Упр.   Повикайте търсачката ALTAVISTA www.altavista.com . 1/ Намерете кой е авторът на фразата Imagination is more important than knowledge” . 2/ Открийте колко е висока Айфеловата кула, като въведете израза: “height of the Eifel Tower". 

 

Полезни съвети за работа с търсещи машини (при търсене главно на английски език)
1. Прочетете указанията за търсене във всяка търсачка, която сте решили да използвате, за да се възползвате пълноценно от възможностите й. Експериментирайте с различни търсачки , тъй като всяка от тях изброява различни резултати.
2. Включете синоними, алтернативни термини и правописни дублети в изразите за  търсене
3. Най-важните думи поставяйте в началото на израза за търсене.
4. Проверете правописа на всяка дума. Отчитайте разликите в британския и американския правопис на английския език: programme-program, colour – color, labour – labor, catalog – catalogue.
5. За предпочитане е да използвате само малки букви. (“ president”   извиква страници с   “President”  и “president” .

Ако получите прекалено много резултати, или малко, но неподходящи :


- Използвайте опцията “търси в резултатите” за да добавите нови ключови думи към Вашето търсене, което този път ще се извърши в рамките на получените резултати.
- Използвайте думи с конкретно значение, избягвайте  по-общи (родови и видови) понятия.
- Свържете с
“AND” (съюза “И”) подходящи термини, които биха се появили заедно в текст.
- Ако някой от термнините е фраза, не пропускайте да го оградите в кавички (“ mihail kamberov”, “financial aid”, “global warming”).
- Използвайте AND NOT, за да избегнете зареждането на ненужни документи.

Ако получите недостатъчен брой резултати :

- Заличете най-маловажната дума от израза за търсене и повторете търсенето

- Използвайте по-общи (родови и видови) понятия.

- Добавете алтернативни термини: напр.  за “Image diagnostics”: diagnostic imaging, medical imaging.  
Така
нареченият “възродителен процес” в България  в публикациите на запад се нарича “насилствена асимилация” ( “forced assimilation”).

- Някои търсачки предлагат паралелни списъци от документи, съдържащи думи, сродни на
нашите ключови думи. (“
Related pages, “Similar pages”).   Опитайте с Excite.com, HotBot, Go.com.

За езика на изразите за търсене:

Единствено или множествено число на думите за търсене?

Зададените думи в единствено число се тълкуват от търсачките двояко –
както в единствено, така и в множествено число. Напр. car (кола) ще извика всички документи с car и cars . Ако искаме да получим резултати само с формата за множествено число, трябва да въведем cars .

Варианти на думите:

Някои от търсачките могат да търсят производни  думи на нашата ключова дума след буквата, където е поставен символът * ( asterisk) . Напр. зададеното търсене   capital*   ще повика резултати , съдържащи следните думи: Capital, capitals, capitalize, capitalization

Главни или малки букви:

Повечето търсачки тълкуват малките букви и като малки, и като големи. Препоръчва се да се въвеждат само малки букви. Ако искате да ограничите резултатите само до страници с разграничени малки и големи букви в имената, напишете израза така, както бихте искали да го намерите в резултата. ( Mozart , напр. ).

“Стоп” думи:

Повечето търсачки игнорират малки, непълнизначни думи (предлози, съюзи, определителни членове) като a, an, as, at, of, on, the, to . Те не се отчитат дори в рамките на неделима фраза: “Crime and punishment” (“ Престъпление и наказание ).

Търсачката Google ( http://www.google.com) дава възможност за неразкъсване на фразата, като се постави знака +   преди “стоп” думата: “crime +and punishment”, “+the name +of +the rose”.


Обратно към съдържанието