วันจันทร์ที่ 28 มีนาคม พ.ศ. 2554

ความรู้เรื่อง search engine


Search Engine คือ เครื่องมือการค้นหาข้อมูลผ่านอินเตอร์เน็ต ที่ทุกคนสามารถเข้าไปค้นหาข้อมูลผ่านอินเตอร์เน็ตก็ได้ โดย กรอก ข้อมูลที่ต้องการค้นหา หรือ Keyword (คีเวิร์ด) เข้าไปที่ช่อง Search Box แล้วกด Enter แค่นี้ข้อมูลที่เราค้นหาก็จะถูกแสดงออกมาอย่างมากมายก่ายกอง เพื่อให้เราเลือกข้อมูลที่เราโดนใจที่สุดเอามาใช้ งาน โดยลักษณะการแสดงผลของ Search Engine นั้นจะทำการแสดงผลแบบ เรียงอันดับ Search Results ผ่านหน้าจอคอมพิวเตอร์ของเรา
Keyword (คีย์เวิร์ด
Keyword ในภาษาของเครื่องคอมพิวเตอร์และอินเตอร์เน็ต คือ คำหรือข้อความ ที่ผู้ใช้อินเตอร์เน็ต พิมพ์ลงไปเพื่อใช้ในการ ค้นหาเว็บไซต์ หรือข้อมูลต่าง ๆ นั่นเอง จะเป็นคำที่ใช้ในการอธิบายรูป ลักษณะของเอกสารนั้น เช่น ชื่อเรื่อง หัวข้อ หัวเรื่อง รายละเอียดอย่างย่อของเอกสาร เพื่อความสะดวก และความรวดเร็ว ในการสืบค้น เอกสารในข้อมูลระบบ ไม่ว่าจะเป็นการค้นหาเว็บเพจ ที่อยู่ในฐานข้อมูลของ เสิร์ชเอนจิ้น หรือการสืบค้นเอกสารต่างๆ ในระบบของห้องสมุด เป็นต้น ดังนั้น Keyword คีย์เวิร์ด จึงมีความสำคัญเป็นอย่างมาก ซึ่ง Keyword นี้จะเป็นเหมือนสัญลักษณ์ประจำตัว ของหน้าเว็บเพจหรือเรื่องนั้น ๆ



Search Engine มี 3 ประเภท
Search Engine มี3ประเภท  โดยมีหลักการทำงานที่ต่างกัน และ การจัดอันดับการค้นหาข้อมูลก็ต่างกันด้วยครับ เพราะมีลักษณะการทำงานที่ต่างกันนี่เองทำให้ โดยทั่ว ๆ ไปแล้วจะมีการแบ่งออกเป็นหลาย ๆ ประเภทด้วยกัน แต่ที่พอสรุปได้ก็มีเพียง 3 ประเภทหลัก ๆ ดังที่จะนำเสนอต่อไปนี้ครับ

ประเภทที่ 1 Crawler Based Search Engines
Crawler Based Search Engines คือ เครื่องมือการค้นหาบนอินเตอร์เน็ตแบบอาศัยการบันทึกข้อมูล และ จัดเก็บข้อมูลเป็นหลัก ซึ่งจะเป็นจำพวก Search Engine ที่ได้รับความนิยมสูงสุด เนื่องจากให้ผลการค้นหาแม่นยำที่สุด และการประมวลผลการค้นหาสามารถทำได้อย่างรวดเร็ว จึงทำให้มีบทบาทในการค้นหาข้อมูลมากที่สุดในปัจจุบัน
โดยมีองประกอบหลักเพียง 2 ส่วนด้วยกันคือ
1. ฐานข้อมูล โดยส่วนใหญ่แล้ว Crawler Based Search Engine เหล่านี้จะมีฐานข้อมูลเป็นของตัวเอง ที่มีระบบการประมวลผล และ การจัดอันดับที่เฉพาะ เป็นเอกลักษณ์ของตนเองอย่างมาก
2. ซอฟแวร์ คือเครื่องมือหลักสำคัญที่สุดอีกส่วนหนึ่งสำหรับ Serch Engine ประเภทนี้ เนื่องจากต้องอาศัยโปรแกรมเล็ก ๆ (ชนิดที่เรียกว่า จิ๋วแต่แจ๋ว) ทำหน้าที่ในการตรวจหา และ ทำการจัดเก็บข้อมูล หน้าเพจ หรือ เว็บไซต์ต่าง ๆ ในรูปแบบของการทำสำเนาข้อมูล เหมือนกับต้นฉบับทุกอย่าง ซึ่งเราจะรู้จักกันในนาม Spider หรือ Web Crawler หรือ Search Engine Robots

ตัวอย่างหนึ่งของ Crawler Based Search Engine ชื่อดัง http://www.google.com

 
Crawler Based Search Engine ได้แก่
จะยกตัวอย่างคร่าว ๆ ให้ได้เห็นกันเอาแบบที่เรา ๆ ท่าน ๆ รู้จักก็ได้แก่? Google , Yahoo, MSN, Live, Search, Technorati (สำหรับ blog) ส่วนลักษณะการทำงาน และ การเก็บข้อมูลของ Web Crawler หรือ Robot หรือ Spider นั้นแต่ละแห่งจะมีวิธีการเก็บข้อมูล และ การจัดอันดับข้อมูลที่ต่างกันน เช่น คุณทำการค้นหาคำว่า Search Engine คืออะไรผ่านทั้ง 5 แห่งที่ให้ไว้จะได้ผลการค้นหาที่ต่างกัน

ประเภทที่ 2 Web Directory หรือ Blog Directory
Web Directory หรือ Blog Directory คือ สารบัญเว็บไซต์ที่ให้คุณสามารถค้นหาข่าวสารข้อมูล ด้วยหมวดหมู่ข่าวสารข้อมูลที่เกี่ยวข้องกัน ในปริมาณมาก ๆ คล้าย ๆ กับสมุดหน้าเหลืองครับ ซึ่งจะมีการสร้างดรรชนี มีการระบุหมวดหมู่ อย่างชัดเจนซึ่งจะช่วยให้การค้นหาข้อมูลต่าง ๆ ตามหมวดหมู่นั้น ๆ ได้รับการเปรียบเทียบอ้างอิง เพื่อหาข้อเท็จจริงได้ ในขณะที่เราค้นหาข้อมูล เพราะว่าจะมีเว็บไซต์มากมาย หรือ Blog มากมายที่มีเนื้อหาคล้าย ๆ กันในหมวดหมู่เดียวกันให้เราเลือกที่จะหาข้อมูลได้อย่างตรงประเด็นที่สุด (ลดระยะเวลาได้มากในการค้นหา) ซึ่งขอยกตัวอย่างดังนี้
ODP Web Directory ชื่อดังของโลก ที่มี Search Engine มากมายใช้เป็นฐานข้อมูล Directory  
1.ODP หรือ Dmoz ที่หลายๆ คนรู้จัก ซึ่งเป็น Web Directory ที่ใหญ่ที่สุดในโลก Search Engine หลาย ๆ แห่งก็ใช้ข้อมูลจากที่แห่งนี้เกือบทั้งสิ้น เช่น Google, AOL, Yahoo, Netscape และอื่น ๆ อีกมากมาย ODP มีการบันทึกข้อมูลประมาณ 80 ภาษาทั่วโลก รวมถึงภาษาไทยเราด้วยครับ (URL : http://www.dmoz.org )
2. สารบัญเว็บไทย SANOOK ก็เป็น Web Directory ที่มีชื่อเสียงอีกเช่นกัน และเป็นที่รู้จักมากที่สุดในเมืองไทย (URL : http://webindex.sanook.com )
3. Blog Directory อย่าง BlogFlux Directory ที่มีการเก็บข้อมูลเกี่ยวกับบล็อกมากมายตามหมวดหมู่ต่าง ๆ หรือ Blog Directory อื่น ๆ ที่สามารถหาได้จาก Make Many แห่งนี้
ประเภทที่ 3 Meta Search Engine
Meta Search Engine คือ Search Engine ที่ใช้หลักการในการค้นหาโดยอาศัย Meta Tag ในภาษา HTML ซึ่งมีการประกาศชุดคำสั่งต่าง ๆ เป็นรูปแบบของ Tex Editor ด้วยภาษา HTML นั่นเองเช่น ชื่อผู้พัฒนา คำค้นหา เจ้าของเว็บ หรือ บล็อก คำอธิบายเว็บหรือบล็อกอย่างย่อ
ผลการค้นหาของ Meta Search Engine นี้มักไม่แม่นยำอย่างที่คิด เนื่องจากบางครั้งผู้ให้บริการหรือ ผู้ออกแบบเว็บสามารถใส่อะไรเข้าไปก็ได้มากมายเพื่อให้เกิดการค้นหาและพบเว็บ หรือ บล็อกของตนเอง และ อีกประการหนึ่งก็คือมีการอาศัย Search Engine Index Server หลาย ๆ แห่งมาประมวลผลรวมกันจึงทำให้ผลการค้นหาข้อมูลต่าง ๆ ไม่เที่ยงตรงเท่าที่ควร

การใช้งาน Search Engine มี 9 เทคนิค
เทคนิคที่ 1 การใช้คำสำคัญ (keyword) เพื่อเจาะจงเนื้อหา
1.) คำสำคัญที่เป็นภาษาไทยล้วนๆ
            สมมติ ว่าคุณจะค้นหาข้อมูลเกี่ยวกับนักคณิตศาสตร์ คำสำคัญอันดับแรกที่เรานึกถึงได้ทันทีก็คือ นักคณิตศาสตร์ แต่ผมคิดว่าคำสำคัญเพียงคำเดียวก็ดูจะกว้างไป และในบางครั้งผลการค้นหาก็มากมายหลายสิบหน้า  ถ้าเราจะเปิดอ่านทุกลิงก์ทุกหน้าก็คงไม่ดีแน่ ดังนั้นเราจึงต้องจำกัดผลการค้นหาให้แคบลงตามที่เราต้องการ สมมติว่าคุณต้องการข้อมูลเกี่ยวกับนักคณิตศาสตร์ชาวกรีก คำสำคัญที่ใช้ได้ก็ได้แก่ นักคณิตศาสตร์ และคำว่า กรีก คราวนี้สังเกตผลการค้นหาที่ได้ คุณจะพบว่าผลการค้นหามีจำนวนน้อยลง คราวนี้ก็สะดวกที่เราจะเลือกลิงก์ที่ต้องการได้ เช่นดังรูป

จาก ภาพประกอบ 1 ในกรอบรูปวงรี   คุณจะเห็นได้ว่าผลการค้นหามีทั้งหมด 343 ผลลัพธ์  แต่เมื่อเพิ่มคำสำคัญเข้าไปอีกเพียงคำเดียวซึ่งก็คือคำว่า  กรีก”  ในภาพประกอบ 2   ก็จะทำให้ผลการค้นหาลดลงเหลือเพียงผลลัพธ์เดียวเท่านั้น  แต่ทั้งนี้จำนวนผลลัพธ์ที่ลดน้อยลงไม่อาจประกันได้ว่าเราจะได้ข้อมูลอย่าง ที่คาดหวังไว้

2.) คำสำคัญที่เป็นภาษาอังกฤษล้วนๆ
            ในทำนองเดียวกัน  ถ้าคุณอยากได้ข้อมูลเกี่ยวกับนักคณิตศาสตร์ชาวกรีกแต่เป็นภาษาอังกฤษ คำสำคัญ 2 คำแรกที่น่าจะใช้ได้ก็คือ greek mathematician แต่ผมมีข้อสังเกตของการใช้เว็บไซต์ http://www.google.co.th/ และ search engine หลายๆ ตัวในอินเทอร์เน็ต คือ ในการค้นหาข้อมูลที่ใช้คำสำคัญเป็นภาษาอังกฤษ (รวมทั้งภาษาไทยด้วย) ถ้าเราใช้เครื่องหมาย “ ” (double quote) คร่อมระหว่างคำสำคัญคู่ใดๆ ก็ตาม ผลการค้นหาอาจแตกต่างกันเล็กน้อยซึ่งเป็นรายละเอียดทางเทคนิค ผมจะไม่อธิบายไว้ในที่นี้ ในกรณีนี้คำสำคัญว่า greek mathematician (คำว่า greek แล้วเว้นวรรคจากนั้นตามด้วยคำว่า mathematician) อาจให้ผลการค้นหาที่ต่างจากคำสำคัญ “greek mathematician” และที่สำคัญอีกอย่างก็คือตัวอักษรใหญ่เล็กที่ต่างกันก็อาจจะให้ผลการค้นหา ที่ต่างกันได้อีกเช่นกัน ดังรูป

3.) คำสำคัญที่มีทั้ง 2 ภาษาปนกัน 
            search engine  บางแห่งอาจค้นไม่พบข้อมูลที่ต้องการเมื่อใช้คำสำคัญที่เป็นภาษาไทยกับภาษา อังกฤษปนกัน  แต่อย่างไรก็ตามผมพบว่าเว็บไซต์    http://www.google.co.th        ไม่มีปัญหากับคำสำคัญที่เป็นแบบ 2 ภาษาปนกัน  สมมติว่าคุณต้องการไฟล์บทเรียนเกี่ยวกับไฟฟ้ากระแส  คำสำคัญที่อาจจะใช้ได้มีดังต่อไปนี้ 1) ไฟฟ้ากระแสตรง  “direct current”
2)
“direct current” ไฟฟ้า กระแสตรง
3)
“direct current” เนื้อหา (ดังรูป)


เทคนิคที่ 2 การใช้คำสำคัญ (keyword) เพื่อเจาะจงรูปแบบของไฟล์
            ในการค้นหาข้อมูลนั้น บางครั้งเราอาจต้องการเจาะจงรูปแบบของไฟล์เพื่อวัตถุประสงค์บางอย่าง เช่น ต้องการนำไฟล์นั้นไปใช้พิมพ์ออกทางเครื่องพิมพ์   หรือว่านำไปใช้ประกอบการทำรายงาน   หรือแม้กระทั่งนำไปใช้ในการนำเสนอผลงาน  ซึ่ง search engine  บางแห่งไม่สนับสนุนรูปแบบไฟล์อื่นๆ นอกจากไฟล์เว็บเพ็จที่มีนามสกุล (Extension)  เป็น *.html หรือ *.htm แต่เว็บไซต์ http://www.google.co.th สนับสนุนไฟล์ในรูปแบบอื่นๆ นอกจาก *.html หรือ *.htm  ได้แก่  *.doc (ไฟล์ที่สร้างจากโปรแกรม Microsoft Word), *.xls (ไฟล์ที่สร้างจากโปรแกรม Microsoft Excel), *.ppt (ไฟล์ที่สร้างจากโปรแกรม Microsoft PowerPoint) และไฟล์ *.pdf (Portable Document Format) ซึ่งเปิดอ่านได้จากโปรแกรมยอดนิยมอย่าง Adobe Acrobat Reader  เป็นต้น
            สมมติว่าคุณต้องการไฟล์บทเรียนเกี่ยวกับกรด เบสที่อยู่ในรูปแบบไฟล์ pdf และไม่จำกัดภาษา   คำสำคัญที่อาจจะใช้ได้มีดังต่อไปนี้
1) acid base  pdf
2) “acid-base” pdf
3) “Aqueous Equillibria” lecture notes pdf
4) สมดุลกรด เบส pdf
5) กรด เบส pdf
6) กรด เบส pdf

เทคนิคที่ 3 หลีกเลี่ยงการใช้คำหรือเครื่องหมายบางประเภทประกอบในคำสำคัญ
            search engine ส่วนใหญ่ซึ่งรวมถึง http://www.google.co.th มักจะไม่รวมเอาคำสรรพนามไม่ชี้เฉพาะ คำบุพบท คำสันธานในภาษาอังกฤษ เช่น a , an , the , on ฯลฯ เข้าไว้ในการค้นหา ถ้าหากว่าต้องการให้คำสรรพนามชี้เฉพาะ หรือคำยกเว้นต่างๆ รวมอยู่ในการค้นหาด้วย ผมแนะนำว่าให้ใช้เครื่องหมาย “ ” คร่อมคำเฉพาะนั้น

เทคนิคที่ 4 หลีกเลี่ยงการใช้คำสำคัญที่มีความยาวเกินไป
            search engine  ส่วนใหญ่ซึ่งรวมถึง   http://www.google.co.th  มักจะแสดงผลการค้นหาในทำนองว่า ไม่พบข้อมูลที่ต้องการ”   เนื่องจากสาเหตุหลายประการ   โดยหนึ่งในสาเหตุเหล่านั้นก็คือการใช้คำสำคัญ ที่ยาวเกินไป  สมมติว่าคุณต้องการค้นหาข้อมูลเกี่ยวกับ     “การแยกตัวประกอบของพหุนามแต่ปรากฏว่าไม่มีข้อมูลที่ต้องการ  เราก็เปลี่ยนคำสำคัญใหม่โดยการแตกคำสำคัญที่ยาวๆ นั้นให้สั้นลง  แล้วใช้วิธีการเว้นวรรค หรือใช้เครื่องหมาย  “  ”  คร่อมคำสำคัญคู่ใดคู่หนึ่งแทน  ในกรณีนี้ก็อาจเปลี่ยนไปใช้คำว่า  “พหุนาม”  “แยกตัวประกอบ”  ก็ได้
เทคนิคที่ 5 การค้นหาข้อมูลที่เป็นราชทินนาม, ฐานันดรศักดิ์, บรรดาศักดิ์, ชื่อบุคคล
            ในบางครั้งถ้าหากเราต้องการข้อมูลเกี่ยวกับสมาชิกในพระบรมราชวงศ์ บรรดาศักดิ์ของขุนนาง ชื่อของบุคคล  เป็นต้น  เราอาจพบว่าไม่มีข้อมูลที่ต้องการ  สาเหตุประการหนึ่งก็คือคำสำคัญที่ยาวเกินไป  ในกรณีนี้เทคนิคที่ สามารถนำมาประยุกต์ใช้ได้ แต่ถ้าหากว่าเราต้องการค้นหาชื่อบุคคล  เราก็สามารถประยุกต์ใช้เทคนิคที่ 4 ได้อีกเช่นกันโดยการแยกส่วนที่เป็นชื่อกับนามสกุลออกจากกัน เช่น ต้องการหาข้อมูลของ  “ทักษิณ  ชินวัตร”  สมมติว่า  search engine  ไม่พบข้อมูลเกี่ยวกับ ทักษิณ ชินวัตรหรือพบแต่ไม่ใช่สิ่งที่เราต้องการก็เลี่ยงไปใช้คำสำคัญ  “ทักษิณ”  “ชินวัตร”  แทนอย่างนี้เป็นต้นแต่อย่างไรก็ตามผมมีข้อสังเกตว่าการใช้คำสำคัญติดกันโดยการคร่อมด้วยเครื่อง หมาย  “  ”   ก็อาจให้ทางเลือกที่ดีกว่าในการค้นหาและคัดเลือกข้อมูลโดยตัวเราเอง
เทคนิคที่ 6 ตรวจสอบตัวสะกดให้ถูกต้อง
สาเหตุหนึ่งที่  search engine ไม่พบข้อมูลที่ต้องการหรือผลการค้นหาไม่เป็นไปตามที่คาดหวังก็คือการสะกดคำ ที่ไม่ถูกต้อง  ในกรณีนี้ส่วนใหญ่มักเกิดจากการใช้คำสำคัญภาษาต่างประเทศที่ใช้วิธีเขียนทับ ศัพท์เป็นภาษาไทยไปเลย หรือในกรณีคำสำคัญที่เป็นภาษาต่างประเทศ ก็คือตกตัวสะกดไปตัวหนึ่งหรือเขียนผิดไปตัวหนึ่งก็ทำให้ผลการค้นหาคลาด เคลื่อนได้เช่นกัน   
เทคนิคที่ 7 การใช้ search engine เป็นเครื่องมือค้นหาเว็บไซต์ที่ต้องการ
            ในบางครั้งถ้าเราต้องการเข้าไปยังเว็บไซต์หนึ่งแต่เราไม่แน่ใจหรือจำไม่ได้ ว่าเว็บไซต์นั้นมี URL (Uniform Resource Locator) ว่าอย่างไร  สมมติว่าคุณต้องการเข้ามายังเว็บไซต์ sudipan.net แต่ปรากฏว่าเราลืม URL ของเว็บนี้ วิธีที่ง่ายที่สุดก็คือใช้คำสำคัญซึ่งเป็นชื่อที่เรานึกออกว่าเป็นส่วนหนึ่ง ของชื่อเว็บไซต์นั้น ซึ่งในกรณีนี้สมมติผมใช้คำสำคัญว่า “sudipan” ก็จะได้ผลการค้นหาเป็นทุกๆ เว็บเพ็จที่มีคำว่า sudipan แต่เป้าหมายของเราคือต้องการเข้าไปยังเว็บไซต์ดังกล่าวไม่ใช่หาข้อมูล เกี่ยวกับ sudipan เราก็เลือกที่ลิงก์แรกซึ่งมี URL คือ http://www.sudipan.net นั่นเอง 
เทคนิคที่ 8 การใช้คำสำคัญในทางตรรกศาสตร์
           search engine หลายแห่งสามารถใช้คำในวิชาตรรกศาสตร์มาช่วยคัดเลือกข้อมูลได้ โดยจะเป็นผลให้จำนวนผลการค้นหาลดน้อยลงหรือเป็นไปตามที่เราคาดหวังมากขึ้น ซึ่งคำในวิชาตรรกศาสตร์ที่ใช้ได้มีดังต่อไปนี้  AND  OR  NOT  สำหรับวิธีการใช้งานอย่างคร่าวๆ  มีดังนี้ 
            1.) AND ใช้เมื่อต้องการให้ผลการค้นหาประกอบด้วยคำสำคัญที่อยู่ติดกับคำว่า AND ทั้งสองคำ เช่น  “chemistry” AND “atomic theory” หมายความว่าให้ค้นหาข้อมูลที่มีคำว่า chemistry และคำว่า atomic theory ทั้ง 2 คำอยู่ในเอกสารเดียวกัน
            2.) OR ใช้เมื่อต้องการให้ผลการค้นหาประกอบด้วยคำสำคัญตัวใดตัวหนึ่งที่อยู่ติดกับ คำว่า OR เช่น  “physics”  OR  “mechanics” หมายความว่าให้ค้นหาข้อมูลที่มีคำว่า  physics  หรือ  mechanics คำใดคำหนึ่งก็ได้
            3.) NOT ใช้เมื่อต้องการให้ผลการค้นหาประกอบด้วยคำสำคัญที่อยู่หน้าคำว่า  NOT แต่ไม่ต้องค้นหาคำที่อยู่หลังคำว่า NOT     เช่น  mathematics  NOT  calculus  หมายความว่า ให้ค้นหาข้อมูลที่มีคำว่า  mathematics  แต่ต้องไม่มีคำว่า calculus  อยู่ด้วย
หมายเหตุ เทคนิคที่ 8 นี้สามารถนำไปประยุกต์ใช้กับการค้นหาข้อมูลในฐานข้อมูลทรัพยากรห้องสมุดตามมหาวิทยาลัยได้ด้วย
เทคนิคที่ 9 การ search โดยระบุที่จะ search เฉพาะเวปหนึ่งๆ
            เติมคำว่า site:แล้วตามด้วยเวปที่เราต้องการค้น ผลลัพธ์ที่ได้ก็จะออกมาเฉพาะในเวปนั้นๆ เช่นจะเข้าไปฟังเพลงในเวป ก็สามารถหาได้โดย my best friend site:bignose.exteen.com

การทำงานของ Search Engine  ประกอบไปด้วย ๓ ส่วนหลัก ๆ คือ
๑. Spider หรือ Web Robot จะเป็นตัวที่ทำหน้าที่เข้าสำรวจเว็บไซต์ต่างๆ แล้วดึงข้อมูลเหล่านั้นมาอัพเดทใส่ในรายการฐานข้อมูล ส่วนมาก Spider มักจะเข้าไปอัพเดทข้อมูลเป็นรายเดือน

๒. ฐานข้อมูล (Database) เป็นส่วนที่เก็บรายการเว็บไซต์ ฐานข้อมูลที่ดีควรจะมีขนาดใหญ่เพียงพอที่จะรองรับกับการเติบโตของเว็บไซต์ในปัจจุบันการออกแบบฐานข้อมูลที่ดีก็เป็นส่วนสำคัญเพราะถ้าฐานข้อมูลออกแบบมาทำงานช้า ก็ทำให้การรอผลนานและจะไม่ได้รับความนิยมไปในที่สุด


 ๓.โปรแกรม Search Engine มีหน้าที่รับคำหรือข้อความที่ผู้ใช้งานป้อนเข้ามาแล้วเข้าค้นหาตามเว็บไซต์ต่างๆ ที่จัดเก็บไว้ในฐานข้อมูลจากนั้นก็จะรายงานผลเว็บไซต์ที่ค้นพบให้กับผู้ใช้ การสืบค้นด้วยวิธีนี้นอกจากจะต้องมีระบบการสืบค้นข้อมูลที่รวดเร็วและมีประสิทธิภาพแล้วการกลั่นกรองผลที่ได้ เพื่อให้ตรงกับความต้องการของผู้ใช้ก็เป็นอีกส่วนหนึ่งที่สำคัญของการสืบค้นข้อมูลดังนั้นการเลือกใช้เครื่องมือในการค้นหาจะต้องเข้าใจว่าข้อมูลที่ต้องการค้นหานั้นมีลักษณะอย่างไรมีขอบข่ายกว้างขวางหรือแคบขนาดไหน แล้วจึงเลือกใช้เว็บไซต์ค้นหาที่ให้บริการตรงกับความต้องการ


ประโยชน์ของการค้นข้อมูลโดยใช้ search engine
        1. ค้นหาเว็บที่ต้องการได้สะดวก รวดเร็ว
        2. สามารถค้นหาแบบเจาะลึกได้ ไม่ว่าจะเป็น รูปภาพ, ข่าว, MP3 และอื่นๆ อีกมากมาย
        3. สามารถค้นหาจากเว็บไซต์เฉพาะทางที่มีการจัดทำไว้ เช่น download.com เว็บไซต์เกี่ยวกับข้อมูลและซอร์ฟแวร์ เป็นต้น
        4. มีความหลากหลายในการค้นหาข้อมูล
        5. รองรับการค้นหา ภาษาไทย


Search Engine ของไทย
  1. http://www.thailandtravelsearch.com
  2. http://www.sanook.com
  3. http://www.thaishop.com
  4. http://www.thaiseek.com
  5. http://www.nectec.or.th/WWW-VL-Thailand.html
  6. http://www.infothailand.com
  7. http://www.lemononline.com
  8. http://www.thailander.com
  9. http://www.hunsa.com
  10. http://www.cnet.net.th
  11. http://www.siamguru.com
  12. http://www.siaminside.com
  13. http://search.asiaco.com/Thailand
  14. http://www.bannok.com
  15. http://www.thaibuz.com
  16. http://www.thaiger.com
  17. http://www.thaifind.com
  18. http://www.chiangmai-online.com

Search Engine ที่มีผู้นิยมใช้มากที่สุดในปัจจุบัน


GOOGLE
             GOOGLE  ( www. google.com) เป็น Search Engine ที่ให้บริการค้นหาข้อมูลฟรี ๆ ที่โดดเด่นและเป็นผู้นำในเรื่องของความเร็วในการค้นหา ความถูกต้องของข้อมูล และความลึกในการค้นหาข้อมูล ผลลัพธ์ที่ได้นั้นมีให้เลือกมากมาย จนอาจจะทำให้คุณเลือกไม่ถูกว่าอันไหนคือข้อมูลที่คุณต้องการจริง ๆ  เบื้องหลังของฉากหน้าที่ดูเรียบง่าย  GOOGLE ได้มีการปรับแต่งระบบและกลไกในการค้นหา ให้มีความสามารถเพิ่มเติมมากมาย มีหลากหลายภาษา เพื่อให้รองรับกับการใช้งานตามลักษณะของแต่ละประเทศ ซึ่งสำหรับประเทศไทย จะใช้ http://www.google.co.th/
ระบบของโปรแกรม Google
            กูเกิลเก็บข้อมูลเว็บโดยการส่งโปรแกรมเก็บข้อมูลเว็บไซต์ เรียกว่า สไปเดอร์ (spider หรืออีกชื่อคือ web crawler) ซึ่งเป็นโรบอต (robot) ชนิด หนึ่ง สไปเดอร์จะถูกส่งไปตามเว็บไซต์ โดยวิ่งไปตามลิงค์ต่าง ๆ ของแต่ละเว็บไซต์ เพื่อไปยังอีกเว็บไซต์หนึ่ง และเมื่อครบระยะเวลาหนึ่ง สไปเดอร์จะทำการประมวลผล เพื่อจัดลำดับในการแสดงผลโดยใช้ระบบเฉพาะของทางกูเกิลเอง ระบบจัดอันดับความเกี่ยวข้องของเว็บเพจแต่ละหน้าของกูเกิลเรียกว่า เพจแรงก์ (PageRank) ได้จดสิทธิบัตรใน พ.ศ. 2544
หลักการทำงาน
            เว็บคราวเลอร์ ( Web Crawler) หรือที่รู้จักกันดีในชื่อ เว็บสไปเดอร์ ( Web Spider ) หรือ เว็บโรบอท ( Web Robot ) เป็นโปรแกรมที่ทำงานด้วยตัวเอง โดยจะเชื่อมต่อกับเครือข่ายอินเตอร์เน็ต เก็บข้อมูลเพื่อจุดประสงค์ใดจุดประสงค์หนึ่ง เช่น เก็บ E-mail Address ( เพื่อนำไปใช้สแปมอีเมล์ ) เว็บ คราวเลอร์ที่ใช้กันอยู่ในปัจจุบันทั่วไปและมีการวิจัยกันมากคือ ใช้ในการทำงานเกี่ยวกับระบบ เสิร์จเอนจิ้น โดยเว็บคราวเลอร์ทำหน้าที่เก็บรวบรวมข้อมูลเว็บเพจในระบบอินเตอร์เน็ต เพื่อนำมาใช้ในการทำดัชนี ทำเป็นระบบเสิร์จเอนจิ้นต่อไป
            หลักการทำงานของเว็บคราวเลอร์แบบพื้นฐานคือ การเริ่มต้นดาวน์โหลดเว็บเพจจากยูอาร์แอลเริ่มต้น หรือที่เรียกว่า Seed URLs ยู อาร์แอลเริ่มต้นอาจจะเป็นชุดของ ยูอาร์แอลหรือยูอาร์แอลเดียวก็ได้ เมื่อเว็บคราวเลอร์ดาวน์โหลดหน้าเอกสารเว็บเพจจากยูอาร์แอลที่ดาวน์โหลดมา แล้ว เว็บคราวเลอร์จะทำการวิเคราะห์ หายูอาร์แอลลิงค์ทั้งหมดในหน้าเว็บเพจนั้น เพื่อนำไปใช้ดาวน์โหลดเก็บข้อมูล ทำวนซ้ำต่อไปเรื่อยๆ


วีดีโอเกี่ยวกับ Search Engine ของ Google กับ Search Engine ของคนไทย

ไม่มีความคิดเห็น:

แสดงความคิดเห็น