robot.txt คือไฟล์อะไร

robot.txt นั้นคืออะไร

Web Administrator หลายท่านคงสงสัย ว่าทำไม Web Server ของเราถึงมีไฟล์ robot.txt ทั้ง ๆ ที่ไม่ได้ติดตั้งมาก่อน หรือเครื่องเราโดนดีเข้าให้แล้ว หรืออย่างไร

อ่านเพิ่มเติม

Information Extraction (IE)

Information Extraction

หมายถึงกระบวนการในการสกัดสารสนเทศ ออกจากเอกสารที่เราสนใจ ตัวอย่างเช่น หากเราอ่านหนังสือพิมพ์ 1 เล่ม เราคงเลือกอ่านเฉพาะคอลัมน์ที่สนใจ และในคอลัมน์ที่เราสนใจนั้น อาจยาวมาก ซึ่งหลายท่านอาจจะอ่านเฉพาะย่อหน้า หรือจุดที่สนใจเท่านั้น ดังนั้น หากเราจะทำอย่างไรให้คอมพิวเตอร์เข้าใจและสกัดเฉพาะสารสนเทศ ที่เราสนใจ เราอาจต้องใช้เทคนิค หรือ Algorithm ที่จะทำให้คอมพิวเตอร์เข้าใจเนื้อหาข้อเอกสารข้อความ และสกัดเอาสิ่งที่เราสนใจออกมา

อ่านเพิ่มเติม

Ask.com Search Engine นอกสายตา!

ask_0.jpg
ASK.com ¿ เป็นบริการ Search Engine หนึ่งที่ได้รับความนิยมในต่างประเทศ เนื่องจากตั้งชื่อ Web ได้ค่อนข้างสื่อความหมายเป็นอยางมาก เพราะอยากรู้อะไรนะเหรอ ถามเว็บไซต์ ASK (เหมือนถามคำถามยังเว็บบราวเซอร์ อย่างไรอย่างนั้น) ซึ่งหากนับตำแหน่งในตลาด Search Engine นั้น ถูกจัดอยู่ในอันดับที่ 4 เป็นรอง จาก Google Yahoo และ MSN Search เท่านั้น เราลองมาเปิดใจดูหน่อย ว่า Search Engine ที่ชื่อ ASK.com มีดีอะไร และมีข้อแตกต่างอย่างไรเมื่อเทียบกับ Search Engine อัีนดับหนึ่งอย่าง Google ไม่แน่ คีย์เวริ์ด บางคำที่เราค้นหา อาจค้นหาไม่พบหรือไม่ตรงใจจากการ Search จาก Google แต่อาจพบใน ASK.com ก็เป็นไปได้ ….

อ่านเพิ่มเติม

สร้าง Search Engine กัน

Search Engine

ir_0.jpg

หลายท่านคงเคยได้ยิน และได้ใช้กันอยู่เป็นประจำในการค้นหาข้อมูลผ่านอินเทอร์เน็ต โดยหลายท่านรู้จัก Google , Yahoo หรือ Ask.com เป็นต้น แต่มันทำงานอย่างไร ทำไม Search Engine ถึงได้ค้นหาตรงใจ ค้นปุ๊ป เจอปั๊ป เพื่อเป็นการเข้าใจหลักการทำงานของ Search Engine เลยจำเป็นต้องพัฒนาขึ้นมาเอง เพื่อให้เข้าใจทุกขั้นตอน และ Pan & James Search (เหตุผลที่เลือก ชื่อ Search Enging นี้ เพราะช่วงนั้น คุณปัง กับคุณเจมส์ กำลัง Hot ครับ) ที่ผมและกลุ่ม ได้พัฒนาขึ้นมาเพื่อเป็น Project ขอบวิชา Information Retrival (IR) ตอนที่ได้ศึกษาอยู่ครับ …

อ่านเพิ่มเติม

n-Gram

n-Gram

บทความเขียนสมัยยังศึกษา ซึ่งเป็นหนึ่งในหลายๆ เทคนิคย่อยของ Search Engine เพื่อทำให้ทราบว่า คอมพิวเตอร์สามารถรู้ได้อย่างไร หากมีประโยคหนึ่งประโยค สามารถตัดคำได้อย่างไร ในหลายๆ เช่น ภาษาอังกฤษ , สเปน หรือภาษาอื่น ๆ ยิ่งหากเป็นภาษาไทย ภาษาเราไม่ได้แบ่งคำโดยใช้การเว้นวรรค (Space) การตัดคำจึงเป็นเรื่องที่ยากกว่าภาษาอังกฤษ ที่ใช้การเว้นวรรค ในการแบ่งคำ เพราะฉะนั้น n-Gram สามารถเข้ามาช่วยเสริมการตัดคำได้ แต่หากให้ได้ผลดี ควรมีคลังข้อมูลของคำขนาดใหญ่ (Corpus) เพื่อช่วยทำการจัดหมวดหมุ่ และความคล้ายคลึงเชิงมุม เพื่อหาว่าคำต่อไปควรเป็นคำว่าอะไร ต่อไป ถึงจะได้ประสิทธิภาพมากที่สุด

อ่านเพิ่มเติม