Friday, June 5, 2009

ลองโค้ด IR Math

03/06/09

ก่อนหน้านี้ผมลองค้นหาวิธีการคำนวณเกี่ยวกับเรื่อง tf-idf มาพักนึง ก็ได้ link นี้มาครับ

http://sujitpal.blogspot.com/2008/09/ir-math-with-java-tf-idf-and-lsi.html


เป็นเรื่องของ Information Retrieval Math โดยใช้ java และเสนอรูปแบบวิธีการคำนวณ TF, IDF และก็ LSI ... จะว่าไปผมก็ไม่รู้เรื่องซักตัวหรอก กะว่าจะเอา code เค้ามาดูแล้วก็แก้ๆ ซักหน่อย

เค้ามี link code อยู่ที่ project on Sourceforge ครับ ... แต่ผมก็ลอง download มาลองติดตั้งดูแล้ว แต่พบหลายปัญหาเหลือเกินทำให้ติดตั้งไม่ได้

เป็นต้นว่า หลาย class อยู่ใน library ที่เค้าใช้ ทาง apache ยังไม่ได้ออก release เลย ยังคงเป็น snapshot อยู่ใน svn น่ะครับ ... เค้าใช้ Eclipse พัฒนาก็จริง แล้วดูเหมือน library ก็ link จาก svn เหมือนกัน ... ใช้ยากแฮะ ... ทีแรกก็นึกว่าจะ copy code มาวางๆ แล้วใช้งานได้ แต่ดูเหมือนท่าจะไม่ง่ายอย่างที่คิด

ผมลองจะรันโค้ดตั้งนาน ... ดูเหมือนจะตั้งแต่ห้าทุ่มของวันที่ 3 จนตี 4 ครับ ... แต่ก็ไม่สำเร็จดังต้องการซะงั้น ... ครั้งจะลองให้ทะลุเลยก็คงไม่ใช่แระ เสียเวลาโดยเปล่า ... แต่ก็ print มาอ่าน concept คร่าวๆ ไว้เหมือนกันครับ

ได้ว่า ... ในการทำ indexer ของเค้านั้นใช้ WordNet เข้ามาช่วย ... ผมก็เลยได้ idea หน่อยว่า ... เสร็จจากที่วางแผนไว้นี้จะเอา WordNet กับวิธีของเค้ามาหาคำตอบดู ดูซิว่าผมจะทำได้หรือเปล่า? :D

น่าท้าทายดีนะ ;)

No comments:

Post a Comment

ZAMACHITA - I AM ZAM