[IR] Ch3 Modeling
Reference : Introduction to Information Retrieval Ch1 Unstructured data in 1650: 例如在沙士比亞的所有劇本當中,如何找包含有 BRUTUS 跟 CASER 但不包含 CALPURNIA 的劇本 GAIS: 吳昇老師 http://zh.wikipedia.org/wiki/%E5%90%B3%E6%98%87 MapReduce http://research.google.com/archive/mapreduce-osdi04-slides/index.html NoSQL : not only SQL inverted index : 常出現在書本的最後面,單詞索引,觀察發現,很多科普的書都會有,文學類的書沒有 why ? http://zh.wikipedia.org/wiki/%E5%80%92%E6%8E%92%E7%B4%A2%E5%BC%95 http://myir-note.blogspot.tw/2012/11/inverted-index.html 其實 occurrence 只是 inverted index 的其中一種 試想金庸小說,如何跟你講這個次見要在哪邊查得到? 章回小說的,第幾回第幾回的意義為何? --> 場景! 每一回就像是一個場景,第幾回就是在第幾個場景裡面 這跟Java課本裡面的Chapter是完全不一樣的 Boolean queries: 把要找的data轉會成兩個set之間的搜尋就可以把問題變成boolean query Hash Table 是Boolean Queries 目前最好的解法 Modeling in IR is a complex process aimed at producing a ranking function Ranking function: a function that assigns scores to documents with regard to a given query IR systems usually adopt index terms to index and retrieve documents 更g