發表文章

目前顯示的是 3月, 2015的文章

[IR] Ch3 Modeling

圖片
Reference : Introduction to Information Retrieval Ch1 Unstructured data in 1650: 例如在沙士比亞的所有劇本當中,如何找包含有 BRUTUS 跟 CASER 但不包含 CALPURNIA 的劇本 GAIS: 吳昇老師 http://zh.wikipedia.org/wiki/%E5%90%B3%E6%98%87 MapReduce http://research.google.com/archive/mapreduce-osdi04-slides/index.html NoSQL : not only SQL inverted index : 常出現在書本的最後面,單詞索引,觀察發現,很多科普的書都會有,文學類的書沒有 why ? http://zh.wikipedia.org/wiki/%E5%80%92%E6%8E%92%E7%B4%A2%E5%BC%95 http://myir-note.blogspot.tw/2012/11/inverted-index.html 其實 occurrence 只是 inverted index 的其中一種 試想金庸小說,如何跟你講這個次見要在哪邊查得到? 章回小說的,第幾回第幾回的意義為何? --> 場景! 每一回就像是一個場景,第幾回就是在第幾個場景裡面 這跟Java課本裡面的Chapter是完全不一樣的 Boolean queries: 把要找的data轉會成兩個set之間的搜尋就可以把問題變成boolean query Hash Table 是Boolean Queries 目前最好的解法 Modeling in IR is a complex process aimed at producing a ranking function Ranking function: a function that assigns scores to documents with regard to a given query IR systems usually adopt index terms to index and retrieve documents 更g

[IR] Ch2 User Interfaces for Search

圖片
使用者搜尋的種類 lookup task  單純查找任務,找已知存在的東西,例如:搜尋yahho首頁的動作 Exploratory search  is divided into learning and investigating tasks 第一種: Learning 例如遇到bug,先把error message丟上去,再從找到的東西去加以整理 進一步找答案 第二種: 調查型 investigating tasks Investigating refers to a longer-term process 每一天都在查,例如還沒去旅行前先查機票,查行程 每天都在查,更新資訊等等 可以會有一點點脫離原本的範圍去查 例如找一篇paper,又去調查其他相關的技術 如果用在圖書館裡面: lookup : 找特定書 learning : 找這個主題相關的書 Investigation : 找這個圖書館裡這個作者的書有哪些 Sensemaking  is an iterative process of formulating a conceptual representation from a large collection : 針對query找一個好的表達法,例如你要找雅婷,但是世界上的雅婷有幾千人,此時就需要更進一步給明確的資訊 Classic notion of the information seeking process: 1. problem identification 2. articulation of information need(s) 3. query formulation 4. results evaluation 面對重複性多的情況,會希望避免redundency "Navigation: the searcher looks at an information structure and browses among the available information" 使用者在搜尋時,先得到一個資訊結構,再從結構中找尋想要的資訊 "This

[IR] Ch1 Introduction

圖片
搜尋涵蓋哪些範疇? User, keyword, Data set, Search Catagory 搜尋的過程怎樣叫做完成? 找到什麼東西 告訴使用者有或沒有找到東西 什麼是IR? ( Information Retrieval ) boolean, search 課本說: "IR deals with the representation, storage, organization of, and access to information items" Information representation 在現實生活中不是個問題,但是在IR的討論中就是個問題 "Type of information items: document, Web pages, online catalogs, structured records, multimedia objects" 投影片第五頁提及 "In 1962, Cyril Cleverdon published the Cranfield studies on retrieval evaluation" 問:需要Evaluation些什麼? 1. 速度 2. 相關性質 3. 內容量 4. 找到要的 5. 排序 6. 正確性 7. 完整性 以上是全班同學們的答案 but ~ 該如何去思考Evaluation? 用"系統"的觀點來看 什麼叫系統? 包含: 輸入, 輸出, 中間的邏輯 用 search 的系統來想,(假設任何的資訊系統是個人,要給他什麼) input 是什麼? 想要的東西 --> 更精確來說是 information need 資訊需求 Output 是什麼? 想要的東西 --> Result 理想狀況下,會跟資訊需求完全吻合 需要Evaluate什麼? 請問一部車要怎麼判斷好與壞? -> 要跟其他部車比  如果是第一部車呢? 跟沒有車的時代比 一個資訊系統要比什麼? -> 跟人工比 即使是兩個人互相比,還是可以挑惕 -> 跟"想要的"比較 這裡

[IR] 資訊檢索 ch0

圖片
上課課本: http://www.mir2ed.org/ ch 1 ~ 9 一定要看 投影片可以在上面載 上面也有介紹一些 open source 的 tool Slides for Teaching 1 Introduction  (PDF)  (34 slides)  2 User Interfaces for Search  (PDF)  (87 slides)  3 Modeling  (PDF)  (263 slides)  4 Retrieval Evaluation  (PDF)  (144 slides)  5 Relevance Feedback and Query Expansion  (PDF)  (104 slides)  6 Documents: Languages & Properties  (PDF)  (147 slides)  7 Queries: Languages & Properties  (PDF)  (67 slides)  8 Text Classification  (PDF)  (157 slides)  9 Indexing and Searching  (PDF)  (153 slides)  10 Parallel and Distributed IR  (PDF)  (138 slides)  11 Web Retrieval  (PDF)  (163 slides)  12 Web Crawling  (PDF)  (91 slides)  13 Structured Text Retrieval (with Mounia Lalmas)  (PDF)  (135 slides)  14 Multimedia Information Retrieval  (PDF)  (164 slides)  15 Enterprise Search  (PDF)  (128 slides) 16 Library Systems  (PDF)  (35 slides) 17 Digital Libraries  (PDF)  (58 slides) A Open Source Search Engines  (PDF