[IR] Ch1 Introduction

搜尋涵蓋哪些範疇?
User, keyword, Data set, Search Catagory
搜尋的過程怎樣叫做完成?
找到什麼東西
告訴使用者有或沒有找到東西

什麼是IR? ( Information Retrieval )
boolean, search
課本說:
"IR deals with the representation, storage, organization

of, and access to information items"

Information representation 在現實生活中不是個問題,但是在IR的討論中就是個問題
"Type of information items: document, Web pages, online catalogs, structured records, multimedia objects"

投影片第五頁提及
"In 1962, Cyril Cleverdon published the Cranfield studies

on retrieval evaluation"

問:需要Evaluation些什麼?
1. 速度 2. 相關性質 3. 內容量 4. 找到要的 5. 排序 6. 正確性 7. 完整性
以上是全班同學們的答案
but ~

該如何去思考Evaluation?
用"系統"的觀點來看
什麼叫系統?
包含: 輸入, 輸出, 中間的邏輯
用 search 的系統來想,(假設任何的資訊系統是個人,要給他什麼)
input 是什麼?
想要的東西 --> 更精確來說是 information need 資訊需求
Output 是什麼?
想要的東西 --> Result 理想狀況下,會跟資訊需求完全吻合
需要Evaluate什麼?
請問一部車要怎麼判斷好與壞? -> 要跟其他部車比 
如果是第一部車呢? 跟沒有車的時代比
一個資訊系統要比什麼? -> 跟人工比
即使是兩個人互相比,還是可以挑惕 -> 跟"想要的"比較

這裡的 I.N.是使用者心中想要的,轉換成給系統的 Input 
中間過程中會有lost,
而 Result 則是系統資料庫當中符合使用者想要的
Output則是系統實際丟出來的結果
所以Result 與Output之間的差異也是檢索系統的評估項目

Contingency Table:
 在Result裡, 不在Result裡, 在Output中, 不在Output中

Recall (Information Retrieval 領域)

投影片第8頁
"Until recently, IR was an area of interest restricted
mainly to librarians and information experts"

Information Expert 的目標是可以 Organize Information

對於Term的敏感度來自Definition

抽象化的I.N.轉換成可操作的Input

科學跟哲學之間的最大不同點在於:
科學除了可以思考之外,還要可操作!

"A single fact changed these perceptions—the
introduction of the Web, which has become the largest
repository of knowledge in human history"
Web 使得每個人不管是不是圖書館員或Information Expert
都會遭遇到IR的問題。
所有在Web上的使用者都被迫會遭遇到 IR 的問題。

"Due to its enormous size, finding useful information on
the Web usually requires running a search"

閱讀一本書的過程中,學習的過程中,腦中都要有一個Model
藉由學習與閱讀,是不斷地修正腦中的Model

The IR Problem
把 Information Need 轉換
"Given the user query, the key goal of the IR system is to
retrieve information that is useful or relevant to the user"

"The key goal of an IR system is to retrieve all the
items that are relevant to a user query, while
retrieving as few nonrelevant items as possible"
"The notion of relevance is of central importance in IR"

生活中常用到的 Partial matching 
Partial 涵蓋到的多寡涉及到 relevance 關聯性
relevance 是 IR 的核心

User's Task
把 I.N. 轉成 query 
知道Result set是什麼 -->
searching or querying

user 有時可能自己也不是很清楚自己的需求,
透過browsing or navigating慢慢找

Information v.s. Data Retrieval
Data Retrieval 在找有沒有,例如 Relational Database 裡面的資料擷取

"Data retrieval: the task of determining which documents
of a collection contain the keywords in the user query"

"Data retrieval does not solve the problem of retrieving
information about a subject or topic"

The IR System
User query 與 System query 的差別:是否被control->user query沒有被control
User query 透過 query parsing & expansion 轉換成 system query
這是一個從沒有control到有control的範疇所進行的處理

問有被Control跟沒被Control的差異在哪?
Control 之下的是 Limited Choice
例如遊戲,藉由所提供的操作介面,給user有限制的控制,像是主角只能往前走,不能翻轉等。
這個動作在傳統的圖書館裡,可想像成去採購書籍
Crawling process也包含了組織內部的資源交換
這個動作則是將買來的書籍加以分類,記錄在卡片上 Indexing
Indexing這個動作的議題,如何快速縮小搜尋的範圍
如何把這些東西拆成Keyword
Indexing : 基於搜尋本身,為了快速找到的需求,所建立的關鍵詞,將資料減少,算是一種類型的壓縮

問題:RDB (關聯式資料庫)在這張圖上的對應?
User query: 下SQL
query parsing & expansion: relational algebra

RDB內有: data definition language 與 data manipulation language (Insert delete update)

這個步驟的細節如下圖



Boolean Retrieval 的概念是matching


指定閱讀:下次上課前先看完第二章
課本:Modern Information Retrieval



留言

這個網誌中的熱門文章

[筆記] CRLF跟LF之區別 --- 隱形的 bug

[ML筆記] Batch Normalization

[筆記] 統計實習(1) SAS 基礎用法 (匯入資料並另存SAS新檔,SUBSTR,計算總和與平均,BMI)

[ML筆記] Ensemble - Bagging, Boosting & Stacking