ENGLISH  |   聯絡我們  |   中央研究院
首頁 簡介 徵求授權對象 制式契約 研發人員專頁 相關網站 育成暨萌芽中心 聯絡我們
  首頁 -> 徵求授權對象 列印本頁 網站更新日期: 
自半結構化主文中摘取資料之系統及方法

本院覽號:05A-880527

創作人:許鈞南

智財權:獲證專利 TW145175

摘要:

本發明乃一種自一半結構化文字序列內摘取具有某些屬性的文字序列子集之資訊摘取程式。

資訊擷取系統的重要性在於其能將電子檔文件轉換成易於儲存、檢索與分析的結構化資料。但是以現有的技術,必須針對不同的應用領域,靠熟練的電腦程式設計師來設計這些系統。這樣的方法很難及時地處理每天快速增加的電子文件。本發明的目的即在於將資訊擷取系統的產生予以自動化,特別是以表格、表單、編號清單、或以條列項目呈現的資料電子文件。我們把這類文件歸類為『結構化』文件。在這類文件中,資料內容皆具規律性的格式,因此我們可以利用人工智慧的機器學習的技術讓系統自動學習這些規律性,並自動產生資料擷取系統。

可能的應用範圍:

★網路資料探勘
★網路資訊蒐集
★學術論文引用次數分析

此項發明的優點:

我們已經把所發明的方法製作成一套完整的系統,包括三項元件:
1.標示元件:針對一批電子檔文件,標示元件提供使用者一套圖形使用者介面,讓使用者能很容易地標示在文件中需要被擷取的字串,以及這些字串的含意。使用者只需標示文件的一小部分,不需要對整篇文件做標示。
2.自動學習元件:自動學習元件以使用者標示好的文件為範例,自動學習文件資料格式的規律性,並將學習的結果轉化為『狀態轉移規則』。
3.資料擷取元件:這個元件模擬計算理論中所謂的『有限狀態轉譯器』來擷取文件中的資料。自動學習元件產生狀態轉移規則後便儲存起來。之後,當有需要時,使用者便可以利用資料擷取元件,把狀態轉移規則交給有限狀態轉譯器來擷取文件中的資料。一套學習好的規則,可以用來擷取任何格式相同的電子檔文件資料。

智財技轉處聯絡人:翁嘉煌 chweng@gate.sinica.edu.tw 02-27872509

95年度中央研究院最佳網站
資訊科學研究所
手寫字形平台
Kart-長短序列的快速比對法
基於建築物資訊的室內定位系統
資訊萃取之統計模式生成
應用於電子聽診器的疾病診斷方法
中文新聞語料庫
InfoMap知識管理及推理系統
生醫文獻相關之語意庫
準則式語言模型
中研院台語語音資料庫(twASIS2017)
雲端字體服務系統
增進手寫輸入效率之方法
讀者喜好文章深度偵測技術
中文剖析系統
Micro Air Pollution Sensing System (MAPS)
中文知識表達系統-廣義知網
補助審查專案管理系統
臺北歷史地圖散步
國際電腦漢字及異體字知識庫
Bounty Workers - 線上微型案件媒合平台
次世代定序線上分析平台1.0版
中文詞知識庫
中文分詞語料庫
用於自然語言事件辨識的方法跟電腦程式產品
個人化的網頁瀏覽系統
自半結構化主文中摘取資料之系統及方法
結合即時視訊與螢幕展示的同步遠距教學系統
電腦系統主要圖框處理裝置
資料庫檢索方法與系統
行動網路代理器
可容忍幾何處理的數位影像赫序方法與系統
供多人共同操作單一電腦螢幕之主動是操作控制權轉移裝置及方法
非對稱數位影像浮水印技術
檢索輸入法
基於中文字型架構之反向人機辨識碼之辨識方法
建立迴路電力資訊模型之方法
電腦輔助影像故事創作系統
影像放大方法
高速列車用移動路由器系統及其無縫換手控制方法
基於高斯多項組合模型之音樂標籤自動標記技術
基於同質段落偵測與分類器集成之音樂標籤自動標記技術
使用LIBOR Market Model與Proportional Hazard Model的雙因子Monte Carlo評價法
客製化並納入專家觀點的投資組合建議模組
金融商品評價模組
中文句結構樹資料庫
語意分析暨文件分類技術
「應用群體運算之位置感知服務平台」(PLASH)
SQLMR 雲端資料庫管理系統
紀錄片穩定化技術
視訊監控系統
ASQA 中研院開放式中文問答系統
資料隱私保護軟體 Cellsecu
數位典藏影音資料庫
中文電腦缺字解決方案(漢字構形資料庫)
具有新詞辨識能力的中文斷詞系統
漢語平衡語料庫
線上會議註冊管理系統
多媒體及文件辨識、檢索與管理系統
多媒體及文件辨識、檢索與管理系統

  智財技轉處  Copyright © 2005 智財技轉處 版權所有
  11529 台北市南港區研究院路二段128號  |  電話:+886-2-2787-2554  |  傳真:+886-2-2651-8049  |