ENGLISH  |   聯絡我們  |   中央研究院
首頁 簡介 徵求授權對象 制式契約 研發人員專頁 相關網站 育成暨萌芽中心 聯絡我們
  首頁 -> 徵求授權對象 列印本頁 網站更新日期: 
語意分析暨文件分類技術

本院覽號:05T-1010224

創作人:何建明等

智財權:專門技術

摘要:

傳統分類方法通常利用字典比對、自然語言剖析、詞頻統計等方式取出關鍵字作為文件的特徵值,作為分類演算法的前處理。我們所發展的分類演算法則進一步納入時間因素與流行語等概念。
這項新的技術定期運用RSS機制,由特定來源網站匯入即時文章,再以自然語言擷取等傳統擷取文件特徵值的方式檢出語意關鍵詞,並統計分析其發生頻率與生命週期。同時,我們所發展的自我學習機制所訓練出的處理核心,已能有效處理時下部落格常用的口語用詞及熱門關鍵詞,例如:林來瘋、iphone4S等;亦能有效處理新聞媒體等網站使用的專業用詞。
我們利用pixnet公司收集的大量的部落格等網路文章測試,證實本演算法呈現令人滿意的分類準確率。

可能的應用範圍:

可用於網路文件自動分類

此項發明的優點:

本文件分類演算法具有自我學習機制,可定期自網路上提供RSS之來源網站匯入即時文章並自我訓練,此訓練出的核心將能有效處理 時下部落格、口語用詞及熱門關鍵詞,例如:林來瘋、iphone4S。至於一般新聞等標準用字、用詞,也已經內含。所以,本演算法在分類準確率上,能有效處理含有口語用詞、熱門議題之文章。更適合,部落格等文章。

另一優點為效率,因本分類演算法在設計之時,已對效率做一處理,不同以往使用機器學習之分類演算法,需要較多時間於訓練及測試階段。本演算法已經過測試,達到每小時能處理超過10,000篇文章之效能。

智財技轉處聯絡人:翁嘉煌 chweng@gate.sinica.edu.tw 02-27872509

95年度中央研究院最佳網站
資訊科學研究所
中文新聞語料庫
InfoMap知識管理及推理系統
生醫文獻相關之語意庫
準則式語言模型
中研院台語語音資料庫(twASIS2017)
雲端字體服務系統
增進手寫輸入效率之方法
讀者喜好文章深度偵測技術
中文剖析系統
Micro Air Pollution Sensing System (MAPS)
中文知識表達系統-廣義知網
補助審查專案管理系統
臺北歷史地圖散步
國際電腦漢字及異體字知識庫
Bounty Workers - 線上微型案件媒合平台
次世代定序線上分析平台1.0版
中文詞知識庫
中文分詞語料庫
快速全域最佳樣板比對演算法
用於自然語言事件辨識的方法跟電腦程式產品
個人化的網頁瀏覽系統
自半結構化主文中摘取資料之系統及方法
結合即時視訊與螢幕展示的同步遠距教學系統
數位化浮水印
電腦系統主要圖框處理裝置
視訊資料之編碼與解碼
XML文件編輯器
資料庫檢索方法與系統
行動網路代理器
可容忍幾何處理的數位影像赫序方法與系統
供多人共同操作單一電腦螢幕之主動是操作控制權轉移裝置及方法
非對稱數位影像浮水印技術
檢索輸入法
基於中文字型架構之反向人機辨識碼之辨識方法
建立迴路電力資訊模型之方法
電腦輔助影像故事創作系統
影像放大方法
高速列車用移動路由器系統及其無縫換手控制方法
基於高斯多項組合模型之音樂標籤自動標記技術
基於同質段落偵測與分類器集成之音樂標籤自動標記技術
使用LIBOR Market Model與Proportional Hazard Model的雙因子Monte Carlo評價法
客製化並納入專家觀點的投資組合建議模組
金融商品評價模組
中文句結構樹資料庫
語意分析暨文件分類技術
「應用群體運算之位置感知服務平台」(PLASH)
SQLMR 雲端資料庫管理系統
紀錄片穩定化技術
視訊監控系統
ASQA 中研院開放式中文問答系統
資料隱私保護軟體 Cellsecu
數位典藏影音資料庫
中文電腦缺字解決方案(漢字構形資料庫)
具有新詞辨識能力的中文斷詞系統
漢語平衡語料庫
線上會議註冊管理系統
多媒體及文件辨識、檢索與管理系統
多媒體及文件辨識、檢索與管理系統

  智財技轉處  Copyright © 2005 智財技轉處 版權所有
  11529 台北市南港區研究院路二段128號  |  電話:+886-2-2787-2554  |  傳真:+886-2-2651-8049  |