摘 要
為了貫徹落實中央十九大報告中指出的“加快推動互聯網、大數據、人工智能和實體經濟深度融合”,以及習近平總書記在中共中央政治局第二十五次集體學習時強調的“要完善大數據、人工智能、基因技術等新領域新業態專利審查標準”等要求,國家知識產權局在2021年8月3號對外發布的《專利審查指南修改草案(征求意見稿)》中,對于大數據、人工智能等領域的發明的專利客體、創造性判斷等問題,進一步明確了審查標準。雖然,目前專利審查指南的更新版本還未生效,但知識產權從業人員可從中窺見最新審查政策的導向。因此,基于目前專利審查指南的修訂內容,結合多個典型案例,文章深入探討了涉及AI算法本身改進的案例撰寫方法,以期兼顧此類專利申請的客體問題以及權利要求保護范圍問題之間的平衡。
關鍵詞:AI算法專利;基礎層創新;技術層創新;客體;權利要求保護范圍
>>> 一、引 言
近幾年,人工智能技術的發展勢頭迅猛,許多創新主體的創新方向已經從原來的應用層創新逐漸過渡到AI技術的底層算法本身的創新。各大創新主體對涉及AI算法類發明專利的保護需求也越來越強烈,尤其是對涉及機器學習的算法本身改進的發明專利申請的保護需求最為突出。
2020年2月1號施行的專利審查指南[1],雖在相關規定中給出了包含算法特征和方法特征的案件的客體審查基準,但創新主體對于而今的涉及AI算法本身創新的專利申請的客體審查判斷仍然存在一定的困難。例如,現行的審查指南中僅明確規定了“對一項包含算法特征和方法特征的權利要求是否技術方案進行審查時,需要整體考慮權利要求中記載的全部特征。如果該項權利要求記載了對要解決的技術問題采用了利用自然規律的技術手段,并由此獲得符合自然規律的技術效果,則該權利要求限定的解決方案屬于專利法第二條第二款所述的技術方案。例如,權利要求中涉及算法的各個步驟體現出與所要解決的技術問題密切相關,如算法處理的數據是技術領域中具有確切技術含義的數據,算法的執行直接體現出利用自然規律解決某一技術問題的過程,并且獲得了技術效果,則通過該權利要求限定的解決方案屬于A2.2所述的技術方案[2]”。由此不難看出,現行的審查指南對于算法類專利申請案具有明確的規定,即算法類案件中涉及到的數據必須是技術領域中具有確切技術含義的數據,即規定了算法類案件要想通過客體審查的關口必須要與技術領域相結合,這無疑限縮了算法類案件的保護范圍。
從各大創新主體的需求來看,未來的AI領域創新可能很大程度上傾向于算法本身的創新,例如:數學模型、參數優化上的創新,此類創新既可應用于A領域,也可應用于B領域,這在未來技術創新的道路上并不排除AI算法成為一種通用的工具,且無具體領域的限定。正如,現在被大家日常所用的計算機,在很多年以前也是技術的,以此類比到而今的AI算法專利——雖然技術性很強,但也難保在很多年后可能被人類作為通用工具,其并不局限在某一個領域??紤]到社會創新未來的發展,并且基于各大創新主體涉及AI算法專利的創新保護需求,國家知識產權局圍繞人工智能和大數據領域也在嘗試補充現有規定未涉及的客體審查基準,以期和公眾一起探討未結合具體技術領域的人工智能算法改進方案如何構成專利保護的客體,從而嘗試給涉及AI算法本身改進的案件一條通過客體審查的出路,與此同時,也兼顧了此類案件的保護范圍。
基于該初衷,國家知識產權局2021年8月3日公布的《專利審查指南修改草案(征求意見稿)》中,于第二部分第九章6.1.2節補充了有關人工智能算法的改進方案的審查基準,具體為“如果權利要求的解決方案涉及深度學習、分類聚類等人工智能、大數據算法的改進,該算法與計算機系統的內部結構存在特定技術關聯,能夠解決如何提升硬件運算效率或執行效果的技術問題,包括減少數據存儲量、減少數據傳輸量、提高硬件處理速度等,從而獲得符合自然規律的計算機系統內部性能改進的技術效果,則該權利要求限定的解決方案屬于專利法第二條第二款所述的技術方案”。
上述內容實際上釋放出了三層審查基準:
(1)審查權利要求中的解決方案是否涉及深度學習、分類聚類等人工智能、大數據的算法
(2)審查該算法是否與計算機系統的內部結構有特定技術關聯
(3)審查該算法所帶來的技術效果是否能夠帶來計算機內部性能的改進
若以上三層審查基準都滿足,則權利要求中的解決方案即使沒有明確規定應用領域,也符合A2.2規定的技術方案。
故而,基于對本次征求意見稿中審查指南補充的新的審查基準的理解,筆者同步結合以下幾個典型案例,詳細為大家剖析國家知識產權局對于AI算法類案件的審查方向的變化。
>>> 二、以下專利申請案為何能順利通過A2.2的客體審查?
首先,我們需明確AI算法類案件的創新包括哪些類型;談及此處,則需了解AI技術的技術架構。
AI技術架構從上到下,分為AI應用層和AI底層算法,而AI底層算法包括AI基礎層算法和AI的技術層算法。這三個層在各大創新主體的研發過程中經常會涉及到創新的技術點。
何為AI“應用層”創新?
此類創新是AI技術與各種應用場景的結合。
AI應用層是人工智能產業的延伸,集成一類或多類人工智能基礎應用技術,面向特定應用場景需求而形成軟硬件產品或解決方案。
例如,我們經??吹降闹悄荞{駛、智能金融、智能醫療或者機器人等,都是常見的AI技術在應用場景上的創新。
何為AI“底層算法”創新?
實際上此類創新包含AI基礎層的創新以及AI技術層的創新。
AI基礎層主要包含基礎硬件設施、算力平臺、數據資源等,其聚焦的是計算能力和數據資源,為人工智能提供數據及算力支撐;
AI技術層聚焦在算法和模型上,主要包括操作系統、模型框架以及神經網絡、深度學習、遺傳算法等模型構建或者模型訓練算法的創新。
針對AI底層算法類創新的案件,實際上無論是基礎層的創新還是技術層的創新,過去幾年中行業內處理此類案件常見的做法是將其算法創新與具體的技術領域相結合,以滿足客體審查基準;但隨著中央十九大報告的出臺以及針對AI案件國家知識產權局一系列利好的修訂內容,部分企業做了新的撰寫嘗試,并且取得了較好的結果。
接下來,筆者詳細將分析此類案例,其中,案例一至案例三涉及的是AI技術層的創新專利,案例四和案例五涉及的是AI基礎層的創新專利。
案例一
背景技術:
自訓練方法是一種利用神經網絡模型自身的學習結果對模型進行迭代訓練的方法。傳統的自訓練方法通常需要對樣本數據D進行數據增廣,得到數據D';使用神經網絡模型對數據D'進行預測,得到數據D'中各數據的輸出結果;合并數據D與數據D',繼續訓練神經網絡模型。直到達到終止條件。對于傳統的自訓練方法來說,神經網絡模型的每一次訓練,均需要執行數據增廣與使用神經網絡模型對增廣數據進行預測的步驟,因此神經網絡模型在進行自訓練時所需的時間成本較高,步驟較為繁瑣。
權利要求1 如下:
1.一種自訓練方法,包括:
獲取訓練數據,所述訓練數據中包含多個訓練樣本與各訓練樣本對應的標簽;
使用訓練數據對神經網絡模型進行預設次數的訓練,并將各次訓練過程中使用的訓練樣本及其對應的輸出結果作為緩存數據,記錄到緩存中;
在訓練次數超過預設次數之后,使用訓練數據與緩存中的緩存數據對所述神經網絡模型進行訓練,并將各次訓練過程中使用的訓練樣本及其對應的輸出結果作為緩存數據,記錄到緩存中;
在確定所述神經網絡模型的訓練達到終止條件的情況下,完成所述神經網絡模型的自訓練;
其中,所述將各次訓練過程中使用的訓練樣本及其對應的輸出結果作為緩存數據,記錄到緩存中包括:
針對緩存數據中的同一個訓練樣本,使用本次訓練過程中得到的輸出結果替換前次訓練過程中得到的輸出結果。
【案例一】分析如下:
獨立權利要求中的解決方案主要是通過采用創建緩存,將神經網絡模型在各次訓練過程中使用的訓練樣本及其對應的輸出結果作為緩存數據進行記錄的技術手段,克服現有技術中在每次訓練過程中需要對數據進行增廣以及對增廣數據進行預測所導致的時間成本較高、步驟較為繁瑣的技術問題,實現了減少對神經網絡模型進行自訓練時需要的時間成本,提升了對神經網絡模型進行自訓練的效率的技術效果。該方案涉及神經網絡模型,雖然對涉及到的訓練數據并沒有具體的應用領域的限定,但是訓練過程中涉及到創建緩存并記錄數據,該過程與計算機系統的內部結果存在特定的技術關聯,且整體的訓練過程降低了計算機在訓練模型時的自訓練時間成本,從而達到提升神經網絡模型的自訓練效率這一符合自然規律的涉及計算機系統內部性能改進的技術效果。
故而,此案在審查過程中通過了客體的審查關口,并且最終得到授權。
案例二
背景技術:
當固定采用某一種模型訓練方案,會使得處理器的資源不能很好的被調用,從而使得計算機的運行效率比較低。
權利要求1 如下:
1.一種訓練方法,包括:
當訓練數據的大小發生改變時,針對改變后的訓練數據,分別計算所述改變后的訓練數據在預設的至少兩個候選訓練方案中的訓練耗時;
從預設的至少兩個候選訓練方案中選取訓練耗時最小的訓練方案作為所述改變后的訓練數據的最佳訓練方案;所述至少兩個候選訓練方案包括至少一個單處理器方案,至少一個基于數據并行的多處理器方案;
將所述改變后的訓練數據在所述最佳訓練方案中進行模型訓練。
【案例二】分析如下:
獨立權利要求中的解決方案主要是在訓練數據大小發生變化時,通過計算采用變化后的訓練數據在至少兩個訓練方案中的訓練耗時來選擇最佳訓練方案,并將改變后的訓練數據在最佳訓練方案中進行模型訓練,其中,最佳訓練方案包括單處理器方案以及多處理器方案。整個步驟整體上是圍繞當數據發生變化,如何對單、多處理器方案進行更好的調度,使得計算機的運行效率更高。該方案涉及到模型訓練,雖然對涉及到的訓練數據并沒有具體的應用領域的限定,但是訓練過程中涉及到根據訓練耗時控制對單處理器訓練方案、多處理器訓練方案進行更好的調度,該過程與計算機系統的內部結構存在特定的技術關聯,且整體的訓練過程降低了計算機在訓練模型時的耗時,從而達到提升計算機的運行效率這一符合自然規律的涉及計算機系統內部性能改進的技術效果。
故而,此案在審查過程中通過了客體的審查關口,并且最終得到授權。
案例三
背景技術:
在實際應用中,經常需要檢測業務數據是否為異常數據。為此可以訓練模型,進而可以通過訓練的模型檢測業務數據是否為異常數據。因此,如何提高模型的訓練效果是當前亟需解決的技術問題。
權利要求1 如下:
1.一種模型訓練方法,包括:
獲取訓練樣本集,所述訓練樣本集包括無標簽樣本集和有標簽樣本集,所述無標簽樣本集包括多個第一樣本,所述有標簽樣本集包括多個第二樣本和類型標簽,所述類型標簽用于表示所述有標簽樣本集中是否包含異常的第二樣本;
根據所述無標簽樣本集,對第一模型進行訓練,所述第一模型包括特征提取子模型;
根據所述有標簽樣本集和特征提取子模型的訓練結果,對第二模型進行訓練,所述第二模型包括特征提取子模型和異常數據檢測子模型,所述異常數據檢測子模型用于根據特征提取子模型的輸出檢測異常數據。
【案例三】分析如下:
獨立權利要求的解決方案主要是通過無標簽樣本集對第一模型進行訓練,可以實現對第二模型的部分模型參數進行無監督的預訓練,進而通過有標簽樣本集實現對第二模型的模型參數進行有監督的再次訓練。這樣便于利用大量的無標簽樣本,并結合相對少量的有標簽樣本,實現對第二模型的模型參數進行訓練,有利于提高第二模型的訓練效果。整個解決方案中涉及模型訓練上的改進,屬于涉及人工智能領域的算法改進,雖然對涉及到的無標簽樣本和有標簽樣本以及模型并沒有具體技術領域的限定,但是從實質分析來看其通過這樣的訓練方式的改進,提高了計算機訓練第二模型的訓練效果,能夠解決計算機提升執行效果的技術問題,從而使得計算機系統內部性能得到了改進。
故而,此案在審查過程中通過了客體的審查關口,并且最終得到授權。
案例四
背景技術:
目前在機器學習的過程中,對訓練樣本數據的需求量巨大,并且需要對大量的訓練樣本數據進行標注,傳統技術中通常需要人工對大量的訓練樣本數據進行標注,使得標注工作過分依賴于人,并且工作量巨大,標注的效率較低。
公開版本的權利要求1 如下:
1.一種數據標注的方法,其特征在于,所述方法包括:
通過預先訓練的目標標注模型對多個待標注數據進行標注,得到由所述待標注數據對應的標注結果構成的目標集合;
利用預先訓練的目標分類器選取所述待標注數據中的非可信數據,以驗證所述非可信數據對應的標注結果;
更正所述目標集合中未通過驗證的非可信數據所對應的標注結果。
授權版本的權利要求1 如下:
1.一種數據標注的方法,其特征在于,所述方法包括:
通過預先訓練的目標標注模型對多個待標注數據進行標注,得到由所述待標注數據對應的標注結果構成的目標集合;
利用預先訓練的目標分類器選取所述待標注數據中的非可信數據,以驗證所述非可信數據對應的標注結果;
更正所述目標集合中未通過驗證的非可信數據所對應的標注結果,并將經過更正的目標集合存放入預先建立的標注數據庫中,利用所述標注數據庫對所述目標標注模型進行更新;
其中,所述待標注數據用于作為機器學習的訓練樣本數據,所述標注結果用于作為機器學習的所述訓練樣本數據的標注。
【案例四】分析如下:
案例四的解決方案主要是通過訓練好的目標標注模型對多個待標注數據進行標注后,又利用目標分類器篩選出更有可能標注錯誤的待標注數據進行抽檢,并對錯誤的標注結果進行更正。從而使得標注工作無需完全依賴于人,節省了大量的人力資源,提高了標注的效率。同時,能夠更有針對性的驗證被標注數據的結果,提高了標注的準確度。
此案在審查過程中經歷了三次審查意見,其中一通的審查意見中明確指出了公開版本的獨立權利要求不符合A2.2的規定,后面的二通和三通指出的是有關新穎性和創造性的問題?;谠摰谝淮螌彶橐庖娡ㄖ獣囊庖姡P者找到了如上的授權版本,授權版本獨立權利要求中增加了“并將經過更正的目標集合存放入預先建立的標注數據庫中,利用所述標注數據庫對所述目標標注模型進行更新;其中,所述待標注數據用于作為機器學習的訓練樣本數據,所述標注結果用于作為機器學習的所述訓練樣本數據的標注”。
結合授權后的版本,筆者分析國家知識產權局的審查思路大致如下,授權后獨立權利要求的解決方案中明確了“所述待標注數據用于作為機器學習的訓練樣本數據,所述標注結果用于作為機器學習的所述訓練樣本數據的標注”,該特征主要明確了獨立權利要求的解決方案涉及機器學習領域,雖然其對涉及到的待標注數據或者訓練樣本數據并沒有具體的應用領域的限定,但是從“并將經過更正的目標集合存放入預先建立的標注數據庫中,利用所述標注數據庫對所述目標標注模型進行更新”這一特征上明確了預先建立了標注數據庫,并調用標注數據庫對模型進行更新,而這一過程必然與計算機系統的內部結構存在特定的技術關聯,且利用更新后的目標標注模型對數據進行標注的過程,達到了提升計算機對數據進行標注的效率這一符合自然規律的涉及計算機系統內部性能改進的技術效果,故此案在審查過程中通過了客體的審查關口,并且最終得到授權。
案例五
背景技術:
數據清洗是指發現并糾正數據中的錯誤的一道程序,其任務是過濾掉不符合要求的數據。一般來說,數據清理是對清洗前的數據進行精簡以得到清洗后的數據的過程?,F有的數據清洗通常需要數據清洗人員手工實現,通過人工檢查,逐個驗證數據。
權利要求1 如下:
獲取待清洗的訓練樣本集合;
基于所述訓練樣本集合,對初始模型進行有監督訓練得到包括特征提取層的模型;
采用所述特征提取層提取所述訓練樣本集合中的訓練樣本的特征數據;
對所得到的特征數據進行聚類處理,以確定所述訓練樣本集合中孤立的訓練樣本;
基于所確定出的孤立的訓練樣本,對所述訓練樣本集合進行清洗,得到清洗后的訓練樣本集合,以及利用所述清洗后的訓練樣本集合重新對所述初始模型進行有監督訓練。
【案例五】分析如下:
獨立權利要求的解決方案主要是通過采用訓練得到的特征提取層提取訓練樣本的特征數據并進行聚類處理以得到孤立訓練樣本,并采用該孤立的樣本對訓練樣本集合進行清洗,得到清洗后的訓練樣本集合,進而無需人工清洗,豐富了數據清洗的方式,提高數據清洗的效率和準確性,進而提高了模型訓練的準確性和效率。該方案涉及到有監督訓練、聚類處理等人工智能算法,雖然對涉及到的訓練樣本并沒有具體的應用領域的限定,但是基于孤立的訓練樣本對原來的訓練樣本集合進行清洗,該清洗過程與計算機系統的內部結構存在特定的技術關聯,且整體的清洗過程降低了人工清洗的成本,節約了數據清洗的耗時,達到了提高計算機清洗數據的效率和準確性,使得計算機進行模型訓練的效果得到提升,提升了計算機系統內部性能改進的技術效果,故此案在審查過程中通過了客體的審查關口,并且最終得到授權。
結合以上案例,讀者應該可以清晰地看到國家知識產權局對AI算法類案件進行客體審查的過程中,已經逐漸的在放松客體審查的關口,并已逐步在利用《專利審查指南修改草案(征求意見稿)》中所補充的有關人工智能算法的改進方案的審查基準,這對于眾多的創新主體在AI算法上的創新無疑是非常利好的導向。