大模型在油氣行業的落地實踐應用

聊天小達人ChatGPT的出現,引爆了整個科技行業乃至人類社會,被譽為新一代的工業革命,也讓背后的大模型技術被大家熟知。那么,什么是“大模型”呢?
“大模型”就是大型語言模型的簡稱,一個技術名詞。WIKI百科對大語言模型是這樣解釋的:
大語言模型 (英語:large language model, LLM)是一種語言模型,由具有許多參數(通常數十億個權重或更多)的神經網絡組成,使用自監督學習或半監督學習對大量未標記文本進行訓練。大型語言模型在 2018 年左右出現,并在各種任務中表現出色。盡管這個術語沒有正式的定義,但它通常指的是參數數量在數十億或更多數量級的深度學習模型。大型語言模型是通用的模型,在廣泛的任務中表現出色,而不是針對一項特定任務。
大模型的技術特征一個是“大”,另一個是“通用性”。“大”體現在大模型的參數量大、運算量大、數據量大、算力也要大。這種規模的模型可以更好地理解和生成復雜的語言結構,因為它們可以學習到大量的細微語言特征和語境信息。“通用性”,意味著可以在各種不同的任務和語言上進行訓練和使用。一旦訓練完成,可以在多個任務和領域中應用,無需針對每個特定任務進行單獨的訓練。
大模型之所以獲得各個行業青睞,主要在于具備以下優勢:
-
關聯推理能力強:可以學習掌握大量跨模態知識模式,隱空間的關聯推理能力強,具有很強的泛化能力;
-
多任務通吃:一套大模型處理各類跨模態任務;
-
人工成本低:依賴人工schema設計與數據標注比較少;
-
適配能力強:可通過調優訓練或prompt對話等方式來適配新的領域和任務。
目前,大模型在國內外可謂是百花齊放。在美國,以OpenAI、Anthropic等初創企業和以微軟、Google為代表的科技巨頭帶領著美國在AI大模型的道路上蒙眼狂奔,最大參數已達到5620億。在國內,多家中國企業、科研院所積極進入大模型競爭賽道,涌入大模型研發行列,競相開發各自的大模型,在短時間內國內呈現“百模大戰”的競爭態勢,也涌現了許多具有劃時代意義的大模型,如OpenAI的GPT-3、華為云的盤古NLP、百度的文心等。
多數大模型依然應用在廣域性知識領域。如果將大模型應用在特定行業,例如油氣行業,面臨以下幾方面挑戰:
智通云聯深耕油氣行業知識管理十余載,擁有千萬級石油石化行業專有微調語料,訓練參數達百億級,采用知識圖譜和大模型結合的技術路徑來建設油氣領域大模型。知識圖譜的優勢在于準確性、可解釋性;大語言模型的優勢在于涌現能力、適用范圍廣。兩者結合可以發揮各自優勢,解決諸多油氣行業場景問題,提高大模型在實際應用中的準確率。對于準確性比較高的生產性問題,知識圖譜為大模型提供數據、約束內容范圍,保證回答內容真實可信;在圖譜構建階段,利用大模型衍生出各類加工模型,提高圖譜構建速度、降低人工工作量。
考慮到大模型訓練需要大量GPU算力資源和油氣行業通用語料,及油氣領域大模型通常由大型區域公司、集團公司整體布局建設,智通云聯推出油氣行業基礎大模型快速構建服務模式,方便用戶在局域網內訓練企業專屬“油氣行業基礎大模型”。同時,用戶可進一步開展多專業微調和強化訓練,形成不同“專業應用模型”,實現大模型應用快速落地。
大模型具有強大的泛化能力,單一模型可用于處理各種類型任務,如文本分類、實體識別、情感分析、問答系統、文本生成等。這意味著,一個油氣領域大模型可以同時處理多項不同任務。在預訓練階段,油氣領域大模型積累了豐富油氣行業知識和常識,添加少量如企業標準、歷史方案、公文等的細分領域特定數據,就可以得到適應特定任務或領域的大模型,極大減少了開發、維護不同模型的復雜性和成本。
智通云聯自研油氣領域大模型,已實現自動學習油氣行業知識、智能識別任務類型、準確識別內容中的違規部分及對應法規條目、總結歸納油氣行業知識、編寫提綱性內容的功能。現和石油石化勘探開發研究領域知名研究院聯合,針對油氣上游勘探開發相關業務,進行油氣基礎大模型訓練、領域模型微調和強化訓練,在研究類典型場景、生產類典型場景進行試點。
油氣領域大模型訓練成功后,可以在全業務領域的不同崗位上發揮作用,提供方案編寫、報告審核、問題研判、知識問答、工作策略推薦等服務,大幅度提高業務人員的工作效率和質量,全面賦能企業數智化轉型升級。典型應用場景如下:
--油氣田百事通:通過對某一油氣田開發過程的勘探開發數據、開發方案等資料的學習,大模型可以全面掌握該油田的勘探開發技術細節、地質油藏參數、單井歷史及鉆采參數等知識,幫助不同崗位業務人員隨時、全面了解該油田的歷史背景、開發現狀和未來趨勢,將數據獲取時間縮短80%以上,全面提升油田工作者的工作效率。
--技術研究助理:利用油氣田勘探、研究對象基礎資料、歷史研究成果等內容對大模型進行微調訓練,可形成勘探開發技術研究應用模型。該模型能夠幫助研究人員快速搜集數據,輔助編制研究報告、設計報告,并智能審核報告成果,把傳統“人工研究”轉變為“大模型研究、人工審查”的新模式,大幅度縮短研究周期,提升整體研究水平。
--生產作業督導:基于對現場一線生產作業規程和歷史資料學習,大模型可以:在基層隊生產作業任務開展前,智能設計操作方案和安全作業指導書;作業中,即時提醒操作標準規范;作業后,智能編寫作業總結報告。通過智能化督導,減少作業過程彎路、提升作業效率,將作業中人的不安全行為風險降到最低,全面提升安全生產的保障能力。
--分析決策秘書:針對勘探部署、井位論證、開發方案論證、生產指揮、應急指揮等重大決策場景,油氣大模型可以為決策者及時、準確提供數據、標準、案例等決策依據,智能研判問題、推薦策略建議,全面提升勘探開發重大決策的科學性和高效性,有效降低勘探開發風險,最大程度提高油氣開發效率。
