用蒸餾手法產出AI模型?

Nicholas
Nicholas

Table of Contents

語言模型與蒸餾

在當今流行的AI大語言模型領域,有一種說法,可以透過蒸餾(Distillation)的過程,將厲害、巨型但反應慢且需要大量運算資源的語言模型,蒸餾成體積小、反應快但可以差不多提供厲害回應的中、小型語言模型。

這讓我很好奇,AI的發展是否可以參考威士忌的製程?

接下來可能會有一種技術叫做發酵(fermentation)!哈哈!如果以威士忌的邏輯的話。

完整的威士忌製程

製作威士忌的完整程序是: 原料選擇->製麥 (Malting)->糖化 (Mashing))->發酵 (Fermentation)->蒸餾 (Distillation)->熟成 (Maturation))->調和 (Blending,不見得需要,端看是調和blended或是單一麥芽Single Malt)->稀釋與過濾(Dilution and filtration)->裝瓶 (Bottling)。

邏輯上來看,只採用蒸餾的威士忌,並無法釀出優異的酒,因為在蒸餾之前,得要發酵。但更嚴格地來說,發酵之前又得經過製麥 (Malting)和 糖化 (Mashing)的過程。但一開始的原料難道不重要?

以威士忌製程比擬AI工序

目前大型語言模型只選擇同一種榖物原料:網路上的文字資料。或許有類似糖化的過程(資料取得後的清理...等等),但看起來在發酵部分著墨不多。我認為是尚未考量或能模擬不同真人的腦部運作方式可能有很大的不同。

試想: 米開蘭基羅 vs 達文西 vs 巴哈 vs 貝多芬 vs 柴可夫斯基 vs 愛因斯坦.....這些過去非常厲害的人,他們的腦袋運作方式和能力一定很不一樣吧!?。簡單來說,同樣的資料(原料)輸入給這些厲害的人,應該會有不同(發酵)的結果。

而熟成、調和、稀釋和過濾、裝瓶等程序,目前AI模型在發展時應該已有類似的工序過程。

AI只能有一種型態的模型?

不知當初誰開始以蒸餾來命名的?是否他/她愛喝威士忌?但若不以威士忌來參考、比擬或學習,有哪種現實事物可以拿來學習?

我一直相信約翰藍儂的腦和保羅麥卡尼一定有很大的不同的。因此我猜想,若許從神經科學的角度,或有更多異想不到的寶吧!

所以從邏輯上推演,AI模型不見得侷限在語言模型,或許未來會有飲食模型、視覺模型、心理模型、精神模型、原子模型.....

人的腦才是最大的奧祕所在。AI既然以人工智慧來定義,就是要學人的腦袋、智慧、思維,才能施展出耐心、細心、創意,以更精準、快速的方式。

策略