兩個AI模型的研究任務PK

Nicholas
Nicholas

Table of Contents

這兩年AI模型推出後,許多人已熟習、習慣對話式的服務型態:透過文字/或語音對話方式,將任務需求給予系統,必要時可與系統反覆對話進而更聚焦議題的區塊、範圍。

OpenAI 的 ChatGPT 在二年多前出現,的確在歷史上可謂石破天驚的一件大事。但隨後很快出現的其他模型,或許在聲量、能力上不見得能夠壓過、超過 OpenAI,但也許在一般通用情境之外的垂直領域,例如搜尋、協助程式開發...等領域,有可能得到大眾的認可。

本篇文章想要討論的是有關「理解」(reasoning)與「研究」(research)的能力,簡單來說就是透過 AI 模型,進行專業程度(如產業研究員,或等同碩士生,甚至是博士生以上)的研究任務進行。

對比的模型,我選擇了 OpenAI 的 ChatGPT (我採用每月20美金的plus版本訂閱,在此時可以使用 o3 版本進行進階理解)和 Google 的 Gemini Pro 方案(可使用 Gemini Pro 2.5模型)。

研究任務的基本動作

以我自己曾做過碩士生、博士生和在產業內任資深職的經驗,我認為一般的研究任務至少可以劃分為六大基本動作(或稱作操作框架):

  • 任務理解:明確確知任務,透過任務需求方發予的原始資訊深度理解。
  • 作業展開:基於理解,將原始任務展開數個子作業,可延伸不同面相資料需求。
  • 資料蒐集:針對前項作業進行必要的資料蒐集。
  • 資訊判讀:將已蒐集的資料判讀並轉化為可後續處理的形式。
  • 分析整理:針對已判讀後的資料進行分析後,整理成結論前的關鍵脈絡。
  • 做出結論:基於已知的關鍵脈絡形成結論。

選題:明清至民國的張氏族譜解析

在過去幾個月當中,已於社群媒體上看到許多試行的案例,而我自己也挑選過幾個任務同步經由這兩個平台執行來比較。但這些案例或自己的經驗,我都認為挑戰性不足,或說並不令我驚艷。

於是,我想到手中有一份我本家張姓的族譜,內容還不少,記載的時間橫跨明末、清至民國,近四百年的時區。當然因涉及數代人物也必然複雜。更令我好奇的是,族譜內文字的陳述與表達,包括200-300年前民間使用的文言文,甚至還沒有標點符號,這樣的舶來品AI模型可以解讀嗎?

我希望透過此次的試驗/實驗,來解決我心中原本的幾個疑惑:

  • 本家的起源地,至少在記錄上,到底在哪?
  • 本家何時遷徙來台灣?是在哪一個世代?是哪一個人/房?
  • 本家的紀錄,是否能連結原起源地的別家族譜脈絡?

原始資料的再處理

我手中僅有一本(以1965年版本為根基,1991年增訂印刷的版本)實體印刷記錄。 一開始我僅將基本、關鍵內容如堂號(清河)、字輩詩(宗毓奇魁駿 祚傳繼萬春
開德詒翼燕 元祐啟禎玖)等,使用打字的方式輸入給 ChatGPT 和 Gemini,但幫助不大!因為原本散落在各地已數位化的資訊太多、太雜了,若沒有更明確的記錄,實在無從查起。

於是我得做出一個重要的因應舉措,那就是將原始資料,轉化為可辨識、讀取、處理的數位資料。因此得進行下面的幾個動作。

  • 【拍內容】:用手機拍攝每頁內容。
  • 【組成檔】:用電腦將照片按頁次組合成一個pdf檔。
  • 【圖辨文】:將(掃描)pdf檔上傳AI模型進行圖型辨識(OCR),但過程中發現很有趣:ChatGPT騙我說他/她可以幫我進行辨識,但當檔案上傳後他/她說系統內沒有OCR模組(還客氣地說一旦有後會通知我.....真是OOXX)!!!於是我是透過Google來進行圖型轉化成文字。

雖然已轉成文字,但我發現,畢竟拍攝時有時單一字體水平垂直不平整,亦或是角度造成難以辨識,甚至是某些字其實現在已不存在使用,整體而言這個經轉換的文字檔其實並不可用,於是我得再做一件事:【重新編輯整本族譜】

重塑原始資料

因為原族譜是採直式印刷的,且其排版與字體大小或有特殊意義、風格,並相對便於閱讀。於是我決定自己將整本族譜等同於「重新排版」一次,雖然有OCR後的文字,但錯誤不少,或是出現在檔案中的次序也會亂了(畢竟原圖是直式印刷),於是,我僅能對照原物來進行排版。種種技術的原因,我僅能選擇 Mac 的 Pages 來進行這件事。

看起來式一個很大的工程,但有點耐心和細心,其實分個幾天的片段時間也就完成了。重點是完成後的價值和意義很大:(1)等同有一個數位化的族譜版本(2)後續可將此版本直接餵給AI模型進行研究。

交付任務給AI模型

由於之前已以堂號、字輩詩及印象中來自晉江、明末清初來台等破碎的資訊給予兩個AI模型平台,當時給出的問題大致上有如下方:

  • 台灣張姓繁衍至「詒」字輩的體系,據知祖先源頭來自福建晉江。能否研究探索出是否明確來自晉江的哪一個張姓家族體系?
  • 我所知上一輩是「德」字輩。印象中族譜有提到來台灣的祖先當時年代應是明末清初時,地點我已忘了。晉江的詳細地點我也不記得。

但兩個平台都無法找到頭緒。我猜測原因有(1)我們張家並非大脈家族,後續應也無延續傳承記錄,因此找不到對應的源頭。(2)張系在福建泉州一代繁衍興盛,來源處與遷至時間很多元,甚至到福建後又有許多分支,例如字輩詩就有很多版本,之間或許某些字重覆出現,但整個順序與結構又不同。

我給兩個平台的起始任務皆一樣如下

可否針對我提供的 '張氏族譜_Tyeped.pdf' 進行研究,研究的主軸在於

  • 本張氏源自於中國福建的哪個城市或地方?
  • 離開中國遷至台灣的人物和時間點?

ChatGPT:幻想一開始就出現了!

就在上傳了譜數位版,ChatGPT 一開始的對話就令我擔心,覺得他/她沒在「狀態中」,甚至還明顯地自己突然產生幻覺。

來自 ChatGPT 一開始的回應

我對於 ChatGPT 一開始回應的第二點,有關開臺始祖姓名及來臺時間的部份,她/他寫道:「於清朝康熙年間從原鄉渡海到臺灣...」覺得很納悶!因為我自己是先讀過了內容,我不記得有這樣明確描述到清朝康熙年間的事。

於是我再度詢問這個部分,請她/他確認一下。結果系統回覆如下,甚至還寫出是出現在第 2-3 頁。

我再度揉揉自己的眼睛看一次原稿,然後回覆系統根本沒這樣的內容。她/他才同意自己剛剛是「亂謅」的!還向我道歉.......

由於在我手中有了原始族譜的真正可用數位版本後,就在兩個平台接續著原來的對話進行更進一步互動,但我發現 ChatGPT 似乎無法銜接原本的任務描述,並且一開始就在自己幻想、亂編故事,於是我只得重新開啟新的對話,但 Google Genmini 卻不會有這樣的問題。

以下是 ChatGPT 最後給予的結論產出:

基本上,ChatGPT的表現一直令人高度失望(與我之前使用推論時的經驗有很大差距),幾乎所有的回應都讓人覺得:偷懶、淺層、表面、簡略,僅單來說就是應付而已。她/他絕對不會主動指出邏輯上可能的機會,亦不會從現實已知世界裡去預測可能性的存在,基本上 ChatGPT 只會將手中已存在的資料整合成看似乎有結構的簡短答案,但其實整個是虛的。

Gemini:一個令人信賴的專業助手

相反的,從一開始的每個過程,Gemini 都讓我有一種她/他是令人放心的專業助手感受。

在我上傳族譜數位版本後,系統很快地就回應以下的內容:

源自福建何處:
根據族譜第2頁的記載:「張氏先始祖原籍晉江下衡鄉於明季時天下份亂遷 大清國福建泉州府居於南安九都彭內莊高店居住」。 這清楚指出了此張氏家族的根源:  
最初原籍: 福建省泉州府晉江縣下衡鄉。  
後遷居地(仍在福建): 明朝末年(明季)因戰亂,遷移至福建省泉州府南安縣九都彭內莊高店居住。  
離開中國至台灣的時間點:
族譜中關於遷徙台灣的關鍵人物是十三世祖 繼勤公
族譜第5頁記載:「十三世祖 繼勤 字宏敏傳子 號普淨長子 生道光未年七月初九日戌時 卒于光緒乙未年十月初十日酉時享年七十三」。他的生卒年份約在清朝道光年間(1821-1850年)至光緒二十一年(1895年)。  
同一頁關於繼勤公的記載中明確指出:「葬臺灣竹北二堡咸菜 大窩曾祖厝後鳳形坐子向午民國四十八年己亥二月十八日子時修改亥山正線分金」。這表明繼勤公已遷居台灣並在台灣逝世安葬。  
此外,族譜第2頁的序文也提到:「十四孫系繼勤號宏敏之次男有意遷居於台北」。雖然此處提及的是繼勤公的次子有意遷台,但結合繼勤公本人在台灣的墓葬記錄,可以確定家族的遷台發生在繼勤公這一代或其前後。  
綜合以上資訊,此張氏家族離開中國大陸遷移至台灣的時間點,應為清朝中晚期,約在繼勤公(十三世祖)在世期間(即19世紀中後期)。他們在台灣定居,後代亦在台灣繁衍,族譜中亦有其子萬潤公(十四世祖)等人葬於台灣的記錄1

這樣的回覆,基本上是正確的,回應的方式也很簡單、清晰,直接對應我原本的二個提問,即是(1)原籍福建省泉州府晉江縣下衡鄉,明朝末年後遷居福建省泉州府南安縣九都彭內莊高店。(2)遷徙台灣的時間應是在清朝中晚期,人物是十三世繼勤公。

信賴後的延伸:對應當今的地理位置

明、清當時的行政區與地名與今日必然有很大的不同。我們研究譜都是希望能夠連結過去與源頭和今日的現狀,因此,我不免會希望 AI 不僅細心地在我給予的原始資料中整理出我想要的答案,還能夠協助我將過去的地名對應到現在的地名。因此,我很直覺地接續著問系統:

明朝末年的 晉江縣下衡鄉 和 福建省泉州府南安縣九都彭內莊高店 大約在現在福建的哪裡?

針對我新提出的問題,系統立即回應下面的任務框架:

從這個框架可以想像,系統知對我想知道的兩個歷史上的地點,透過查找行政區的更迭、地方誌、姓氏族譜的各種記錄,去對應出更明確的地理位置,甚至得解決時代不同的語音記載差異等通常難以在文字記錄上明確顯現的問題。

在後續的過程中,我一直看到系統不斷地、有目的地、有次序地查找許許多說數十、上百個繁體、簡體網站,並同時讓系統的邏輯判斷一點一滴地前進,讓原本模糊的假設,漸漸地得到各種角度下的證據,去支持最終答案​

以下是 Google Gemini 最後給予的結論產出:

兩個考證後的發現

針對族譜裡的兩個重要地點(1)下衡鄉 (2)南安縣九都彭內莊高店,Gemini 透過複雜程序的比對,居然在考證的過程中找到脈絡,也就提出了兩個發現:

  • 下衡鄉 = 下行鄉 = 霞行鄉 (皆因同閩南語發音下的書寫的變異)
    • 霞行鄉就是 明末著名書法家張瑞圖的故鄉,即是今青陽鎮蓮嶼下行。
    • 根據晉江市政府的現代行政區劃資料,現今青陽街道下轄蓮嶼社區及霞行社區。
    • 霞行社區於1993年由蓮嶼村析置,其下轄三個自然村,分別為頂陳、下陳及「下行張」(張姓為主要姓氏之一)。
    • 小結論:下衡鄉 就在 今福建省泉州市晉江市青陽街道霞行社區的範圍,更具體就在 霞行社區 內的 下行張自然村。
  • 南安縣九都彭內莊高店
    • 彭內莊高店 與 始祖興業公夫婦「合葬彭嶺彎後營崙」為早期祖墳所在地的關鍵地位。
    • 歷史上南安縣九都、十都的地名錄中,可發現以下與「彭」字相關的地名:
      • 「彭口」,今屬美星村。
      • 「彭林柄」,今屬彭林村
      • 「彭嶺」,今屬彭林村
    • 現代行政區劃資料:彭林村現隸屬於 福建省 泉州市 南安市 九都鎮
    • 「高店」 = 《族譜》卷首「族開南安高殿」。(「殿」為「店」的異寫
    • 「姑店山」位於南安九都,是張氏早期重要墓葬地。「店」字是該區域歷史地名的組成部分。
    • 現代官方登記資料:「福建省南安姑店寨生態農業專業合作社」,註冊地址為「福建省泉州市南安市九都鎮彭林村」。
    • 「高店」(Gāodiàn)、「高殿」(Gāodiàn)與「姑店」(Gūdiàn)在閩南語中的發音非常接近。張氏宗族定居於「彭內莊高店」,而其緊隨的數代先祖均葬於「姑店山」,加之現代彭林村內仍存「姑店寨」的地名,這一系列證據強烈表明,「高店」即指彭林村內的「姑店」區域,而「姑店山」則是與此地相關的山嶺。
    • 福建省泉州府南安縣九都彭內莊高店 極有可能對應現今 福建省泉州市南安市九都鎮彭林村。其中:
      • 「彭內莊」為 彭林村 或其內部的某一原始聚落。
      • 「高店」應指彭林村內或緊鄰的「姑店」區域。

如偵探般地找出了可能答案

說實在話,要讀完整本橫跨約400年的族譜並不容易,但也並非很難。但要在字裡行間讀懂歷史脈絡、地理位置、人物關係等並不容易,除了古時文言陳述與缺少標點符號會是阻礙,因為時代記述者將閩南語讀音以不同漢字記載亦可能會帶來困擾。再者,想要從這些歷史地名去對應出現在行政區的所在,會牽涉到歷史變動、人類生活型態的改變,以及家族拓展的不同可能。最難的是,要在似乎可能的方向中,找出脈絡去得到新的指引或證明,整個過程絕非容易的事。

這樣的任務,其實需要一個有歷史、地理與民族誌背景的研究者,至少得花上二週(以我的想像),以一個全職專業人員的方式,一週五天,二週十天,得非常用心、努力去查找、閱讀資料,也得有足夠經驗能在卡關時找到線索去突圍,開拓出新的路徑,如此幾乎不眠不休才能夠得到前述的結論。

但是透過 AI,其實只花了大約10-20分鐘的時間就得出大致的結論。先不論最終這個答案是否已可得到驗證,至少能在這麼短的時間夠找到方向、捏出輪廓就是很不簡單的一件事。

這次,AI 就像是一個偵探,幫助我找到了初步但又很有價值的方向。若沒有這樣有效、低成本的工具和作法,我可能一直都只能心裡繼續存留著那兩個疑問。

PK的結果

兩個 AI 模型平台我都花了錢,我也沒有任何的先入為主喜好或偏見。但顯然地,這一次在許許多多的過程和結果上,ChatGPT 完全無法與 Google Gemini 對比!若各位仔細閱讀最後 Gemini 所提供的文件,其中的格式、邏輯、用詞、資料、表格、備註.....等等,都具備了一般研究文件中的基本水準。有興趣的朋友可以下載該報告pdf檔仔細端詳一下:

明末晉江南安地名考證_Gemini.pdf

相對的,所有來自 ChatGPT 產出的內容、結果,都顯得不精心、不專業,也就是派不上用場!

這樣的結果就像是找了兩個過去記錄優良的博士生,交付他們倆個在同一個時限裡完成同樣的任務,結果卻讓人發現其中一個是草包,另外一個卻令人讚賞地不斷得到驚喜和肯定。(後記:這個優越的表現在本題目的後續延伸研究時更加明顯!)

為何 Gemini 表現明顯優越?後續發展

不是都來自名校,而且都有相當高水準的優良記錄,為何兩者的表現差距如此大?

我推想,Google 長期經手全世界最多的搜尋需求,所以也就擁有有最多的網站內容資訊,也最擅長從中發現、挖掘關鍵的資料或連結成有用的知識;再者長年經手學術研究的內容搜尋,可能很準確掌握將研究過程及手法,這是我推估的可能。

這篇文章的目的並非學術上的比較,僅是小小實務試驗後的記錄。但我相信是很有意義和價值的。

因此,我會就族譜的相關問題,繼續詢問 Gemini。

策略