12月8日(Blogger 5周年)からの続き
2018年の12月8日にこのブログ(On a Thread of the Web)を開始してからちょうど7年が経過した。この記事を含めて2558件だ。ブログ保存ツールで保存した月別のpdfファイルからpdftotextでテキストファイルを取りだして文字数をカウントしたのが下図である。6ヶ月移動平均を併せて描いている。
ChatGPT3周年で示したように,自分のブログ記事におけるAI対話数の割合が増えている。図でも,生成AIとの対話のコピペが自分のブログのテキスト増加の原因であることが確かめられる。そもそも惚け防止のために毎日ブログを書いているはずなのが,書くことが自己目的化するという本末転倒の疎外化現象が進行している。これまた2年前と同じことを書いていて進歩がない。
なお,1記事あたりの文字数は,2019-2022と2023-2025(ChatGPT以降)では3倍程度に増えている(UTF-8なので,2.6byte = 1文字平均で換算されている)。
2019-2022 1339 byte 515 字/記事(前半4年)
2019-2025 3254 byte 1252 字/記事(全期間平均)
2023-2025 4470 byte 1719 字/記事(後半3年)
前回に引き続いて,Bloggerの統計情報をチェックしたが,なんだかここ1年は合計200回/日のレベルになっている。もちろん当日の当該記事の1週間でのアクセスは高々10件程度に過ぎないのだけれど。
全期間(1年間) 0.49万回 = 13回/日全期間(3年間)2.34万回 = 21回/日過去12ヶ月間 1.31万回 = 36回/日全期間(5年間)6.61万回 = 36回/日過去12ヶ月間 1.98万回 = 54回/日過去6ヶ月間 1.38万回 = 77回/日過去3ヶ月間 0.45万回 = 50回/日過去1ヶ月間 0.18万回 = 60回/日全期間(7年間)17.5万回 = 68回/日過去12ヶ月間 8.11万回 = 222回/日過去6ヶ月間 4.49万回 = 246回/日過去3ヶ月間 2.45万回 = 268回/日過去1ヶ月間 1.36万回 = 453回/日
ChatGPTにここまでの全データの分析を頼んでみたところ,月ごとにまとめた1-3MBのファイル84本(12×7年)は無理だといわれた。
理由1:web ツールは PDF のバイナリ取得・保存・連続処理を前提としていない。
理由2:ChatGPT はローカルディスクを持たず,PDF を蓄積できない。
理由3:pdf の テキスト抽出エンジンを直接持っていない。
理由4:大量の PDF をロードすると、LLM への入力トークン制限(数十万)を突破する。
理由5:PDFのURLパターンが明確でも「巡回 → 逐次解析 → 統合処理」をするループ構造が現在の API に存在しない。
とのことだった。
人間が1つづつアップロードするか,まとめてzipファイルにすればなんとかなるといわれたので,127MBのzipファイルにして添付したところ,長時間試行した結果エラーで挫折されたようなので,潔くあきらめることにした。
図:ブログ記事の平均文字数とAI対話の寄与分

0 件のコメント:
コメントを投稿