On a Thread of the Web: 索引たんご（２）

索引たんご（１）からの続き

前回，5.pyというローカルの単語パズルプログラムを OpenAI o3-mini-high に作成させた。これだと，本家のパズルゲームを解くことにはならない。そこで，一日一度だけトライできる「索引たんご」の解法支援プログラムも考えることにした。

Ｑ（koshix）：
カタカナ5文字の単語当てゲームが外部サイトにあります。
そのロジックは別添のプログラムのようになっています。

単語当ての推定解をユーザが外部サイトに入れると，現時点の最小値と
最大値のいずれかが推定解に置き換わって，正解から最小値や最大値までの
距離がパーセンテージ比率で与えられます。
それをみながらユーザは次の新たな推定解を外部サイトに入力するのです。

外部サイトのゲームが持っている辞書や正解は秘匿されていますが，
自分の手元にある同様の辞書（別添ブログラム参照）と
外部サイトのゲームが返答するパーセンテージを使って
正解を推定する支援プログラムを新たに自分の手元に作りたいと思います。
この支援プログラムには，推定解の5文字単語とパーセンテージを入力します。
それを受けて新たな正解の候補を返してくれるわけです。

ここまでで，何か質問はありますか。
（別添のプログラムとして前回の5.py 105行をここにおいた）

Ａ（OpenAI o3-staff-high）：
（24秒の推論の後）
以下、現状の理解と実装にあたって確認したい点をいくつか挙げさせていただきます。
【現状の理解】
（9行省略）
【確認・質問事項】
（26行省略）
以上の点についてご確認いただけますでしょうか？
これらの点を明確にさせていただくことで、より正確でご希望に沿った支援プログラムの設計案をご提案できると考えております。

Ｑ（koshix）：
(1) 外部サイトの辞書は約12000語を持っていますが（29795語ではありません），その詳細はこちらには不明です。
最小値「アアアアア」，最大値「ンンンンン」が初期値として設定されおり，
正解との関係を判断してこれらの境界が更新されます。

(2) 外部サイトの下限から正解までの割合p1と上限から正解までの割合p2は
p1+p2=100%になるように設定されています。

(3) 外部サイトから得られる情報は，更新された「最小値」と更新された「最大値」と
これらから正解までの距離を表すパーセンテージになります。

(4) 支援プログラム（こちらの辞書は29795語）の初期値も，最小値「アアアアア」，最大値「ンンンンン」であり，内部情報としてこれらが更新され，対話的に使用します。
つまり支援プログラムの最小値や最大値は外部サイトのそれと常に一致しています。

(5) 正解は必ず最小値と最大値の範囲に入るように，推定値を入れていきます。
条件に当てはまらない場合は推定値の再入力が促されます（外部でも支援でも）。
したがって，最小値<正解<最大値を満たすので，パーセンテージは必ず計算できます。

(6) 候補はひとつだけ返してください。

(7) 支援プログラムが使うローカル辞書と外部サイトが使う外部辞書は異なっています。
それでも両者が相似関係にあるとして推定をすることになります。

さらに，質問はありませんか。

Ａ（OpenAI o3-staff-high）：
（21秒推論の後）
以下、現状の理解と、実装に向けた最終確認として追加の質問事項をまとめさせていただきます。
【現状の理解】
（20行省略）
【追加で確認させていただきたい点】
（28行省略）
以上、上記の点についてご確認いただければ、より正確な支援プログラムの設計・実装の提案が可能です。
何かご不明点や追加で伝えていただくべき事項があればお知らせください。

Ｑ（koshix）：
(1) 境界はローカル辞書の中に必ず存在します。
(2) p1の式はOK。内部プログラムでは小数点以下1桁までで十分，外部プログラムは小数点以下四捨五入した1-2桁の整数で%を返してきます。

Ａ（OpenAI o3-staff-high）：
（12秒推論の後）
以下、現時点での理解内容を整理するとともに、今後の実装方針について確認させていただきます。
【整理した前提・仕様】
（26行省略）
【今後の実装方針について】
（16行省略）
【確認事項】
（9行省略）
上記内容で問題なければ、この前提に沿って支援プログラムの実装案をご提案させていただきます。
また、上記以外にご不明点や追加でご要望などございましたら、お知らせください。

Ｑ（koshix）：
入力インターフェイスはそれで結構です。コマンドラインでの応答。
その他の補正は不要です。それではプログラムをつくってください。

Ａ（OpenAI o3-staff-high）：
（46秒推論の後）
以下は、上記の前提条件と仕様に沿って作成した Python プログラムの例です。
（説明10行省略）
（プログラム120行省略）
プログラムの使い方
（15行省略）
このプログラムは、コマンドラインで対話的に実行可能です。
ご不明点や追加のご要望があればお知らせください。

この支援プログラムを使って「索引たんご」を解いてみたところおおむねOKだったけれど，問題点が１つ発覚した。元の「索引たんご」の辞書は，ソートの段階では濁点や半濁点を除いたものとして扱っていた。これに対して前回説明したローカルの支援プログラムの辞書は，通常のソートルールに則っている。そこで，ローカルの辞書から「索引たんご」形式の辞書に変換するプログラムもOpenAI o3-mini-highに作らせた。プログラミングがはかどるわ。

Ｑ（koshix）：
次の形式のCSVファイル5.csvがある。
1,アアアアア,
2,アイアンズ,
3,アイアース,
・・・
29793,ンドンバシ,
29794,ンバラカダ,
29795,ンンンンン,

5文字のカタカナが五十音順にソートされて番号が付けられている。

ここで，濁点や半濁点の文字をそれを取り去った文字として扱って
ソートし直して付番した新しいCSVファイル55.csvを出力する
プログラムを作ってください。

例えば，「ガンシップ」は比較の際に「カンシッフ」としてソートして
付番するが，出力CSVファイル上は，「ガンシップ」のままである。

Ａ（OpenAI o3-mini-high）：
（8秒推論の後）
【解説・手順】
（14行省略）
【コード例】

import csv
import unicodedata

def remove_diacritics(text):
"""
文字列 text を Unicode 正規化 (NFD) し、
濁点・半濁点（結合文字）を取り除いた文字列を返す。
"""
# NFD正規化により合成文字を分解する
normalized = unicodedata.normalize('NFD', text)
# 結合文字（濁点や半濁点など）を除去して再結合する
return ''.join(ch for ch in normalized if not unicodedata.combining(ch))

def main():
input_filename = "5.csv"
output_filename = "55.csv"

# CSVの各行は [番号, カタカナ文字列, (その他)] と仮定
rows = []
with open(input_filename, newline="", encoding="utf-8") as csvfile:
reader = csv.reader(csvfile)
for row in reader:
if len(row) < 2:
continue # 少なくとも番号と文字列がある行のみ対象
# row[1] がカタカナの5文字であると仮定
# ソートキーは、row[1] に対して濁点・半濁点を除去したもの
key = remove_diacritics(row[1])
rows.append((row, key))

# ソート実行：変換後の文字列で五十音順に並べ替える
# 注意：日本語の五十音順に近いソートとなるが、完全な辞書順ではない場合もあるので
# 必要に応じて locale.strxfrm() などの利用も検討してください。
sorted_rows = sorted(rows, key=lambda x: x[1])

# 出力時に新しい番号を付ける
with open(output_filename, mode="w", newline="", encoding="utf-8") as csvfile:
writer = csv.writer(csvfile)
for new_index, (orig_row, _) in enumerate(sorted_rows, start=1):
# もとの行の1列目（番号）を新しい番号に置き換える
# もとの行の他のフィールドはそのまま残す
new_row = [str(new_index)] + orig_row[1:]
writer.writerow(new_row)

if __name__ == "__main__":
main()

【ポイント解説】
（14行省略）

On a Thread of the Web

2025年2月13日木曜日

索引たんご（２）

0 件のコメント: