成功ログだけ残しても運用改善には使えない
正常終了のログだけでは、失敗時の判断や復旧手順を改善できないことについての短いログ設計メモ。
ログは残っているのに、運用改善には使えないことがあります。
よくあるのは、正常終了のログだけがきれいに残っているケースです。何時に始まり、何件処理し、何時に終わったかは分かる。普段の監視には十分です。
しかし、失敗したときに見たい情報は別です。どの入力で止まったのか、どこまで処理済みなのか、再実行してよいのか、前回と何が違うのか。これが残っていないと、結局コードとデータを見に行くことになります。
成功したこと
失敗した入力
判断に使った条件
再試行した回数
人が修正した内容
運用改善に必要なのは、成功の記録だけではなく、迷ったところの記録です。特に人が手で直した部分は、次に自動化できる候補でもあります。
LLMアプリでも同じことが起きそうです。良い回答だけを集めても、改善には限界があります。失敗した入力、ユーザーが修正した箇所、再生成した理由、コストが跳ねたケースを見ないと、運用としては強くなりません。
ログは証跡であると同時に、次の改善材料です。成功ログだけで安心しないようにしたいです。