集計

昨晩締め切った講評について。
のべ、10300件近くの講評が集まった。やっぱり1万越えましたorz


今回は、ログデータからガッと数字を浚って、スクリプトで一気に集計する方式としているため、実はもう一度集計を終わっていたりする。スクリプト設計者の小人さん、大変乙。
が、スクリプトというのは「誤字・誤表記を自動的に直してくれる」というものでもないわけで(^^;)、以下の点は人間が目視で確認していかなければならない。

  1. トラックバック/コメントなどで、重複(同じ作品ページに、同一の講評blogから複数の講評トラックバックが付いている場合)
  2. トラックバック講評で、トラックバック先が間違っている場合(違う作品宛のトラックバックが付いている場合)


これらについては一応セーフ&集計時の誤記訂正ということで、ログを手直しする。現在、この処理をやっていて、すでにトラックバックの重複分については解決が済んでいる。トラックバック講評はのべ2000件強ほどあるのだが、これはなんとか目視で解消できた。所要時間は1〜2時間ほど。


ただし、「講評blogに講評が書かれてはいるが、それがトラックバックされていないもの」については救済なしということになった。あくまで、「トラックバックされていて、作品ページから辿ることができる」という条件を満たしたものが有効となっている。
これはログデータを一括処理していくというスクリプト処理の都合上、トラバがない=見えない=存在しないという処理にならざるを得ないため。
これで凄く惜しいことになった人も発生している。


一応、「トラックバックはされたが、トラックバック先を間違えた」というのは、辿れるので救済してあるのだが、このへん非常に痛恨の極みだと思う。
昨年は有志による作業チェックリストがあったが、今年はそういうのなかったので「自分がどこまでやったか」を管理する方法がなかったのもチェック漏れが発生した原因かも。


コメントのほうの重複のうち、NAで投稿したもので「直前の投稿の補足」になっているもの、「点数を付け忘れたが、直後の追加投稿で得点を入れているもの」については問題なしとしているが、そのへんは結構ありそうなので、「重複投稿があるかどうかをチェックするスクリプト」を改めて組んでいただいて、それで名前重複を確認するということになっている。現在、重複チェックスクリプトの完成待ち。


今回は、「点数がない投稿」は投票数に含めないことになっている(処理上の問題)のだが、講評として行われているけれども点数が付けられていない(NAになっていた)ものについては、【0】点扱いとして、講評そのものは有効とした。この作業は点検中。
NAと0点は、「無効講評」「有効講評」という違いがあるわけで、そのへんはもっと強調しておくべきだったかなあorz


それでも現在までのところ10300件の講評に対して、記述上の問題として修正や重複解決が行われた項目件数は恐らく50件に満たない程度。中にはトラックバック時に発生した文字化けによるエラーの回復などもあるので、確率から言えばログデータも大変お行儀よく優秀であると言えよう。
講評時の配点については、選択式配点(コメント)の採用、blogのエントリータイトルにタグ【 】付きで記述していただくルールの徹底などについて、ご理解とご協力をいただいた点が大変大きい。去年は内容を読まないとプラスかマイナスかわからなかったりしたので(^^;)


去年はここからひとつひとつデータを拾って計算していくという作業が死者続出を招いたのだが、今年は一部のエラッタを解決すれば、集計そのものは神速で終わる。スクリプト様々、スクリプト設計者様々。


そういうことで、重複チェックの解決が終わったら案外早く一次集計*1の結果が出せそう。
皆様お待ちかねのエントリーNo.の公開と著者推薦も、かなり早く始められそう。
また、各講評者ごとの「講評達成率」も個別に出力できるようなので、こちらも「誰がどのくらい達成しているか」を示すために後日公開します。
これは、応募者講評が実際どこまで有効だったか(講評ボーナスの適正さの証拠)としても必要なので。

  1. 講評者の達成率リストは一次集計完了後に公開。
  2. エントリーNo.は著者推薦受付前に公開。
  3. 著者名-エントリーNo.は昨年同様最終結果発表後に公開。


こんな感じで行きます。


そういったわけで、今年は集計そんなにしんどくないです。
皆様、しばしお待ちを。

*1:単純に数字の結果を出したもの