Lies, damned lies, and statistics: 어느 화장실이 더 막히는가? [업데이트] 생각

화장실이 막히는 게 어디 하루이틀 일이겠냐마는 요 며칠 신문에서 화장실에 휴지통을 놓네 마네, 남자 화장실이 여자 화장실보다 더 막히네 어쩌네 하면서 기사를 쓰길래 읽어 보았는데 동의할 수 없는 부분이 있어 잠시 메모.

모든 글에는 다 의도가 있고 신문의 기사라 한들 예외는 아니라, 기자가 어떤 쟁점을 주장하고 그에 맞는 증거를 제시하는 글쓰기가 뭐 나쁘다는 건 아니다.   글쓴 기자의 판단으로 중요한 증거를 취사선택하는 것도 이런 맥락에서 뭐 나쁘다고 하긴 어렵다.  하지만, 취사선택에도 정도가 있지.  이 정도면 거의 의도적인 왜곡 수준이라고 느껴진다.  같은 자료로 정 반대의 논지를 전개할 수 있다는 점에서 그렇다.

1. 1월 10일, 조선일보의 백수진 기자는 "공중화장실 휴지통 치웠더니 변기에 쓰레기만 더 쌓이더라" (http://news.chosun.com/site/data/html_dir/2018/01/10/2018011000154.html)  라는 기사에서 2017년 7월에서 9월간 지하철 1-4호선 변기막힘 건수를 인용한다.  출처를 정확히 밝히지는 않았지만 (사실 이것도 문제다) 아마 서울 지하철의 자료를 인용한 것으로 보인다.  이 자료에 의하면 화장실을 없애는 기점으로  변기 막힘 건수가 두 배 이상 증가하는 것으로 나온다.  지하철 이용의 남녀 비율이나, 남녀 화장실 변기 개수의 차이, 계절 요인, 기타 여러 변수들을 고려하지 않은 것으로 보이지만, 일단 수치 상으로는 휴지통 치운 것과 변기 막힘에 상관관계가 있어 보인다.

2. 그런데 이 기사가 말이 많았는지 같은 날 오후에 같은 신문사의 안소영 기자(1번 기사의 취재기자라 한다)는 "[댓글+] "여자 화장실 변기가 더 막힌다", 검증해보니" (http://news.chosun.com/site/data/html_dir/2018/01/10/2018011001754.html) 라는 기사를 올린다.   안소영 기자는 주장하기를, "결론부터 말하자면, 남자 화장실이 여자 화장실보다 더 많이 막힌다" 라 하며, 이에 대한 근거로 "통계는 이렇다. 서울교통공사의 자료에 따르면, 지난해 7~9월 1~4호선 지하철역 122곳을 확인한 결과 남자 화장실 변기막힘 횟수는 1715건으로 여자 화장실(1430건)보다 많았다" 를 제시한다.  1715건이 1430건보다 많으니 남자 화장실이 여자 화장실보다 많이 막힌다는 이야기는 언뜻 보면 그럴 듯 하다.   이 뒤로 청소담당자들의 인터뷰를 추가하는데, 10명의 인터뷰는 통계적으로 거의 의미가 없다 보면 서울교통공사 자료의 "통계"가 안소영 기자의 주장에 있어 가장 중요한 근거가 된다.  이 통계는 추측하기로 1번 기사의 그래프와 동일한 것으로 보이는데, 백수진 기자의 위 그래프에 의하면 남자 화장실의 막힘 건수는 1715건이고 (= 288 + 704 + 723) 여자 화장실의 막힘 건수는 1430건이다 (=360 + 345 + 725). 

그런데 같은 통계로 정 반대의 주장을 할 수 있다면 어떨까?  한번 보자.

"결론부터 말하자면, 여자 화장실이 남자 화장실보다 더 많이 막힌다.  통계는 이렇다.  서울교통공사의 자료에 따르면, 지난해 7~9월 1~4호선 지하철역 122곳을 확인한 결과, 화장실의 휴지통이 있었던 7월과 휴지통을 없앤 9월 모두, 여자 화장실의 변기 막힘 건수가 남자 화장실보다 많았다.  특히 휴지통이 있었던 7월의 경우, 여자 화장실의 막힘 건수는 남자 화장실의 막힘 건수에 비해 72건이나 많았다."

근거는?


3. 짧은 기사 지면에 모든 것을 담을 수는 없으니 가지고 있는 근거와 자료 중에서 제일 타당해 보이는 것을 취사선택하는 것은 당연한 일이다.  하지만, 같은 자료로 정 반대의 해석이 나올 수 있다면, 12시간도 안 돼서 추가기사를 쓰는 대신 일단 원래 기사에 대해 재고해 보는 것이 옳지 않나 싶다.  그 추가기사가 "반응이 뜨거운 기사의 댓글을 추려, 궁금증을 풀어드릴" 의도라면 더욱 더 말이다.  같은 자료로 상반된 해석이 나올 수 있는 상황에서 한 쪽의 해석만 취사선택한 후 그걸로 자신의 주장을 내세운다면, 이건 아마 둘 중 하나가 아닐까 싶다.  상반된 해석이 가능하다는 사실을 아예 몰랐거나, 아니면 의도적으로 무시했거나.  두 가지 모두, 기자의 글쓰기에는 어울리지 않는다.

4. 의도가 있는 글쓰기에 대해서: 내가 두 기자들의 이름을 명시한 이유는?  출처의 정보를 정확하게 전달하기 위해서.  그런데 그게 다 일까?

[2018년 1월 16일 업데이트]

나 말고도 인터넷에서 많은 사람들이 지적한 것을 반영했는지, 안소영 기자는 1월 14일부로 자신의 기사를 수정했다.  수정한 부분을 발췌하자면:

"통계는 이렇다. 서울교통공사의 자료(5~8호선 157개역 164개소)에 따르면, 남녀 화장실 모두 쓰레기통이 있었던 2014년 5~8호선 남자화장실 변기막힘 횟수는 1646건으로 여자화장실(1279건)보다 많았다. 쓰레기통이 사라졌던 2016년에도 남자화장실(1931건)이 여자화장실(1198건)보다 더 많았다. (5~8호선 남자화장실에서는 2014년 12월 12일, 여자화장실에서는 2015년 4월1일부터 쓰레기통이 없어졌다.)"

수정된 기사는 원래 인용했던 1-4호선의 통계를 삭제하고, 대신에 2014년과 2016년의 5-8호선 변기 막힘 횟수를 통계로 제시한다.  그렇다면 이 통계 자료는 과연 그럴듯 한가?  쉽게 떠오르는 궁금증들을 보면:

1) 2014년과 2016년을 고른 이유는 아마도 쓰레기통을 없앴던 시기 때문인 듯 하니 그건 그렇다 치고, 기준 시점이 없다.  제시된 통계는 연간 통계인가, 아니면 월간 통계인가?  Reference period를 적는 데에는 열 글자도 필요없는데 명시하지 않은 이유는 무엇인지?  안소영 기자의 수정 전 기사에서는 석달만에 천여 건이 훨씬 넘게 막혔다는 점에서, 기준 시점이 궁금해진다.

2) 왜 하필이면 5-8호선인가?  동 시점에서 1-4호선의 통계는 어떠했는가?  수정 전 기사에서 1-4호선의 통계를 월별로 제시한 것으로 미루어 2014년과 2016년의 1-4호선 통계를 구하기가 어렵지는 않아 보인다.  만일 1-4호선의 통계도 같은 경향치를 보인다면 - 남자 화장실이 더 막힌다 - 한 줄 더 써 넣는 게 크게 문제는 되지 않을 것이다.

언급할 것이 몇 가지 더 있지만, 논지는 이것이다.  수정 전이나 수정 후 모두, 기자가 의도적으로 자기 입맛에 맞는 통계 수치를 골라서 보여준다는 의혹이 생긴다.  처음에 말했지만, 한정된 지면에 논지 전개를 해야 하니 이해는 한다.  그렇지만, 이렇게 빈약한 통계를 가지고 "결론부터 말하자면, 남자 화장실이 여자 화장실보다 더 많이 막힌다" 라고 주장하는 것을 보니 안타깝다.  Shame on you.

Microsoft Word: 캡션과 Cross-reference로 텍스트에 표나 그림 제목 번호 넣기 생각

지난 번에 이어 또다시 MS Word 관련된 것인데, 이것도 역시 까먹지 말자는 차원에서.

문서를 작성하면서 그림과 표를 넣으면 보통 제목도 삽입한다.  이 그림과 표를 텍스트에서 지칭하는 경우가 자주 있는데, 예를 들면:

<표 1. 어쩌고저쩌고>
[  어쩌고저쩌고의 표 내용 ]

위의 표 1에 따르면 블라블라...

뭐 이런 식.

그런데 문서를 만들다 보면 표나 그림의 위치가 자주 바뀌게 되는데, 표 제목을 그냥 타이핑한 경우 일일이 순서를 맞춰서 번호를 바꿔줘야 한다.  이때 잘 써먹을 수 있는 것이 워드의 캡션넣기 기능.  자체적으로 필드를 넣어서, 표나 그림의 위치가 바뀌어도 순서에 맞게 숫자를 업데이트 해준다.  업데이트가 안된다 싶으면 전체선택을 한 후 (컨트롤+A) F9 키를 누르면 되고.

이렇게 하면 표나 그림에 딸린 제목 번호는 잘 업데이트가 되는데, 텍스트에서 해당 표를 지칭한 숫자는 업데이트가 안된다.  예를 들어, 위의 표와 텍스트에서 앞에 표가 두 개 더 들어갔다고 치자.  컨트롤+A와 F9으로 업데이트를 하면:

<표 3. 어쩌고저쩌고>
[  어쩌고저쩌고의 표 내용 ]

위의 표 1에 따르면 블라블라...

이렇게 표제목의 숫자는 잘 업데이트가 되는데, 텍스트에 타이핑한 "표 1에 따르면..." 부분은 다시 수동으로 일일이 고쳐야 한다.   해본 사람은 알지만 이거 꽤 까탈스럽다.  실수로 안 고치기도 쉽고.  워드가 지난 번처럼 바보같기는 하나, 이런 것은 쉬운 옵션이 있으니 이름하여 Cross-reference.

일단 표나 그림 제목을 캡션으로 만든 뒤에, 텍스트에서 해당 표나 그림을 지칭해야 할 경우 Reference 리본에서 Captions 그룹을 찾은 뒤 Cross-reference 버튼을 클릭한다.  그럼 아래의 대화상자가 뜬다.


"For which caption:" 박스에는 해당 문서에 존재하는 모든 캡션이 표시된다 (위 그림에서는 잘렸지만).  여기에서 지칭하고 싶은 표를 선택한 뒤, Insert 단추를 클릭하면 텍스트에 표 제목의 번호가 필드 형태로 삽입된다.  표 제목을 전체 다 삽입할 수도 있고, 아니면 "표 3" 의 형식으로만 넣을 수도 있다.  위의 그림에서는 표와 숫자만 넣게 설정되어 있다.

Microsoft Word: 도형과 그림 그룹화하기 생각

Microsoft Word를 사용하다 보면 도형 (shapes) 과 그림 (pictures) 을 함께 사용하는 경우가 생긴다.  예를 들어, 프로그램의 사용방법을 설명할 경우, 스크린샷을 만든 후 (그림 파일) 화살표와 텍스트박스로 (도형) 설명을 넣게 된다.  이후 편집 과정에서 도형과 그림이 따로 놀게 되면 불편하니까,  도형과 그림을 그룹화 하면 참 편하겠다는 생각을 하는데, 문제는... 

기본 설정으로는 그림과 도형은 그룹화가 안된다!  도형끼리, 그림끼리는 그룹화가 잘 되는데, 도형과 그림은 그룹화는 고사하고 아예 같이 선택되지도 않는다.  오마이...

잠시 좌절후 검색해 보니 역시나 답은 있었다 (https://ifonlyidknownthat.wordpress.com/2015/02/03/microsoft-word-grouping-shapes-and-pictures-together).  방법은 의외로 간단한데:

1. 그림을 삽입한 후 레이아웃 옵션을 확인한다.  아마 기본 설정인 "텍스트 줄 안 (In line with Text)"이 설정되어 있을 텐데, 이넘이 만악의 근원.
2. 그림의 레이아웃 옵션을 "텍스트 배치 (With Text Wrapping)" 중 아무 것이나 고른다.  보통 "Top and Bottom"이 편하다.
3. 설정 후, 필요한 도형을 그림 위에 삽입한다. 
4. 도형을 다 삽입한 뒤, 그림과 도형을 모두 선택한다.  놀랍게도, 진짜 된다!  그림과 도형을 모두 선택한 후, 그룹화를 선택하면...
5. Voila!  그림과 도형이 한 그룹이 되어 같이 움직인다.
6. 마지막으로, 그룹화 된 그림/도형의 레이아웃 옵션을 다시 "텍스트 줄 안"으로 설정한다 (이게 편집이 편하다).

* 도형을 먼저 삽입하고 (3번) 그림의 레이아웃 옵션을 변경하면 (1, 2번) 삽입한 도형이 그림 뒤로 사라져 버리는 경우가 생긴다.  골때리게도, 뭔 짓을 해도 이 도형을 그림 앞으로 꺼낼 수가 없다!  그러니 순서를 잘 지킬 것.  먼저 그림의 레이아웃 옵션을 바꾼 뒤 도형을 삽입하자.

* 몇번의 시행착오를 겪은 후, 까먹지 말자는 차원에서 기록.

Hermione... 일상

미국에서 영화 만드는 사람들이 간이 작아진 건지, 아니면 상상력이 떨어진 건지 모르겠으나, 예전 영화의 재탕들이 많아지는 요즘.  오리엔트 특급살인을 또 만들었다길래 오랜만에 도서관에서 책을 빌려다가 읽고 있는 도중에 챕터 11에서 발견한 것이 무엇인가 하면 "메리 더밴햄"이라는 인물의 이름.

그녀의 풀 네임은 Mary "Hermione" Debenham.

한국어 번역본에서는 이 이름을 어떻게 번역했을까?  헤르미온느? 허마이오니?

SPSS Version 24 데이터 이중입력 문제 생각

종이 설문지에 응답을 받은 경우, SPSS에 데이터를 입력하기 위해서는 대개 직접 데이터윈도우에 입력하는 경우가 많다.  변수가 명목이나 서열변수인 경우에는 Value Labels 옵션을 사용하면 데이터 입력이 편한데, "1" 이나 "2" 대신 "여성"이나 "남성"이 표시되는 것이 자료 입력의 오류를 줄이는 데에 도움이 되기 때문이다.

큰 문제가 없어야 하는데, 새로 나온 Version 24가 말썽이다.  Value Labels 옵션을 켜 놓은 상태로 데이터윈도우에 직접 데이터를 입력하면, 타이핑을 한 번만 했는데도 입력값이 두 개가 동시에 찍힌다.  예를 들면, "1"을 한 번 눌렀는데 데이터윈도우에는 "11"로 이중입력이 된다.

별 거 아닌 것 같은데, 종이 설문지를 직접 입력하는 경우에 이거 참 짜증 만발이다.  처음에는 애먼 키보드만 조졌는데, 구글신께 물어보니 이건 키보드 문제가 아니라 SPSS 프로그램 자체의 문제였다.  IBM에서도 이중입력 문제를 인지해서, Fix Pack 1에서는 이 문제를 해결했다고 한다...

왜 "했다고 한다" 냐면, 나는 아직 Fix Pack 1을 설치하지 못했기 때문... 그래서 편법을 써야 하는데, Value Labels 옵션을 끄고 입력하면 이중입력이 해결 된다.


1 2 3 4 5