Blog
XE 스팸공동대응 API 모듈가이드 [1/3]
2010.11.30 16:11
안녕하세요. XE개발팀 입니다.
스팸공동대응 API를 이용하여 XE로 개발/운영된 사이트의 스팸성 게시글을 효과적으로 차단해주는 XE 스팸공동대응 API 모듈을 사용하시는데 조금이나마 도움이 되시길 바라며 포스팅합니다.
게시물의 스팸 지수를 알아봅시다.
스팸공동대응 API는 여러가지 필터를 이용하여 등록되는 게시글이 스팸인지 아닌지를 판단하는 오픈 API 서비스입니다.
현재 스팸공동대응 API에서 스팸을 처리하는 방법에는 크게 3가지가 있으며 그 3가지 모두 XE 스팸공동대응 API 모듈에서 사용할 수 있습니다.
[1. nScore]
원리 : 게시글의 내용을 분석하여 스팸 점수를 책정
이 스팸필터는 사용자의 많은 참여가 함께 되어야 똑똑해지는 필터입니다.
공동으로 스팸에 대응하자는 취지로 만들어진 대표적인 필터이며 사이트 관리자가 스팸성 글을 신고하게 되면 그 신고된 글을 분석하여 스팸공동대응 API를 학습시키게 됩니다. 즉 사이트 관리자 분들이 직접 스팸공동대응 API를 학습시켜 주는 것이죠. 공부를 많이 할 수록 시험점수가 잘나오는 것과 같이 스팸공동대응 API도 사이트 관리자 분들이 학습을 많이 시켜주면 더 정확한 스팸지수를 책정하는 능력을 가지게 됩니다.
1) 어떤 것을 스팸이라 할 수 있나요?
nScore에서 판단할 수 있는 스팸성 게시글은 아래와 같은 기준이 모두 포함되어야 합니다.
A. 도배성
B. 홍보성
C. 불법성
D. 선정성
위의 4가지 성질은 대부분 한 게시글에 함께 포함되는 경우가 많으며 모두 부합되는 게시글을 신고하시는 것이 관리하시는 사이트의 스팸 점수의 정확도를 높이는데 도움이 됩니다. 위의 기준 중에 하나라도 빠져있는 게시글을 신고하시면 오히려 다른 스팸성 게시글의 정확도를 낮추게 되어 사이트에 스팸성 글들이 등록되는 것을 도와주게 됩니다.
예)
적극 신고가 필요한 올바른 스팸성 글
(1)
"정〜식 온〜라인 서비스 오픈``카♠지♠노 업계 최초 소비자 만족도 1위 업체 선정온〜라인으로 인생역전의 즐거움을 맛보세요♥http://wow.party.lc ; ♥♥ http://wow.party.lc ; ♥♥ http://wow.party.lc ; ♥♥ 국내최초 현★지★생★중★계 SEXY딜러 ♥♥ 초〜간〜단 무〜료〜가〜입으로 〜게〜임〜관〜전 가능!!!♥♥ 게〜임〜머〜니 환〜전〜수〜수〜료 0원 ♥♥ 승패조작 일절 없음!!! ♥♥100%호텔 [카〜지〜노〜 생방송 [블,랙,잭],[바,카,라] ♥♥ 24시간 1:1상담 및 콜센터 ♥♥ 24시간 5분이내(1억까지) 입출금 안전거래 ♥♥ 단, 1억이상은 30분이내 가능합니다 ♥♥ 1:1 맞〜춤〜계〜좌 운〜영 정〜보〜유〜출 0% ♥♥ 가입절차 초간단 (NO 주〜번,NO 인〜증) ♥♥ 와〜와〜카〜지〜노,썬〜시〜티(태〜양〜성〜)♥다〜모아〜카〜지〜노,스〜타〜카〜지〜노 ♥♥ http://wow.party.lc; ♥♥ http://wow.party.lc ; ♥★ 즐겨찾기 해두세요 ★"
(2)
"친구대행 ; 하객대행http://syyo.2.ag ; 역할대행 ; 베이비시터 ; 술친구 ; 애인대행정보 ** http://syyo.2.ag** 친구대행 ; 하객대행 ; 역할대행 ; 베이비시터 ; 술친구 ; 애인대행정보 ** ;(프리메이트) http://syyo.2.ag 조건만남 / 애인대행 만남사이트.. 애인대행/술친구/파트너를 만나기엔 프리메이트입니다 ==>http://syyo.2.ag "
스팸으로 신고를 자제해야 하는 글 - 한 사이트에서 스팸성 글이라도 다른 사이트 혹은 전체 사이트에서는 스팸성 글이 아닐 수 있다는 것을 염두해주세요.
자신의 사이트를 욕하는 글이나 일반적인 욕설 및 광고글
(1)
"**일보 정말 쓰레기 같은 언론사네 못보겠다 이 **일보는 짜증난다 진짜"
(2)
"** 사이트 사기꾼 사이트입니다. 조심하세요."
(3)
"**새끼, **죽어, ** 나랑 한번 할까?, ** 만나고 싶다, ** 결혼하고 싶다. 등등"
신고가 되어도 학습되지 않으며 사전으로 처리해야할 스팸성 게시글
(1)
"한류스타 이다해, 中 트위터 팔로워 20만명 한류스타 이다해가 중국 시나 닷컴이 운영하는 중국판 트위트인 웨이보(wei-bo)를 부산경마 :http://BRACE24.TK/ ‘오빠믿지’ 통해 한달 만에 약 20만 팔로워를 돌파해 중국팬들에 대한 인기를 실감케 했다. 국내 배우로는 처음으로 중국 시나닷컴 트위터 신랑웨이보에 등록한 이다해는 18일 “‘웨이보’를 시작한 지 4주 만에 팔로워 20만명을 돌파했다”며 “기분 좋네요~”라고 들뜬마음을 트위터에 남겼다. 3d경마게임 : http://GOODRACE.TK/ ‘초고속인터넷 보급률’과 ‘품질지수’를 바탕으로 초고속인터넷 리더십 점수를산출 평가한 결과 초고속인터넷 보급률 100%와 품질지수 81점을 받은 우리나라가 종합 1위를 기록해 2년 연속 ‘초고속인터넷 리더십’ 1위(157점)를 차지했다. 뒤를 이어 홍콩이 2위(118점), 일본이 3위(116점)에 올랐다. "
위와 같은 게시글의 경우 정상적인 내용에 중간에 짧은 홍보성 글 혹은 url을 첨가하여 스팸성 글로 게시한 경우입니다.
위와 같은 경우 신고를 하셔도 nScore에서 스팸 점수를 구하여 차단하기 힘든 경우이며 이는 다음 XE 스팸공동대응 API 모듈 가이드 [2/2]에서 설명드릴 사전 필터로 해결할 수 있습니다.
2) 신고는 어떻게 하나요?
투철한 신고정신으로 스팸성 게시글을 신고하고 싶은데 어디서 해야할지 모르시는 분들을 위해 간단히 신고하는 방법을 알려드리겠습니다.
* 신고하는 버튼이 있는 곳 *
경로
XE 사이트의 admin 페이지 -> XE 스팸공동대응 API 모듈 -> 문서목록, 댓글목록, 엮인글목록 페이지 -> 오른쪽 상단의 "스팸신고 및 삭제" 버튼
위의 경로에 아래 그림과 같은 신고하는 버튼이 위치하고 있습니다.
* 신고하는 방법 *
아래 그림과 같이 신고하고자 하는 게시물의 앞쪽 체크 버튼을 클릭해서 체크한 상태로
"스팸신고 및 삭제" 버튼을 클릭하면 해당 게시글이 스팸공동대응 API로 신고되어 학습하게 됩니다.
3) 학습을 하고 안하고는 어떤 차이가 있나요?
스팸공동대응 API에 적용되어 있는 nScore 필터는 학습을 많이 하면 할수록 점점 더 정확해지는 필터입니다.
신규 스팸성 글이 아래와 같이 게시물로 등록되었다고 예를 들어보겠습니다.
"정〜식 온〜라인 서비스 오픈``카♠지♠노 업계 최초 소비자 만족도 1위 업체 선정온〜라인으로 인생역전의 즐거움을 맛보세요♥ http://wow.party.lc ; ♥♥ http://wow.party.lc ; ♥♥ http://wow.party.lc ; ♥♥ 국내최초 현★지★생★중★계 SEXY딜러 ♥♥ 초〜간〜단 무〜료〜가〜입으로 〜게〜임〜관〜전 가능!!!♥♥ 게〜임〜머〜니 환〜전〜수〜수〜료 0원 ♥♥ 승패조작 일절 없음!!! ♥♥ 100%호텔 [카〜지〜노〜 생방송 [블,랙,잭],[바,카,라] ♥♥ 24시간 1:1상담 및 콜센터 ♥♥ 24시간 5분이내(1억까지) 입출금 안전 거래 ♥♥ 단, 1억이상은 30분이내 가능합니다 ♥♥ 1:1 맞〜춤〜계〜좌 운〜영 정〜보〜유〜출 0% ♥♥ 가입절차 초간단 (NO 주〜번, NO 인〜증) ♥♥ 와〜와〜카〜지〜노,썬〜시〜티(태〜양〜성〜)♥다〜모아〜카〜지〜노,스〜타〜카〜지〜노 ♥♥ http://wow.party.lc ; ♥♥ http://wow.party.lc ; ♥★ 즐겨찾기 해두세요 ★ "
이 신규 스팸성 게시글은 현재 이 포스팅을 하는 시점에서 20점 정도의 스팸 점수를 받고 있습니다. 만약 그런데 XE 스팸공동대응 API 모듈에서 보관 점수 (글 게시 차단 설정 점수)를 40점으로 해놓았다면 위의 글은 스팸으로 인지되지 않고 정상적으로 글이 등록될 것입니다.
이 글을 사이트 관리자분들이 빠른 신고를 하여 스팸공동대응 API에 학습을 시키게 되면 점수는 계속 상승하여 50점, 60점 계속 올라가게 될 것입니다. 그러면 이런 유사한 패턴을 가진 스팸성 게시글은 모두 함께 점수가 상승하게 되며 초반에 등장 했을 때는 몇몇의 스팸성 게시글이 작성되겠지만 차후에는 신고한 사이트에만 아니라 다른 모든 사이트에서도 이와 같은 스팸성 글은 게시되지 못하게 될 것입니다.
4) 내 사이트에서 게시글 차단은 몇 점 정도로 해야할 까요?
실제 사용 측면에서 유의해야할 점은 게시글을 차단할 점수를 설정하는 부분입니다. 사이트에서 스팸 점수를 볼 수 있는 곳은 곧 배포될 XE 스팸공동대응 API 모듈에서 문서목록, 댓글목록, 엮인글목록에서 현재 게시되는 글의 점수가 몇점을 받았는지 알 수 있도록 할 예정이며 그 점수를 계속 체크하시어 적정한 점수로 설정하시면 됩니다.
이 설정 점수는 모든 사이트가 동일하게 책정될 수 없습니다. 각 모든 사이트들이 다른 성향을 가지고 있으며 모든 게시판이 다른 성향을 가지고 있기 때문에 점수는 사이트마다 유동적으로 변경하여 설정하고 또 계속적으로 학습하고 신고가 되기 떄문에 시간이 변화되면서 점수를 다르게 설정하여야 합니다.
현재 보편적으로 유용하게 사용할 수 있는 점수는 보관 점수(게시글 작성 차단 점수)를 약 20~30점 사이로 책정하시면 됩니다. 그렇게 했는데도 스팸이 등록될 경우 그 스팸성 글은 신고하기로 점수를 올리시면 차단되게 됩니다. 설명드린 점수는 모든 사이트에 동일하게 설정될 수 없으며 사이트 관리자분들이 게시글의 점수를 잘 체크하시면서 유연하게 설정하시면 됩니다. 아래 그림을 참조하시면 됩니다.
다음번에는 스팸공동대응 API의 사전 필터 기능에 대해서 알아보고 어떤식으로 사용하면 유용하게 사용할 수 있을지에 대해 알아보겠습니다.
함께 이용하고 함께 만들어가는 스팸공동대응 API로 깨끗한 인터넷 환경을 만들 수 있기를 바랍니다.
감사합니다.
- [2012/01/28] 묻고답하기 네이버 지도 오픈 API를 입력하는 곳이 없네요.
- [2010/11/23] Blog 스팸공동대응 API에 외국어스팸필터가 등록되었습니다. *3
- [2010/11/02] Blog XE 스팸공동대응 API 모듈을 배포합니다. *16